面壁智能联创谈DeepSeek出圈:与OpenAI o1不开源有关,R1模型创造了新的ChatGPT时刻

财经 (2) 2025-02-05 15:42:49

  新浪科技讯 2月5日下午消息,近日,面壁智能联合创始人兼首席科学家刘知远在谈及DeepSeek近期引发的热潮时指出,“DeepSeek 最近发布R1模型的重要价值在于它能够完美复现OpenAI o1的深度推理能力,并且他通过开源的方式发布了相对详细的介绍,为行业作出了重要贡献。”

  刘知远指出,“因为OpenAI o1本身并没有提供关于其实现细节的任何信息,它相当于引爆了一个原子弹,但没有告诉大家秘方,而DeepSeek可能是全球首个能通过纯粹的强化学习技术复现OpenAI o1能力的团队,并且还把这种能力开源了。” 

  刘知远总结指出,DeepSeek R1的整个训练流程有两个非常重要的亮点或价值:一是通过规则驱动的方法实现了大规模强化学习;二是通过深度推理 SFT 数据与通用 SFT 数据的混合微调,实现了推理能力的跨任务泛化;这使得 DeepSeek R1 能够成功复现OpenAI o1 的推理水平。

  首先,DeepSeek R1创造性地基于DeepSeek V3基座模型,通过大规模强化学习技术,得到了一个纯粹通过强化学习增强的强推理模型,即DeepSeek-R1-Zero,这具有非常重要的价值,因为在历史上几乎没有团队能够成功地将强化学习技术很好地应用于大规模模型上,并实现大规模训练。DeepSeek能够实现大规模强化学习的一个重要技术特点是其采用了基于规则(rule-based)的方法,确保强化学习可以规模化,并实现面向强化学习的扩展(Scaling),这是它的第一个贡献。

  其次,DeepSeek R1 的第二个重要贡献在于其强化学习技术不仅局限于数学、算法代码等容易提供奖励信号的领域,还能创造性地将强化学习带来的强推理能力泛化到其他领域。这也是用户在实际使用DeepSeek R1进行写作等任务时,能够感受到其强大的深度思考能力的原因。

  “这种泛化能力的实现分为两个阶段:首先,基于DeepSeek V3基座模型,通过增强推理过程的可读性,生成了带有深度推理能力的SFT(Supervised Fine-Tuning)数据,这种数据结合了深度推理能力和传统通用SFT数据,用于微调大模型;随后,进一步通过强化学习训练,得到了具有强大泛化能力的强推理模型,即 DeepSeek R1。”刘知远表示。

  在他看来,DeepSeek R1能够取得如此全球性的成功呢,与OpenAI在发布o1之后选择不开源,同时将o1深度思考的过程隐藏起来,并且采用了非常高的收费方式有关。“这使得o1无法在全球范围内让尽可能多的人普惠地感受到深度思考所带来的震撼,而DeepSeek R1则像2023年初 OpenAI的ChatGPT一样,让所有人真正感受到了这种震撼,这是 DeepSeek R1 出圈的非常重要的原因。”(文猛)

THE END