2025 年春节,中国科技公司深度求索开发的 AI——DeepSeek R1 获得广泛关注,成为全球最热门的 AI !人们在使用 DeepSeek R1 时发现,这个 AI 不仅思维缜密、推理能力出众,还颇具人情味。那么,它是如何成为“最会思考”的 AI 的呢?
此前,科学家主要用一种叫作“监督微调”的技术,来训练AI的推理能力。这种技术的训练过程,就像老师提供大量的逻辑例题及标准答案,让学生通过模仿来学习逻辑思维方法一样。
深度求索公司却另辟蹊径,采用了一种叫作“强化学习”的技术。这种技术不靠例题指导,而是让 AI 在反复尝试中自主探索推理方法,这也类似于人类的学习方式——借助试错和经验积累,逐渐掌握知识。
强化学习技术还为 DeepSeek R1 设置了双重奖惩机制——准确性奖励和格式奖励。准确性奖励是指,让它根据是否答对问题来给自己打分:答对加分,答错扣分。格式奖励是指,它需要在思考过程中清晰地表达每一步的推理过程,确 保答案清晰易懂,遵循了格式就得分,否则就会扣分。正是这两种奖励机制,让 DeepSeekR1 的推理能力突飞猛进。
深度求索公司还用了一种叫作“GRPO”的算法,让 DeepSeek R1 在没有“老师”的指导下,自我对比输出结果,并改进自己的推理策略。就像一个人在没有任何帮助下,仅靠自己不断摸索,最终学会了骑车一样。
- 上一篇:蟑螂救援队?
- 下一篇:没有了