几句话谈DeepSeek-世界时事论坛-军事论坛-世界论坛网（电脑版）

几句话谈DeepSeek

送交者: 2025年01月29日04:45:24 于 [世界时事论坛] 发送悄悄话

沙河

科技研发就像走迷宫，一路过去有许多分岔。每个分叉口可以选择，比如说，左拐或右拐。

可以这么说，在AI 大模型研发迷宫路径的一个分叉口上，目前所有AI公司都跟它们的先行者，openAI一样往左拐。只有DeepSeek 选择了右拐。结果发现，向右拐才是捷径(至少目前看来是)。

左拐，在这里是指在大模型后训练中使用监督学习微调; 右拐，采用纯强化学习。

Deep Seek另辟蹊径，右拐，可能因为强化学习是它们的强项。

强化学习源于优化算法中的动态规划(dynamic programming)。AI的强化学习就是让大模型神经网络根据动态规划的算法不断更新参数。

通过强化学习可以培养AI 大模型的推理能力，掌握用数学方程表述的人类知识，比如广义相对论，量子力学等等。笔者过去一二年里就多次建议中国AI ，特别是AGI, ASI 的研发者，关注强化学习。

但是强化学习/动态规划有点难。它在计算机算法的教科书里是靠后的，许多未来的马工没学明白就过去了。在机器学习的教科书里，老的没有强化学习，新的也是比较靠后。

对强化学习/动态规划的技术掌握最好的包括从事计算金融/量化金融的研发人员，他们开发的量化交易模型几乎都是基于动态规划。(掌握强化学习动态规划技术的还包括从事军工研发,比如导弹火箭卫星的技术人员。前几年在车祸中去世的一个被称为军中顶尖人工智能专家的，就曾经在哈佛进修过强化学习)。

DeepSeek团队从量化金融算法的研发转过来的，强化学习是他们的看家本领，运用于AI 是轻车熟路。所以他们，后来居上，一鸣惊人，是在意料之中。DeepSeek的成就是实质性的突破，堪比当年苏联的Sputnik卫星。说他们的模型是套壳的，是剽窃的，都是外行话。

0%(0)

	实用资讯

北美最大最全的折扣机票网站
美国名厂保健品一级代理,花旗参,维他命,鱼油,卵磷脂,30天退货保证.买百免邮.

一周点击热帖

更多>>

一周回复热帖

历史上的今天：回复热帖