繁体中文  
 
版主:bob
 · 九阳全新免清洗型豆浆机 全美最低
 
几句话谈DeepSeek
送交者:  2025年01月29日04:45:24 于 [世界时事论坛] 发送悄悄话

沙河


科技研发就像走迷宫,一路过去有许多分岔。每个分叉口可以选择,比如说,左拐或右拐。


可以这么说,在AI 大模型研发迷宫路径的一个分叉口上,目前所有AI公司都跟它们的先行者,openAI一样往左拐。只有DeepSeek 选择了 右拐。结果发现,向右拐才是捷径(至少目前看来是)。


左拐,在这里是指在大模型后训练中使用监督学习微调;  右拐,采用纯强化学习。


Deep Seek另辟蹊径,右拐,可能因为强化学习是它们的强项。


强化学习源于优化算法中的动态规划(dynamic programming)。AI的 强化学习就是让大模型神经网络根据动态规划的算法不断更新参数。


通过强化学习可以培养AI 大模型的推理能力,掌握用数学方程表述的人类知识, 比如广义相对论,量子力学等等。笔者过去一二年里就多次建议中国AI ,特别是AGI, ASI 的研发者,关注强化学习。


但是强化学习/动态规划有点难。 它在计算机算法的教科书里是靠后的,许多未来的马工没学明白就过去了。在机器学习的教科书里,老的没有强化学习,新的也是比较靠后。


对强化学习/动态规划的技术掌握最好的包括从事计算金融/量化金融的研发人员,他们开发的量化交易模型几乎都是基于动态规划。(掌握强化学习动态规划技术的还包括从事军工研发,比如导弹火箭卫星的技术人员。前几年在车祸中去世的一个被称为军中顶尖人工智能专家的,就曾经在哈佛进修过强化学习)。


DeepSeek团队从量化金融算法的研发转过来的,强化学习是他们的看家本领, 运用于AI 是轻车熟路。所以他们,后来居上,一鸣惊人,是在意料之中。DeepSeek的成就是实质性的突破,堪比当年苏联的Sputnik卫星。说他们的模型是套壳的,是剽窃的,都是外行话。


0%(0)
0%(0)
标 题 (必选项):
内 容 (选填项):
实用资讯
北美最大最全的折扣机票网站
美国名厂保健品一级代理,花旗参,维他命,鱼油,卵磷脂,30天退货保证.买百免邮.
一周点击热帖 更多>>
一周回复热帖
历史上的今天:回复热帖
2024: 英国钢琴事件之三: 非议和Mary继续争吵
2024: 七绝 题照(2179)恶习顶缸毛太阳
2023: 罕见:珠峰上空迎风飘扬着一块飞毯状七
2023: 这个孩子将改变中国!
2022: 毛泽东与枪
2022: Guo Wengui's life fell into a f
2021: “大象”快要扛不住了!
2021: 在海外 这个人血馒头香喷喷
2020: 从武汉瘟疫看中国的人性危机,及对中国
2020: 现世报!禁止港人蒙面的中共被迫蒙面