深度：DeepSeek 能不能颠覆全球AI格局？-世界时事论坛-军事论坛-世界论坛网（电脑版）

送交者: 2025年01月29日04:42:39 于 [世界时事论坛] 发送悄悄话

雷歌 2025年1月27日

一夜之间，一款“纯中国制造”的AI语言大模型DeepSeek风靡全球，也震撼了硅谷和华尔街。在苹果应用商店，DeepSeek的下载量超过了ChatGPT等热门应用，成为当日第一。而周一开盘的美股市场，以英伟达、博通和台积电为代表的AI概念股均暴跌超10%，纳指暴跌超3%。

一、横空出世

DeepSeek的独门绝技，是相对于全球领先的AI语言大模型如ChatGPT等，只用了非常少的芯片算力和训练成本（大概十分之一或更少），就做出了在功能上与可以与ChatGPT4相媲美的AI大模型平台。据媒体报道，DeepSeek在1月20日最新发布的R1模型，其预训练费用只有557.6万美元，在2048块英伟达H800 GPU（性能比H100要差不少，制裁后专供中国）集群上运行55天就完成了。而美国一些领先的AI大模型平台，一般都要用1.6万张以上的H100GPU芯片，完成一个大模型的训练费用要5亿美元以上。

（注：计算成本的方法和包括的范围可能不同。因为H800芯片的市场价超过20万人民币，2048块的总价值就超过6000万美元，因此说DeepSeek-R1预训练成本不到558万美元，显然不包含购买GPU集群和搭建平台的费用。）

DeepSeek带来的冲击，首先是美国大型AI公司每年几百亿几百亿地烧钱的模式受到质疑，还有没有必要？搞得AI大厂都去抢购囤积英伟达GPU，英伟达芯片价格近年水涨船高，一片都要好几万美元。而英伟达股价也在2023至2024两年间最高涨了超过十倍，超越苹果微软成为全球市值最大的公司。也正因为此，今天英伟达股价暴跌近17%，市值一天内就蒸发近6000亿美元。

另一方面则是对组建AI大模型在技术策略上的启发。DeepSeek的技术策略有没有可能在其它平台复制和推广，甚至成为新的主流技术策略选择呢？多快好省地搭建AI平台，肯定是大势所趋。如果技术上可行，就一定会成为必然选择。但这一点，就目前能收集到的信息看，还是不确定的。DeepSeek-R1发布后，还有待于业内对它进行深度解构和评估，这需要一定时间。

这两个方面是相互关联的。显然，如果多快好省的技术策略可复制，那目前美国大型AI公司的烧钱模式就立马会被抛弃，短时间内英伟达GPU芯片可能就没那么香了（当然长远看，英伟达芯片还是屹立不倒，因为组建AI平台的费用门槛大幅降低后，会有无数原先没实力进入这一领域的中小公司进入，变成百花齐放，对英伟达GPU芯片的总需求说不定还会扩大）。

二、Bug与隐忧

DeepSeek-R1发布后，业内普遍惊呼这是出人意料的“黑科技”，全行业都受到巨大震动。专业人士分析，DeepSeek在架构设计和优化技术上进行了创新，包括混合专家架构（MoE）、多头潜在注意力机制（MLA）、优化预训练语料库等。这些技术使得DeepSeek能够在保持性能的同时，大幅度降低计算和存储需求。

通俗一点说，就是以下做法：

1、数据压缩：通过MLA架构和FP8混合精度（ChatGPT使用FP16，精度更高，需要的算力就大好多倍），减少数据量，降低内存占用。

2、选择性处理：优先处理重要数据，简化次要数据，提高训练效率。

3、知识蒸馏：利用“教师模型”生成高质量数据，加速“学生模型”训练。

据《每日经济新闻》报道，去年12月27日DeepSeek-V3发布后，许多试用者发现一个奇怪现象，当你问DeepSeek“你是什么模型”时，它会回答：“我是一个名为ChatGPT的AI语言模型，由OpenAI开发。”它还补充说：“是基于GPT-4架构。”

《每日经济新闻》采访了一些AI专家，他们分析可能是DeepSeek-V3模型使用了ChatGPT-4生成文本的公共数据集，对这些数据集进行“知识蒸馏”（即上述第3点），用简便的方法获得新模型需要的有效数据（不必像原创模型那样从海量数据中通过大量试错获得）。使用这些数据训练新模型时，新模型会记住数据的源头特征并反刍表达。

12月27日，OpenAI的CEO 奥特曼（Sam Altman）在X上发帖说：

“复制你知道有效的东西是（相对）容易的。

当你不知道某件新奇、有风险且困难的事情是否会成功时，去做它是极其困难的。”

有媒体立刻猜测，这是奥特曼在讽刺竞争对手使用OpenAI的现成数据。而且这也可能是DeepSeek能够在低算力低成本条件下，快速训练出与ChatGPT效果类似的新模型的重要原因之一。

简单归纳，DeepSeek使用的实现低成本快速训练AI大模型的上述三种方法中，第1种“数据压缩”和第2种“选择性处理”都属于DeepSeek的开创性架构设计和工程技术创新。而第3种“知识蒸馏”则留下bug，因为使用别的原创模型输出的数据训练自己的新模型，造成的结果是你的新模型的输出结果，永远不可能超越原创模型。

三、三点结论

分析到这里，现在我可以尝试回答大家都关注的最核心问题：DeepSeek的横空出世会不会颠覆美国一路领先的全球AI格局？DeepSeek会给全球AI发展带来哪些积极影响？

我有三点不太成熟的结论供大家参考：

1）DeepSeek的低成本快速成型模式，首先从方法上对AI行业造成巨大的思想冲击，富有启发性，将强有力地推动其它AI公司改变以前一味强调高投入的思维定势，转向探索低成本快速搭建模型平台的技术可能性。我相信这种转变一定会出成果。因此DeepSeek给全行业带来的启示意义重大。

2）DeepSeek目前使用的工程构思和技术策略能不能复制到其它AI平台的搭建，尤其是方法1和方法2，目前尚无定论，有待业内进一步尝试和探索。如果能够复制，那对AI行业的下一步发展将影响深远。即使不能完全复制，哪怕是借鉴这种思路，如压缩数据的架构设计和优先处理重点数据的技术创新，也将是非常积极的影响，很可能在不远的将来带来巨大成果，甚至是革命性的技术突破。

3）以DeepSeek目前的现有成果，无法改变美国引领AI的全球格局，也不会改变中国在AI领域模仿、学习和追赶美国的总体姿态。尽管DeepSeek的方法具有开创性，但DeepSeek的最终产品因为“数据蒸馏”依然缺乏原创，严格说来还是个山寨品。

“数据蒸馏”决定了DeepSeek输出的基础性产品无法超越原创AI大模型。而且“数据蒸馏”只能在别人已经原创的成果基础上进行。

在更多的AI实际应用领域，如生物医疗服务、自动驾驶、AI机器人等还在开发的应用中，“数据蒸馏”在原创模型获得成功前无法做到，在原创模型获得成功后又可能遇到不会开源分享的难题（因为利益冲突），因而没有用武之地。一切原创的AI应用模型，只能老老实实投入算力、时间和资金。这可能也是目前的DeepSeek无法从根本上改变全球AI格局的深层原因。

比如在市场潜力巨大的自动驾驶和AI机器人领域，目前领先的是马斯克的特斯拉。根据特斯拉FSD自动驾驶AI平台目前的迭代速度，它很可能在未来三至六个月内越过L4临界点，达到完全无人驾驶标准（更高级别还有L5）。但特斯拉FSD无人驾驶实现后，原创者不大可能在短时间开源分享数据和算法，让竞争对手通过“数据蒸馏”快速萃取而分享或蚕食自己的市场。这类有市场前景的AI应用只能依赖于原创而不是山寨。反而是一些涉及公共服务的领域如生物医疗等AI应用，倒有可能更快地开源分享。

0%(0)

	实用资讯

北美最大最全的折扣机票网站
美国名厂保健品一级代理,花旗参,维他命,鱼油,卵磷脂,30天退货保证.买百免邮.

一周点击热帖

更多>>

一周回复热帖

历史上的今天：回复热帖

2024:	英国钢琴事件之三：非议和Mary继续争吵
2024:	七绝题照（2179）恶习顶缸毛太阳
2023:	罕见：珠峰上空迎风飘扬着一块飞毯状七
2023:	这个孩子将改变中国！
2022:	毛泽东与枪
2022:	Guo Wengui's life fell into a f
2021:	“大象”快要扛不住了！
2021:	在海外这个人血馒头香喷喷
2020:	从武汉瘟疫看中国的人性危机，及对中国
2020:	现世报！禁止港人蒙面的中共被迫蒙面