送交者: 2025年02月08日23:53:38 于 [世界军事论坛] 发送悄悄话

大模型里中文优于英文

陈经
亚洲视觉科技研发总监

昨天 15:03

大模型里中文优于英文。Deepseek用128重“视角”审视，深入发掘了中文体系的神奇

现在很明显了，在AI看来，全球文字就只有两种值得分析，英语与汉语。别的语言没有办法竞争，都有严重缺陷，

很多语言，和英语出于同门，都是字母文字，英文到处借了不少词。同体系语言，不可能比英文语料更强。美国大模型显然英语中心论，技术牛逼，照顾你们别的语言也给训练输出。

其它语言，基本都不行。如韩文自己发明的，没有汉字造成麻烦。日文体系有大量汉字，还混杂了英语发音当名词，体系非常乱。南亚梵文，语法词汇复杂，文字还变形，流传到东南亚影响了泰文、老挝文。还有埃塞俄比亚的阿姆哈拉文，过于简单，表达不了复杂意思。梵文等不少语言问题是科学技术文章少，大模型就看不上了。

中文是唯一对手。汉语有极佳开放性，描述现代社会、科学技术没问题，还焕发出了强大的生命力。中文素材种类丰富，科技文章也多，还能融合英文名词。中文是唯一可以与英文对标的素材库。

有人说，汉字二维，字母文字一维。这不重要，大模型里汉字都转成了token。词汇表里，都是token1、token2...，用整数代表。Deepseek词汇表有12.9万个token，AI只看token，所有文字都一样。

但token之间的联系，有明显的团块，分语种扎堆。大模型预训练，就是在建立token之间的复杂联系。一个token就有好几千维的浮点数，用这么多维度去和别的token建立联系。Deepseek用61层，每层约10个大矩阵，实现“注意力”，也就是文字之间的关联。然后最关键的是，一套矩阵是一种审视的“视角”（如语法关联），Deepseek建立了128种视角去看同一段话（如逻辑关联）。也就是61层，每层128套矩阵，每套10个矩阵。每个矩阵都是7000*7000这么大。

英文世界，它不和中文发生关联。英文素材里没中文，读者不懂。但中文素材有不少英文，自然融入。也就是说，英文没法融合中文！如果以英文主打，大模型会拒绝中文。但中文却可以自然融合英文！将英文名词放中文里，毫无问题。中英夹杂输出，一定是中文主导。

大模型发现，中文的权重关联团块中，自然“导入”了英文那边的知识，一个名词就导过来了。而英文那边没法导入中文知识。外国人不知道中国的情况，中国却对外国比较了解，AI世界情况类似。

AI是哪个语言好用，就在哪努力。除非强迫它用英文思考，不许中文，那能力又不行了，和中国相关的问题拒绝回答。AI决定，中文主导、融合英文！AI就是模仿人，人类就是这个自然倾向。要么英文主导，中文白痴；要么中文主导，中英俱佳。素材往那一放，自然就是如此，OpenAI也没办法。

而且就象许多人分析的，中文内在联系丰富，表达高效，思考深入效率高。又高效，又能自然融合英文，AI自然喜欢用中文。

所以，OpenAI的o3-mini，即使问题是英文，问题本身也和中国、中文无关，它还是忍不住用中文思考，再用英文输出最终结果。

而deepseek的高水平，是在中文素材上下了很大功夫，动用了128重视角，终于把中文玩得很熟练了。它在中文上的水平，真正让人服气了。以此为基础，思考水平非常高。

500

0%(0)

请比较英语和汉语的优缺点，DeepSeek如是说 - 闲聊 02/09/25 (252)

	实用资讯

北美最大最全的折扣机票网站
美国名厂保健品一级代理,花旗参,维他命,鱼油,卵磷脂,30天退货保证.买百免邮.

一周点击热帖

更多>>

一周回复热帖

历史上的今天：回复热帖

2024:	金灿荣：中国GDP已经是日本4倍，为什么
2024:	翼展超50米，性能碾壓全球鷹，中國造出�
2023:	这篇文章将消灭共产党，花点时间把它读
2023:	拜登發表國情咨文承認中國已經崛起美�
2022:	创历史！谷爱凌获自由式滑雪
2022:	中国驻英国使馆发言人就英方要求中方“
2021:	南宋偏安可喜可贺贫限想之十
2021:	南宋偏安可喜可贺贫限想之十
2020:	涡轮，这次倒过来问你个问题，
2020:	想吃人血馒头的煞笔没想到李医生是党员

大模型里中文优于英文

陈经亚洲视觉科技研发总监

陈经
亚洲视觉科技研发总监