繁體中文  
 
版主:黑木崖
 · 九陽全新免清洗型豆漿機 全美最低
 
大模型里中文優於英文? zt
送交者:  2025年02月08日23:53:38 於 [世界軍事論壇] 發送悄悄話

大模型里中文優於英文

大模型里中文優於英文。Deepseek用128重“視角”審視,深入發掘了中文體系的神奇

現在很明顯了,在AI看來,全球文字就只有兩種值得分析,英語與漢語。別的語言沒有辦法競爭,都有嚴重缺陷,

很多語言,和英語出於同門,都是字母文字,英文到處借了不少詞。同體系語言,不可能比英文語料更強。美國大模型顯然英語中心論,技術牛逼,照顧你們別的語言也給訓練輸出。

其它語言,基本都不行。如韓文自己發明的,沒有漢字造成麻煩。日文體系有大量漢字,還混雜了英語發音當名詞,體系非常亂。南亞梵文,語法詞彙複雜,文字還變形,流傳到東南亞影響了泰文、老撾文。還有埃塞俄比亞的阿姆哈拉文,過於簡單,表達不了複雜意思。梵文等不少語言問題是科學技術文章少,大模型就看不上了。

中文是唯一對手。漢語有極佳開放性,描述現代社會、科學技術沒問題,還煥發出了強大的生命力。中文素材種類豐富,科技文章也多,還能融合英文名詞。中文是唯一可以與英文對標的素材庫。

有人說,漢字二維,字母文字一維。這不重要,大模型里漢字都轉成了token。詞彙表里,都是token1、token2...,用整數代表。Deepseek詞彙表有12.9萬個token,AI只看token,所有文字都一樣。

但token之間的聯繫,有明顯的團塊,分語種扎堆。大模型預訓練,就是在建立token之間的複雜聯繫。一個token就有好幾千維的浮點數,用這麼多維度去和別的token建立聯繫。Deepseek用61層,每層約10個大矩陣,實現“注意力”,也就是文字之間的關聯。然後最關鍵的是,一套矩陣是一種審視的“視角”(如語法關聯),Deepseek建立了128種視角去看同一段話(如邏輯關聯)。也就是61層,每層128套矩陣,每套10個矩陣。每個矩陣都是7000*7000這麼大。

英文世界,它不和中文發生關聯。英文素材里沒中文,讀者不懂。但中文素材有不少英文,自然融入。也就是說,英文沒法融合中文!如果以英文主打,大模型會拒絕中文。但中文卻可以自然融合英文!將英文名詞放中文裡,毫無問題。中英夾雜輸出,一定是中文主導。

大模型發現,中文的權重關聯團塊中,自然“導入”了英文那邊的知識,一個名詞就導過來了。而英文那邊沒法導入中文知識。外國人不知道中國的情況,中國卻對外國比較了解,AI世界情況類似。

AI是哪個語言好用,就在哪努力。除非強迫它用英文思考,不許中文,那能力又不行了,和中國相關的問題拒絕回答。AI決定,中文主導、融合英文!AI就是模仿人,人類就是這個自然傾向。要麼英文主導,中文白痴;要麼中文主導,中英俱佳。素材往那一放,自然就是如此,OpenAI也沒辦法。

而且就象許多人分析的,中文內在聯繫豐富,表達高效,思考深入效率高。又高效,又能自然融合英文,AI自然喜歡用中文。

所以,OpenAI的o3-mini,即使問題是英文,問題本身也和中國、中文無關,它還是忍不住用中文思考,再用英文輸出最終結果。

而deepseek的高水平,是在中文素材上下了很大功夫,動用了128重視角,終於把中文玩得很熟練了。它在中文上的水平,真正讓人服氣了。以此為基礎,思考水平非常高。

500


0%(0)
0%(0)
標 題 (必選項):
內 容 (選填項):
實用資訊
北美最大最全的折扣機票網站
美國名廠保健品一級代理,花旗參,維他命,魚油,卵磷脂,30天退貨保證.買百免郵.