| 大模型里中文優於英文? zt |
| 送交者: 2025年02月08日23:53:38 於 [世界軍事論壇] 發送悄悄話 |
|
|
大模型里中文優於英文大模型里中文優於英文。Deepseek用128重“視角”審視,深入發掘了中文體系的神奇 現在很明顯了,在AI看來,全球文字就只有兩種值得分析,英語與漢語。別的語言沒有辦法競爭,都有嚴重缺陷, 很多語言,和英語出於同門,都是字母文字,英文到處借了不少詞。同體系語言,不可能比英文語料更強。美國大模型顯然英語中心論,技術牛逼,照顧你們別的語言也給訓練輸出。 其它語言,基本都不行。如韓文自己發明的,沒有漢字造成麻煩。日文體系有大量漢字,還混雜了英語發音當名詞,體系非常亂。南亞梵文,語法詞彙複雜,文字還變形,流傳到東南亞影響了泰文、老撾文。還有埃塞俄比亞的阿姆哈拉文,過於簡單,表達不了複雜意思。梵文等不少語言問題是科學技術文章少,大模型就看不上了。 中文是唯一對手。漢語有極佳開放性,描述現代社會、科學技術沒問題,還煥發出了強大的生命力。中文素材種類豐富,科技文章也多,還能融合英文名詞。中文是唯一可以與英文對標的素材庫。 有人說,漢字二維,字母文字一維。這不重要,大模型里漢字都轉成了token。詞彙表里,都是token1、token2...,用整數代表。Deepseek詞彙表有12.9萬個token,AI只看token,所有文字都一樣。 但token之間的聯繫,有明顯的團塊,分語種扎堆。大模型預訓練,就是在建立token之間的複雜聯繫。一個token就有好幾千維的浮點數,用這麼多維度去和別的token建立聯繫。Deepseek用61層,每層約10個大矩陣,實現“注意力”,也就是文字之間的關聯。然後最關鍵的是,一套矩陣是一種審視的“視角”(如語法關聯),Deepseek建立了128種視角去看同一段話(如邏輯關聯)。也就是61層,每層128套矩陣,每套10個矩陣。每個矩陣都是7000*7000這麼大。 英文世界,它不和中文發生關聯。英文素材里沒中文,讀者不懂。但中文素材有不少英文,自然融入。也就是說,英文沒法融合中文!如果以英文主打,大模型會拒絕中文。但中文卻可以自然融合英文!將英文名詞放中文裡,毫無問題。中英夾雜輸出,一定是中文主導。 大模型發現,中文的權重關聯團塊中,自然“導入”了英文那邊的知識,一個名詞就導過來了。而英文那邊沒法導入中文知識。外國人不知道中國的情況,中國卻對外國比較了解,AI世界情況類似。 AI是哪個語言好用,就在哪努力。除非強迫它用英文思考,不許中文,那能力又不行了,和中國相關的問題拒絕回答。AI決定,中文主導、融合英文!AI就是模仿人,人類就是這個自然傾向。要麼英文主導,中文白痴;要麼中文主導,中英俱佳。素材往那一放,自然就是如此,OpenAI也沒辦法。 而且就象許多人分析的,中文內在聯繫豐富,表達高效,思考深入效率高。又高效,又能自然融合英文,AI自然喜歡用中文。 所以,OpenAI的o3-mini,即使問題是英文,問題本身也和中國、中文無關,它還是忍不住用中文思考,再用英文輸出最終結果。 而deepseek的高水平,是在中文素材上下了很大功夫,動用了128重視角,終於把中文玩得很熟練了。它在中文上的水平,真正讓人服氣了。以此為基礎,思考水平非常高。
|
|
|
![]() |
|
|
![]() |
| 實用資訊 | |
|
|
| 一周點擊熱帖 | 更多>> |
| 一周回復熱帖 |
| 歷史上的今天:回復熱帖 |
| 2024: | 金燦榮:中國GDP已經是日本4倍,為什麼 | |
| 2024: | 翼展超50米,性能碾壓全球鷹,中國造出牲/span> | |
| 2023: | 這篇文章將消滅共產黨,花點時間把它讀 | |
| 2023: | 拜登發表國情咨文承認中國已經崛起 美嘃/span> | |
| 2022: | ​創歷史!谷愛凌獲自由式滑雪 | |
| 2022: | 中國駐英國使館發言人就英方要求中方“ | |
| 2021: | 南宋偏安可喜可賀 貧限想之十 | |
| 2021: | 南宋偏安可喜可賀 貧限想之十 | |
| 2020: | 渦輪,這次倒過來問你個問題, | |
| 2020: | 想吃人血饅頭的煞筆沒想到李醫生是黨員 | |


亞洲視覺科技研發總監


