中國AI公司幾個月就弄通了OpenAI的推理模型，美研究人員：我們很驚訝 zt-世界軍事論壇-軍事論壇-世界論壇網（電腦版）

送交者: 2024年12月26日06:32:38 於 [世界軍事論壇] 發送悄悄話

中國AI公司幾個月就弄通了OpenAI的推理模型，美研究人員：我們很驚訝

賴家琪

2024-12-25 12:01:26來源：觀察者網

最後更新: 2024-12-25 13:18:24

【文/觀察者網賴家琪】“中國初創公司已展現出趕超美國人工智能（AI）模型的跡象，而且他們追趕的速度比許多業內人士預期的要快。”美國《華爾街日報》在12月24日的一篇報道中，通過對比中美兩國AI企業推理模型的表現以及研發速度，得出了以上結論。

11月，由中國私募巨頭幻方量化投資的AI公司DeepSeek（深度求索）發布了其推理模型DeepSeek-R1的預覽版。根據DeepSeek的說法，這一模型的能力已接近甚至超越了OpenAI於今年9月發布的推理模型o1的預覽版。

除了DeepSeek外，擁有中國互聯網巨頭阿里巴巴和騰訊投資的初創公司Moonshot AI（月之暗面）表示，他們開發了一種專門用於數學的模型，其功能接近o1。阿里巴巴也稱，他們自己的一個實驗模型在解決數學問題上的表現優於美國模型的預覽版。

《華爾街日報》稱，由於這些公司尚未發表描述其模型的論文，且現在沒有一致認可的對AI模型能力進行評估的單一測試，目前很難驗證這些中國公司的說法。儘管如此，一些美國專家表示，他們對此“印象深刻”。

“中國正在更快地迎頭趕上。”OpenAI前研究員、現為AI企業家的安德魯·卡爾（Andrew Carr）說，DeepSeek研究員在“在幾個月內就弄通了OpenAI推理模型的辦法，坦率地說，我的許多同事都對此感到驚訝”。

《華爾街日報》用今年美國數學競賽AIME中的15個問題進行了測試。他們發現，OpenAI的推理模型還是要比中國幾家公司的推理模型更快地找到答案。測試結果顯示，OpenAI模型在10秒內給出了答案，而DeepSeek花了2分多鐘。

不過，該報仍稱讚了DeepSeek的表現，稱在目前很多AI模型被簡單數學問題難倒的情況下，DeepSeek第一次就得到正確答案是“一項壯舉”。

DeepSeek（深度求索）官網

中國AI公司能在短時間內達成“壯舉”得益於多重原因。

與許多美國公司不同，大部分中國公司更願意與其他企業和軟件開發商共享底層代碼。這種共享代碼的行為在AI領域被稱為“開源”。美國《紐約時報》稱，開源一直是計算機軟件、互聯網以及當前AI發展的基石，因為開源的支持者認為，當代碼可供任何人免費檢查、使用和改進時，技術就會進步得更快。

“開源技術是中國的戰略優勢。”美國《科技時報》12月17日稱，中國公司讓任何人都能接觸到模型源代碼，可以在全球範圍內引發創新並建立開發人員社區，這不僅推動了技術的進步，而且使中國的模型出現在全球AI地圖上。

《紐約時報》也注意到了開源模式給中國帶來的優勢。該報稱，2023年年底有人發現，李開復創建的AI公司01.AI（零一萬物）使用了美國公司Meta的開源模型構建其AI系統。但轉折發生在6個月後。當時，01.AI發布了新一代模型，美國斯坦福大學的一個團隊也在那段時間也推出了Llama 3-V開源模型。但隨後，Llama 3-V很快被爆出與中國大模型公司面壁智能的開源成果MiniCPM-Llama3-V 2.5擁有幾乎完全相同的模型架構與代碼，引發“抄襲”質疑。

該報指出，這與01.AI去年面臨的爭議相反：中國開發人員不再在美國技術之上構建，而是美國開發人員在中國技術之上構建。

總部位於紐約的AI公司Hugging Face（抱抱臉）的首席執行官克萊門特·德朗格（Clément Delangue）表示，美國監管機構限制美國的開源項目，中國的開源模型成為黃金標準，此類事情可能會成為常態，“如果這種趨勢繼續下去，美國將面臨越來越大的挑戰”。

為了扼制中國發展AI的能力，美國政府自2022年來一直在限制中國獲得世界上最先進的AI芯片。今年12月，臨卸任的拜登政府再次收緊了對中國出口AI芯片的途徑。

但是，《華爾街日報》稱，中國開發人員已經找到了解決方法。Moonshot AI創始人楊植麟稱，該公司專注於強化學習（Reinforcement Learning，一種機器學習方法），模仿人類的試錯。報道稱，這種方法在提高性能時，可能會減少算力的使用強度。

《華爾街日報》報道稱，自去年年底以來，AI開發人員越來越多地使用一種稱為“混合專家模型”（MoE）的技術。該技術將問題引導到專門的子模型（即“專家”）處去解決問題，就像主廚將意大利麵訂單定向到廚房的意大利廚師處那樣。這個過程也減輕了對芯片的要求。

騰訊的混合專家模型於今年11月發布。據稱，該模型的性能與Meta今年7月推出的Llama 3.1模型相當。審查了兩家公司論文的研究人員表示，騰訊的模型可能僅用了Meta約1/10的算力訓練的。

DeepSeek在2021年用1萬個英偉達A100芯片構建了一個用於AI訓練的Fire-Flyer 2集群。今年8月，DeepSeek在一篇論文中表示，Fire-Flyer 2的性能接近於英偉達的一個包含類似芯片的系統，但DeepSeek的系統成本更低，能耗更低。

美國AI初創公司Anthropic聯合創始人傑克·克拉克（Jack Clark）在他的博客中寫道，“中國繞過出口管制的一種方式是，利用他可以訪問的硬件構建非常好的軟件和硬件訓練堆棧”，“就像電動汽車、無人機和其他技術一樣，中國製造將在AI模型中占據一席之地”。

《華爾街日報》指出，缺乏尖端芯片、籌資難等問題仍是中國AI公司面臨的幾大挑戰。但接受該報採訪的中國AI公司高管將這比作帶着鐐銬跳舞，他表示“專注於我們擅長的事情是生存的唯一機會，而且可能是獲勝”。

《科技時報》稱，美國和中國在AI生態系統上的競爭，與過去windows和iOS操作系統的競爭類似，贏家可能會主導數字行業，影響未來幾年全球市場和用戶的行為。雖然美國制裁很難突破，但中國更加專注於開源模型和國內創新，這使它成為世界上最大的AI大國之一。“全世界都在等着看，中國是否會超越西方競爭對手。”

0%(0)

這有什麼好驚訝的中國人的強項。 /無內容 - omegago 12/27/24 (68)

	實用資訊

北美最大最全的折扣機票網站
美國名廠保健品一級代理,花旗參,維他命,魚油,卵磷脂,30天退貨保證.買百免郵.

一周點擊熱帖

更多>>

一周回復熱帖

歷史上的今天：回復熱帖

2023:	我的讓西藏優質水翻山越嶺小土石方，近
2023:	2023年我們都經歷了什麼？如今的華夏，
2022:	003和075最新航拍照 zt
2022:	范勇鵬：中國高考應該取消民族加分嗎？
2021:	文揚：蘇聯解體之謎，通過中國的成功而
2021:	特魯多語出驚人：中國正在“玩弄”西方
2020:	中俄聯合巡航，只有轟20是遠遠不夠的，
2020:	第一代90後，已經開始讀《毛選》了
2019:	趙皓陽：人人都愛毛澤東最後三個字嚇唬
2019:	已獲45000個APP支持！華為開發HMS替代谷