| 深度:DeepSeek 能不能顛覆全球AI格局? |
| 送交者: 2025年01月29日04:42:39 於 [世界時事論壇] 發送悄悄話 |
|
|
|
雷歌 2025年1月27日 一夜之間,一款“純中國製造”的AI語言大模型DeepSeek風靡全球,也震撼了硅谷和華爾街。在蘋果應用商店,DeepSeek的下載量超過了ChatGPT等熱門應用,成為當日第一。而周一開盤的美股市場,以英偉達、博通和台積電為代表的AI概念股均暴跌超10%,納指暴跌超3%。 一、橫空出世 DeepSeek的獨門絕技,是相對於全球領先的AI語言大模型如ChatGPT等,只用了非常少的芯片算力和訓練成本(大概十分之一或更少),就做出了在功能上與可以與ChatGPT4相媲美的AI大模型平台。據媒體報道,DeepSeek在1月20日最新發布的R1模型,其預訓練費用只有557.6萬美元,在2048塊英偉達H800 GPU(性能比H100要差不少,制裁後專供中國)集群上運行55天就完成了。而美國一些領先的AI大模型平台,一般都要用1.6萬張以上的H100GPU芯片,完成一個大模型的訓練費用要5億美元以上。 (註:計算成本的方法和包括的範圍可能不同。因為H800芯片的市場價超過20萬人民幣,2048塊的總價值就超過6000萬美元,因此說DeepSeek-R1預訓練成本不到558萬美元,顯然不包含購買GPU集群和搭建平台的費用。) DeepSeek帶來的衝擊,首先是美國大型AI公司每年幾百億幾百億地燒錢的模式受到質疑,還有沒有必要?搞得AI大廠都去搶購囤積英偉達GPU,英偉達芯片價格近年水漲船高,一片都要好幾萬美元。而英偉達股價也在2023至2024兩年間最高漲了超過十倍,超越蘋果微軟成為全球市值最大的公司。也正因為此,今天英偉達股價暴跌近17%,市值一天內就蒸發近6000億美元。 另一方面則是對組建AI大模型在技術策略上的啟發。DeepSeek的技術策略有沒有可能在其它平台複製和推廣,甚至成為新的主流技術策略選擇呢?多快好省地搭建AI平台,肯定是大勢所趨。如果技術上可行,就一定會成為必然選擇。但這一點,就目前能收集到的信息看,還是不確定的。DeepSeek-R1發布後,還有待於業內對它進行深度解構和評估,這需要一定時間。 這兩個方面是相互關聯的。顯然,如果多快好省的技術策略可複製,那目前美國大型AI公司的燒錢模式就立馬會被拋棄,短時間內英偉達GPU芯片可能就沒那麼香了(當然長遠看,英偉達芯片還是屹立不倒,因為組建AI平台的費用門檻大幅降低後,會有無數原先沒實力進入這一領域的中小公司進入,變成百花齊放,對英偉達GPU芯片的總需求說不定還會擴大)。 二、Bug與隱憂 DeepSeek-R1發布後,業內普遍驚呼這是出人意料的“黑科技”,全行業都受到巨大震動。專業人士分析,DeepSeek在架構設計和優化技術上進行了創新,包括混合專家架構(MoE)、多頭潛在注意力機制(MLA)、優化預訓練語料庫等。這些技術使得DeepSeek能夠在保持性能的同時,大幅度降低計算和存儲需求。 通俗一點說,就是以下做法: 1、數據壓縮:通過MLA架構和FP8混合精度(ChatGPT使用FP16,精度更高,需要的算力就大好多倍),減少數據量,降低內存占用。 2、選擇性處理:優先處理重要數據,簡化次要數據,提高訓練效率。 3、知識蒸餾:利用“教師模型”生成高質量數據,加速“學生模型”訓練。 據《每日經濟新聞》報道,去年12月27日DeepSeek-V3發布後,許多試用者發現一個奇怪現象,當你問DeepSeek“你是什麼模型”時,它會回答:“我是一個名為ChatGPT的AI語言模型,由OpenAI開發。”它還補充說:“是基於GPT-4架構。” 《每日經濟新聞》採訪了一些AI專家,他們分析可能是DeepSeek-V3模型使用了ChatGPT-4生成文本的公共數據集,對這些數據集進行“知識蒸餾”(即上述第3點),用簡便的方法獲得新模型需要的有效數據(不必像原創模型那樣從海量數據中通過大量試錯獲得)。使用這些數據訓練新模型時,新模型會記住數據的源頭特徵並反芻表達。 12月27日,OpenAI的CEO 奧特曼(Sam Altman)在X上發帖說: “複製你知道有效的東西是(相對)容易的。 當你不知道某件新奇、有風險且困難的事情是否會成功時,去做它是極其困難的。” 有媒體立刻猜測,這是奧特曼在諷刺競爭對手使用OpenAI的現成數據。而且這也可能是DeepSeek能夠在低算力低成本條件下,快速訓練出與ChatGPT效果類似的新模型的重要原因之一。 簡單歸納,DeepSeek使用的實現低成本快速訓練AI大模型的上述三種方法中,第1種“數據壓縮”和第2種“選擇性處理”都屬於DeepSeek的開創性架構設計和工程技術創新。而第3種“知識蒸餾”則留下bug,因為使用別的原創模型輸出的數據訓練自己的新模型,造成的結果是你的新模型的輸出結果,永遠不可能超越原創模型。 三、三點結論 分析到這裡,現在我可以嘗試回答大家都關注的最核心問題:DeepSeek的橫空出世會不會顛覆美國一路領先的全球AI格局?DeepSeek會給全球AI發展帶來哪些積極影響? 我有三點不太成熟的結論供大家參考: 1)DeepSeek的低成本快速成型模式,首先從方法上對AI行業造成巨大的思想衝擊,富有啟發性,將強有力地推動其它AI公司改變以前一味強調高投入的思維定勢,轉向探索低成本快速搭建模型平台的技術可能性。我相信這種轉變一定會出成果。因此DeepSeek給全行業帶來的啟示意義重大。 2)DeepSeek目前使用的工程構思和技術策略能不能複製到其它AI平台的搭建,尤其是方法1和方法2,目前尚無定論,有待業內進一步嘗試和探索。如果能夠複製,那對AI行業的下一步發展將影響深遠。即使不能完全複製,哪怕是借鑑這種思路,如壓縮數據的架構設計和優先處理重點數據的技術創新,也將是非常積極的影響,很可能在不遠的將來帶來巨大成果,甚至是革命性的技術突破。 3)以DeepSeek目前的現有成果,無法改變美國引領AI的全球格局,也不會改變中國在AI領域模仿、學習和追趕美國的總體姿態。儘管DeepSeek的方法具有開創性,但DeepSeek的最終產品因為“數據蒸餾”依然缺乏原創,嚴格說來還是個山寨品。 “數據蒸餾”決定了DeepSeek輸出的基礎性產品無法超越原創AI大模型。而且“數據蒸餾”只能在別人已經原創的成果基礎上進行。 在更多的AI實際應用領域,如生物醫療服務、自動駕駛、AI機器人等還在開發的應用中,“數據蒸餾”在原創模型獲得成功前無法做到,在原創模型獲得成功後又可能遇到不會開源分享的難題(因為利益衝突),因而沒有用武之地。一切原創的AI應用模型,只能老老實實投入算力、時間和資金。這可能也是目前的DeepSeek無法從根本上改變全球AI格局的深層原因。 比如在市場潛力巨大的自動駕駛和AI機器人領域,目前領先的是馬斯克的特斯拉。根據特斯拉FSD自動駕駛AI平台目前的迭代速度,它很可能在未來三至六個月內越過L4臨界點,達到完全無人駕駛標準(更高級別還有L5)。但特斯拉FSD無人駕駛實現後,原創者不大可能在短時間開源分享數據和算法,讓競爭對手通過“數據蒸餾”快速萃取而分享或蠶食自己的市場。這類有市場前景的AI應用只能依賴於原創而不是山寨。反而是一些涉及公共服務的領域如生物醫療等AI應用,倒有可能更快地開源分享。 |
|
|
![]() |
![]() |
| 實用資訊 | |
|
|
| 一周點擊熱帖 | 更多>> |
| 一周回復熱帖 |
| 歷史上的今天:回復熱帖 |
| 2024: | 英國鋼琴事件之三: 非議和Mary繼續爭吵 | |
| 2024: | 七絕 題照(2179)惡習頂缸毛太陽 | |
| 2023: | 罕見:珠峰上空迎風飄揚着一塊飛毯狀七 | |
| 2023: | 這個孩子將改變中國! | |
| 2022: | 毛澤東與槍 | |
| 2022: | Guo Wengui's life fell into a f | |
| 2021: | “大象”快要扛不住了! | |
| 2021: | 在海外 這個人血饅頭香噴噴 | |
| 2020: | 從武漢瘟疫看中國的人性危機,及對中國 | |
| 2020: | 現世報!禁止港人蒙面的中共被迫蒙面 | |


