繁體中文  
 
版主:黑木崖
 · 九陽全新免清洗型豆漿機 全美最低
 
從DS這串“亂碼”到寒武紀爆發
送交者:  2025年08月30日20:09:03 於 [世界軍事論壇] 發送悄悄話

從DS這串“亂碼”到寒武紀爆發,更大驚喜是……

2025-08-30 22:43:04來源:觀察者網閱讀 39057

DeepSeek V3.1提及的UE8M0 FP8引爆了輿論,但我們也要清醒看到,其意義並非在於技術上的原創性突破,而是標誌着國產AI產業鏈協同邁入新階段。它的核心意圖在於串聯起芯片廠商適配、大模型工具鏈優化,打破“單點創新”困局。儘管國產算力仍有短板,但上下游企業從協同設計到生態聯盟的探索,正以“1+1>2”的合力,為中國AI全產業鏈突圍築牢根基。

最近一周,半導體成為A股表現最強的板塊。上半年利潤僅10億的寒武紀,以超過6000億的市值躍居科創板首位,滾動市盈率高達500餘倍,股價也一度超過茅台成為A股“股王”。

引爆市場情緒的,是上周DeepSeek V3.1的發布——準確來說,甚至不是這款模型的能力本身,而是短短不到20個字的一則官方留言:“UE8M0 FP8是針對即將發布的下一代國產芯片設計。”

UE8M0 FP8,立即成了國產AI技術突破的最新代名詞。

在一周高漲的情緒之後,今天的市場出現正常回落。而與之相伴的,是中芯國際冷暖參半的半年報——上半年營收增長22%,Q2產能利用率高達92.5%,中國區收入占比提升至84.2%;但單看二季度,淨利潤和毛利潤都出現下滑。

事實上,如果把DeepSeek、寒武紀、中芯國際們近期的一系列信息串聯起來,我們在欣喜於其進步之餘,也能夠看到國產AI生態仍受到嚴重限制,距離世界先進水平仍有差距。

但更大的驚喜在於,中國產業鏈的協同程度正在迅速提升。

DeepSeek到底幹了什麼

UE8M0 FP8,這串如同亂碼一般的字符,究竟有什麼魔力?

我們不妨先從FP8說起。

FP8是一種8位浮點數,其基本原理是用較少的字符來表示更複雜的數字,這對於使用二進制語言的計算機來說是非常重要的。

這是因為,二進制數字只有0和1兩個字符,一個較短的十進制數字,寫成二進制可能會變得很長。舉個例子,一個隨機的十進制數字56.89,如果直接轉化計算機使用的二進制數字,是111000.11100011,字符非常多,也就意味着會占用更多存儲空間。

那麼為了節省字符,人們發明了浮點數。

具體來說,所謂浮點數,是指一種特殊的數字表示格式,其基本格式是把數字a寫成m×b^e的形式。

例如,上述的111000.11100011,可以寫成1.1100011100011×2⁵。如果我們願意損失一定的精度,規定小數點後只保留3位,就約等於1.110×2⁵。這樣一來,只需要記錄下小數點後的110和5次冪這兩個信息,就能還原出原來的數字了,存儲空間占用量大大減少。

FP8就是這樣一種記錄方式,規定用8位二進制數來記錄上述信息。例如拿出4位數記錄冪值,另外3位數來記錄110,剩下1位數記錄正負。這種格式叫做E4M3 FP8。

但是這裡面仍然有個問題:當數字比較大時,冪值會變大,而4位二進制數最大僅相當於十進制的15,更大冪值就無法記錄。E4M3 FP8最大就只能記錄十進制-480到+480之間的數字。

想要表示更大數字,就要增加用於記錄冪值的字符,減少記錄前面數字的字符,但這會導致精確度繼續變差。

而UE8M0 FP8,就意味着把全部8位數字都用來記錄冪值,而完全捨棄小數點後的信息,以及正負值。

換句話說,UE8M0 FP8隻能記錄2,4,8,16……這樣2的整數次冪,其它數字都只能近似成這些數字,極大地犧牲了精度,以換取存儲範圍。

理解了這一點,我們就可以來討論DeepSeek為什麼要使用UE8M0 FP8。

大模型的基本原理,是把文字、圖像等信息,全部用數字來表示,並預測哪些數字的相關性更高。

這些數字,就是人們常說的參數,而參數自然是範圍越大、越精確越好。

想要範圍和精度兩者兼得,就需要用更多的二進制字符來記錄。因此,過去很多大模型會使用FP16、FP32等格式,這意味着更大的存儲量和算力消耗。

而DeepSeek V3和R1這樣的模型,之所以能夠降低算力成本,就是因為使用了FP8,以犧牲精度來換取速度。

但是,這種犧牲真的不可避免嗎?這就要說到UE8M0了。

事實上,DeepSeek並非所有數據都使用UE8M0格式。如前所述,UE8M0的極端取捨,導致精度極差,是難以滿足大模型訓練需求的。

DeepSeek所做的,是引入UE8M0作為“縮放因子”,使用了microscaling的方法。簡單理解,其參數仍然以E4M3 FP8等格式存儲,以保證精度,並通過與另一個UE8M0 FP8數字相乘的方式,實現類似FP32的效果,並節省75%的存儲需求。

這種做法儘管增加了算法的複雜程度,但是僅僅在必要時才去做計算,仍然能夠大大節省算力和通信帶寬需求。

這對於算力受到嚴重限制的國內大模型行業來說,自然是極為契合的思路。

國產芯片“補課”

但是,我們也無需過度拔高DeepSeek V3.1的獨創程度。

早在2023年,Meta、英特爾、谷歌等科技巨頭推動的“開放計算項目(OCP)”就提出了MXFP8的microscaling數據格式標準,以UE8M0作為縮放因子,而英偉達顯卡也早已支持UE8M0。國內的阿里、騰訊、百度等頭部大廠,也都參與了這個項目。

2023年10月,OCP全球峰會在美國加州聖何塞舉辦

2023年,英偉達首席科學家比爾·戴利曾指出,驅動英偉達芯片性能大幅提升的秘密,已經不是芯片製程驅動的“摩爾定律”,而是數據格式等因素共同驅動的“黃氏定律”,即通過引入較低精度的數字表示法,來減少對存儲空間和計算資源的消耗,從而可以加快計算速度和效率。英偉達H100等顯卡,就已經開始支持FP8格式。

如果把目光放到學術界,英偉達和加州理工的研究人員更是在2021年時就曾經發表過一篇論文《LNS-Madam:在對數數值系統中採用乘法式權重更新的低精度訓練》,提出了類似的數據轉換方法。

DeepSeek今年2月發布的高性能計算庫DeepGEMM中,也使用了UE8M0縮放因子。DeepGEMM正是針對英偉達顯卡所做的優化,而國產顯卡當時卻普遍並不支持這種格式。

以至於當DeepSeek V3和R1問世時,國產顯卡需要藉助軟件優化將FP8格式轉化成FP16,適配效果大打折扣。

因此,DeepSeek此次透露的信息,或許重點並不在前半部分的UE8M0,而是後半部分的“針對下一代國產芯片設計”。

近期,摩爾線程、芯原等國產芯片廠商也同步釋放了適配UE8M0 FP8的消息。

摩爾線程對觀察者網指出,其旗艦產品MTT S5000是國內首批原生支持FP8並已大規模量產的GPU。摩爾線程的MUSA架構原生支持硬件FP8張量加速計算,能夠完美支持UE8M0 FP8 Scale,利用硬件原生FP8,相對於傳統的FP16計算能夠實現兩倍的浮點算力提升、訪存和通信帶寬效率提升和存儲容量利用率提升,同時最優化張量表達精度。

摩爾線程在WAIC 2025上發布了MTT S5000

但需要注意的是,儘管國產芯片逐步開始支持FP8格式,由於不同品牌顯卡在底層硬件架構上的差異,原本針對英偉達顯卡設計的算法也並非可以直接移植到國產芯片上。因此,大模型針對國產芯片的適配調整仍是一項重要工作。

“補課”,或許才是對現階段工作更合適的表述。

這或許也解釋了為什麼DeepSeek R2延宕許久尚未問世。

因此,DeepSeek V3.1真正的意義,應該不是對UE8M0 FP8這種數據格式本身的應用,而是類似於DeepGEMM這樣針對國產芯片的工具鏈設計。

而且,DeepSeek特意提到是針對“下一代國產芯片”,這意味着國產大模型廠商與芯片廠商之間的協同配合達到了更高的層次,雙方可以在硬件開發階段就共同參與優化。

摩爾線程對觀察者網表示,此舉能夠充分發揮出已量產的國產芯片架構特性,通過國產大模型和國產芯片協同設計優化,實現1+1>2。

生態協同新高度

事實上,談到國產大模型與芯片的協同開發,DeepSeek也不是唯一的參與者。

一方面,頭部大廠往往已經通過自建生態的方式,早早布局軟硬件協同,如華為昇騰、阿里平頭哥、百度崑崙芯等。

本周,百度發布了百舸AI計算平台5.0,基於崑崙芯實現超節點,並針對DeepSeek引領的強化學習風潮,推出強化學習框架,極致壓榨算力資源。

2025百度雲智大會上,百度智能雲正式發布百度百舸AI計算平台5.0全新版本。

而更多的大模型初創公司,則通過與芯片廠商聯合的方式來提升適配效率。

今年7月,階躍星辰聯合近10家芯片及基礎設施廠商發起“模芯生態創新聯盟”,首批成員包括華為昇騰、沐曦、壁仞科技、燧原科技、天數智芯、無問芯穹、寒武紀、摩爾線程、硅基流動等。

階躍星辰聯合創始人、副總裁朱亦博對觀察者網指出,一款芯片的開發周期需要兩年以上,而如今模型迭代的速度只有半年到一年,如果讓芯片廠商去適配模型,必然是低效的。如今,階躍星辰希望在國產芯片的開發階段,就主動去進行適配,是一種更高效的方式。

但我們也要清醒地看到,國產算力生態仍然處於一種“帶着鐐銬跳舞”的狀態。

從中芯國際的財報可以看到,儘管國內旺盛的需求推動其產能利用率不斷攀升,並且還有大規模擴產計劃,但是其主要業務仍來自成熟製程。因此,其業績並如台積電那樣未充分受益於當下的算力熱潮。

包括製程能力、HBM技術等限制,也讓國產AI產業往往採用極限創新的方式,在硬件受限的情況下用更高的成本、更複雜的算法來壓榨效率。

例如,華為不得不使用384個超多節點、昂貴的光通信等方式來對標英偉達的NVLink72。其AI推理加速“黑科技”UCM,也是在HBM受限的情況下,主要針對“節流”進行的創新;而原理類似的英偉達Dynamo,則更多聚焦於發揮高端算力集群的能力。

近期華為盤古大模型遭遇的爭議和收縮,也顯示出中國企業尚難以憑藉單打獨鬥去全方位贏得全球AI競爭。以開放和協同的方式匯聚國內全部力量,才是更好的突圍之道。

因此,近期國產AI產業一系列突破固然令人欣喜,但仍然要看到,其真正意義並非在於單點的進步,而是在於產業鏈上下游的信任和協作達到了一個新的高度,為未來中國全產業鏈的領先打下堅實基礎。


0%(0)
0%(0)
標 題 (必選項):
內 容 (選填項):
實用資訊
北美最大最全的折扣機票網站
美國名廠保健品一級代理,花旗參,維他命,魚油,卵磷脂,30天退貨保證.買百免郵.