繁體中文  
 
版主:黑木崖
 · 九陽全新免清洗型豆漿機 全美最低
 
DeepSeek有可能從ChatGPT“蒸餾”而來嗎 zt
送交者:  2025年01月30日09:03:35 於 [世界軍事論壇] 發送悄悄話

DeepSeek有可能從ChatGPT“蒸餾”而來嗎

DeepSeek在12月推出v3,已經夠驚艷,超出預期。一個月後,推出R1,直接掀翻了AI的世界。

當然,肯定有人要急着為DeepSeek找爹,“蒸餾說”就是這樣產生的。

如果理解沒有錯誤,“蒸餾說”是指DeepSeek以Chat GPT為參照模型,首先用大量的輸入數據激勵ChatGPT,得到輸出,然後把這作為數據集,用於訓練DeepSeek。

這節約了海量搜取和標註原始數據的難題,也大大簡化了語言和其他非數值信息的數據化工作。

這樣的抄近路是有可能的。在工程上,模型降階常常就是這麼做的,但也是有條件的。

工程上的這些都是小模型,輸入的性質和數值範圍都很明確,不管是“打格子”還是隨機產生輸入數據,都容易。而且有足夠的數值方法可以保證“數據密度”,不會出現過分的疏漏或者重疊。

但通用大模型沒法這麼做。首先是不可能確定ChatGPT的輸入範圍。或者說,那就是整個“已知人類公域知識”,有本事把這樣的輸入集搞齊全了,已經把Chat GPT的data scrubbing做完了。data scrubbing不知道怎麼翻譯,這是把公域數據全部梳理一遍,吸收進來,包括公開出版物和網絡數據。

也就是說,DeepSeek可以把自己的大模型“蒸餾”成小模型,但沒法把別人的大模型“蒸餾”成自己的模型。

第二點是推理過程,這是DeepSeek有別於幾乎所有主流大模型的地方,肯定是ChatGPT沒有的地方。“蒸餾”只能是降低分辨率的復現,原來的模型沒有的數據,“蒸餾”是變不出來的。做習題時直接抄答案,但老師要求寫中間步驟,就抓瞎了。一樣的道理。這是DeepSeek沒法抄襲ChatGPT的另一個理由。

第三點:DeepSeek在一些方面超過ChatGPT,這就更不可能從“蒸餾”中得到了。針對性加強可以解釋,但如何用較少的參數“打敗”多得多的參數又是“蒸餾”沒法解釋的。

最基本的一點還是第一點:DeepSeek不可能獲得ChatGPT的原始輸入集,沒法“蒸餾”。


0%(0)
0%(0)
標 題 (必選項):
內 容 (選填項):
實用資訊
北美最大最全的折扣機票網站
美國名廠保健品一級代理,花旗參,維他命,魚油,卵磷脂,30天退貨保證.買百免郵.