DeepSeek在12月推出v3,已經夠驚艷,超出預期。一個月後,推出R1,直接掀翻了AI的世界。
當然,肯定有人要急着為DeepSeek找爹,“蒸餾說”就是這樣產生的。
如果理解沒有錯誤,“蒸餾說”是指DeepSeek以Chat GPT為參照模型,首先用大量的輸入數據激勵ChatGPT,得到輸出,然後把這作為數據集,用於訓練DeepSeek。
這節約了海量搜取和標註原始數據的難題,也大大簡化了語言和其他非數值信息的數據化工作。
這樣的抄近路是有可能的。在工程上,模型降階常常就是這麼做的,但也是有條件的。
工程上的這些都是小模型,輸入的性質和數值範圍都很明確,不管是“打格子”還是隨機產生輸入數據,都容易。而且有足夠的數值方法可以保證“數據密度”,不會出現過分的疏漏或者重疊。
但通用大模型沒法這麼做。首先是不可能確定ChatGPT的輸入範圍。或者說,那就是整個“已知人類公域知識”,有本事把這樣的輸入集搞齊全了,已經把Chat GPT的data scrubbing做完了。data scrubbing不知道怎麼翻譯,這是把公域數據全部梳理一遍,吸收進來,包括公開出版物和網絡數據。
也就是說,DeepSeek可以把自己的大模型“蒸餾”成小模型,但沒法把別人的大模型“蒸餾”成自己的模型。
第二點是推理過程,這是DeepSeek有別於幾乎所有主流大模型的地方,肯定是ChatGPT沒有的地方。“蒸餾”只能是降低分辨率的復現,原來的模型沒有的數據,“蒸餾”是變不出來的。做習題時直接抄答案,但老師要求寫中間步驟,就抓瞎了。一樣的道理。這是DeepSeek沒法抄襲ChatGPT的另一個理由。
第三點:DeepSeek在一些方面超過ChatGPT,這就更不可能從“蒸餾”中得到了。針對性加強可以解釋,但如何用較少的參數“打敗”多得多的參數又是“蒸餾”沒法解釋的。
最基本的一點還是第一點:DeepSeek不可能獲得ChatGPT的原始輸入集,沒法“蒸餾”。