DeepSeek有可能从ChatGPT“蒸馏”而来吗

晨枫
自由撰稿人

古今多少事，都付笑谈中12小时前

DeepSeek在12月推出v3，已经够惊艳，超出预期。一个月后，推出R1，直接掀翻了AI的世界。

当然，肯定有人要急着为DeepSeek找爹，“蒸馏说”就是这样产生的。

如果理解没有错误，“蒸馏说”是指DeepSeek以Chat GPT为参照模型，首先用大量的输入数据激励ChatGPT，得到输出，然后把这作为数据集，用于训练DeepSeek。

这节约了海量搜取和标注原始数据的难题，也大大简化了语言和其他非数值信息的数据化工作。

这样的抄近路是有可能的。在工程上，模型降阶常常就是这么做的，但也是有条件的。

工程上的这些都是小模型，输入的性质和数值范围都很明确，不管是“打格子”还是随机产生输入数据，都容易。而且有足够的数值方法可以保证“数据密度”，不会出现过分的疏漏或者重叠。

但通用大模型没法这么做。首先是不可能确定ChatGPT的输入范围。或者说，那就是整个“已知人类公域知识”，有本事把这样的输入集搞齐全了，已经把Chat GPT的data scrubbing做完了。data scrubbing不知道怎么翻译，这是把公域数据全部梳理一遍，吸收进来，包括公开出版物和网络数据。

也就是说，DeepSeek可以把自己的大模型“蒸馏”成小模型，但没法把别人的大模型“蒸馏”成自己的模型。

第二点是推理过程，这是DeepSeek有别于几乎所有主流大模型的地方，肯定是ChatGPT没有的地方。“蒸馏”只能是降低分辨率的复现，原来的模型没有的数据，“蒸馏”是变不出来的。做习题时直接抄答案，但老师要求写中间步骤，就抓瞎了。一样的道理。这是DeepSeek没法抄袭ChatGPT的另一个理由。

第三点：DeepSeek在一些方面超过ChatGPT，这就更不可能从“蒸馏”中得到了。针对性加强可以解释，但如何用较少的参数“打败”多得多的参数又是“蒸馏”没法解释的。

最基本的一点还是第一点：DeepSeek不可能获得ChatGPT的原始输入集，没法“蒸馏”。

0%(0)

	实用资讯

北美最大最全的折扣机票网站
美国名厂保健品一级代理,花旗参,维他命,鱼油,卵磷脂,30天退货保证.买百免邮.

一周点击热帖

更多>>

一周回复热帖

历史上的今天：回复热帖

2024:	比亞迪仰望U8榮升“總統座駕”，烏茲別
2024:	香港法院对中国恒大发出清盘令，到底意
2023:	我不是这方面的专家,但我认为,如果我们
2023:	朝鲜派出志愿军帮助俄国的可能性 zt
2022:	特朗普又夸下海口：若2024再当选总统，
2022:	清华“清航壹号”试飞成功：我国新型空
2021:	黄卫东：评新冠病毒来源于蝙蝠猜想的科
2021:	三个战士自称是总部派来，聂荣臻接连提
2020:	如果台湾现在选择法理独立，大陆是无心
2020:	涡轮:请出题。

DeepSeek有可能从ChatGPT“蒸馏”而来吗

晨枫自由撰稿人

晨枫
自由撰稿人