为什么 DeepSeek 的新 AI 模型认为自己是 ChatGPT |
送交者: 2025年01月05日09:57:00 于 [世界时事论坛] 发送悄悄话 |
|
Kyle Wiggers 2024 年 12 月 27 日 本周早些时候,资金雄厚的中国 AI 实验室 DeepSeek 发布了一款“开放”AI 模型,在热门基准测试中击败了许多竞争对手。该模型 DeepSeek V3 规模庞大但效率高,可以轻松处理基于文本的任务,例如编码和撰写论文。 它似乎也认为自己是 ChatGPT。 X 上的帖子——以及 TechCrunch 自己的测试——表明 DeepSeek V3 将自己标识为 ChatGPT,这是 OpenAI 的 AI 聊天机器人平台。当被要求详细说明时,DeepSeek V3 坚称它是 OpenAI 于 2023 年发布的 GPT-4 模型的一个版本。
这种妄想根深蒂固。如果您向 DeepSeek V3 询问有关 DeepSeek API 的问题,它会为您提供有关如何使用 OpenAI API 的说明。 DeepSeek V3 甚至讲了一些与 GPT-4 相同的笑话——甚至包括笑点。 那么发生了什么? ChatGPT 和 DeepSeek V3 等模型是统计系统。经过数十亿个示例的训练,它们会从这些示例中学习模式以进行预测——例如,电子邮件中的“致谁”通常位于“可能相关”之前。 DeepSeek 并未透露太多有关 DeepSeek V3 训练数据来源的信息。但包含由 GPT-4 通过 ChatGPT 生成的文本的公共数据集并不缺乏。如果 DeepSeek V3 在这些数据集上进行训练,该模型可能会记住 GPT-4 的一些输出,现在正在逐字逐句地复述它们。 伦敦国王学院专门研究人工智能的研究员 Mike Cook 告诉 TechCrunch:“显然,该模型在某个时候看到了来自 ChatGPT 的原始回复,但不清楚那是在哪里。” “这可能是‘偶然’……但不幸的是,我们已经看到有人直接用其他模型的输出来训练他们的模型,试图利用他们的知识。” 库克指出,用竞争对手的人工智能系统的输出来训练模型的做法对模型质量“非常不利”,因为它会导致幻觉和误导性答案,如上文所述。“就像复印一份复印件一样,我们会失去越来越多的信息和与现实的联系,”库克说。 这也可能违反这些系统的服务条款。 OpenAI 的条款禁止其产品的用户(包括 ChatGPT 客户)使用输出来开发与 OpenAI 自己的模型竞争的模型。 OpenAI 和 DeepSeek 没有立即回应置评请求。然而,OpenAI 首席执行官 Sam Altman 在 X Friday 发布了一篇似乎是在挖苦 DeepSeek 和其他竞争对手的文章。 “复制你知道有效的东西(相对)容易,”Altman 写道。 “当你不知道某件新事物是否可行时,做它就极其困难。” 诚然,DeepSeek V3 远非第一个自我识别错误的模型。谷歌的 Gemini 和其他模型有时声称自己是竞争对手。例如,在普通话提示下,Gemini 说它是中国公司百度的 Wenxinyiyan 聊天机器人。 这是因为网络(AI 公司从中获取大量训练数据的地方)正充斥着 AI 垃圾。内容农场正在使用 AI 来创建点击诱饵。机器人充斥着 Reddit 和 X。据估计,到 2026 年,90% 的网络可能都是 AI 生成的。 这种“污染”,如果你愿意的话,已经使得从训练数据集中彻底过滤 AI 输出变得相当困难。 DeepSeek 直接在 ChatGPT 生成的文本上训练 DeepSeek V3 是完全有可能的。毕竟,谷歌曾经被指控做过同样的事情。 非营利组织 AI Now Institute 的首席 AI 科学家 Heidy Khlaaf 表示,无论风险如何,“提炼”现有模型知识所带来的成本节省对开发人员来说都是有吸引力的。 “即使现在互联网数据充斥着 AI 输出,其他意外地在 ChatGPT 或 GPT-4 输出上进行训练的模型也不一定能展示出让人联想到 OpenAI 定制消息的输出,”Khlaaf 说。“如果 DeepSeek 部分使用 OpenAI 模型进行提炼,那就不足为奇了。” 然而,更有可能的是,大量 ChatGPT/GPT-4 数据进入了 DeepSeek V3 训练集。这意味着该模型不能被信任进行自我识别。但更令人担忧的是,DeepSeek V3 可能会通过不加批判地吸收和迭代 GPT-4 的输出,加剧该模型的一些偏见和缺陷。 |
|
|
|
实用资讯 | |
|
|
一周点击热帖 | 更多>> |
|
|
一周回复热帖 |
|
历史上的今天:回复热帖 |
2024: | 新冠中的跨物种、跨生物界、超生物基因 | |
2024: | 毛主席在山东的讲活 | |
2023: | 谈柏杨、李敖及其他 | |
2023: | 从医学角度分析为什么病毒会在中国如此 | |
2022: | 《打油在瘟疫蔓延时》暨武汉肺炎流行两 | |
2022: | 我的封城十日志(长安十日) | |
2021: | 革命战争 | |
2021: | 毛泽东时代不吃人 | |
2020: | 毛泽东时代的新疆为什么平安无事 | |
2020: | 毛主席说,深挖洞,广积粮,不称霸! | |
|