繁体中文  
 
版主:bob
 · 九阳全新免清洗型豆浆机 全美最低
 
为什么 DeepSeek 的新 AI 模型认为自己是 ChatGPT
送交者:  2025年01月05日09:57:00 于 [世界时事论坛] 发送悄悄话

Kyle Wiggers

2024  12  27 

本周早些时候,资金雄厚的中国 AI 实验室 DeepSeek 发布了一款“开放”AI 模型,在热门基准测试中击败了许多竞争对手。该模型 DeepSeek V3 规模庞大但效率高,可以轻松处理基于文本的任务,例如编码和撰写论文。

它似乎也认为自己是 ChatGPT

上的帖子——以及 TechCrunch 自己的测试——表明 DeepSeek V3 将自己标识为 ChatGPT,这是 OpenAI  AI 聊天机器人平台。当被要求详细说明时,DeepSeek V3 坚称它是 OpenAI  2023 年发布的 GPT-4 模型的一个版本。

 image.png

这种妄想根深蒂固。如果您向 DeepSeek V3 询问有关 DeepSeek API 的问题,它会为您提供有关如何使用 OpenAI API 的说明。 DeepSeek V3 甚至讲了一些与 GPT-4 相同的笑话——甚至包括笑点。

那么发生了什么?

ChatGPT  DeepSeek V3 等模型是统计系统。经过数十亿个示例的训练,它们会从这些示例中学习模式以进行预测——例如,电子邮件中的“致谁”通常位于“可能相关”之前。

DeepSeek 并未透露太多有关 DeepSeek V3 训练数据来源的信息。但包含由 GPT-4 通过 ChatGPT 生成的文本的公共数据集并不缺乏。如果 DeepSeek V3 在这些数据集上进行训练,该模型可能会记住 GPT-4 的一些输出,现在正在逐字逐句地复述它们。

伦敦国王学院专门研究人工智能的研究员 Mike Cook 告诉 TechCrunch:“显然,该模型在某个时候看到了来自 ChatGPT 的原始回复,但不清楚那是在哪里。” “这可能是‘偶然’……但不幸的是,我们已经看到有人直接用其他模型的输出来训练他们的模型,试图利用他们的知识。”

库克指出,用竞争对手的人工智能系统的输出来训练模型的做法对模型质量“非常不利”,因为它会导致幻觉和误导性答案,如上文所述。“就像复印一份复印件一样,我们会失去越来越多的信息和与现实的联系,”库克说。

这也可能违反这些系统的服务条款。

OpenAI 的条款禁止其产品的用户(包括 ChatGPT 客户)使用输出来开发与 OpenAI 自己的模型竞争的模型。

OpenAI  DeepSeek 没有立即回应置评请求。然而,OpenAI 首席执行官 Sam Altman  X Friday 发布了一篇似乎是在挖苦 DeepSeek 和其他竞争对手的文章。

“复制你知道有效的东西(相对)容易,”Altman 写道。 “当你不知道某件新事物是否可行时,做它就极其困难。”

诚然,DeepSeek V3 远非第一个自我识别错误的模型。谷歌的 Gemini 和其他模型有时声称自己是竞争对手。例如,在普通话提示下,Gemini 说它是中国公司百度的 Wenxinyiyan 聊天机器人。

这是因为网络(AI 公司从中获取大量训练数据的地方)正充斥着 AI 垃圾。内容农场正在使用 AI 来创建点击诱饵。机器人充斥着 Reddit  X。据估计,到 2026 年,90% 的网络可能都是 AI 生成的。

这种“污染”,如果你愿意的话,已经使得从训练数据集中彻底过滤 AI 输出变得相当困难。

DeepSeek 直接在 ChatGPT 生成的文本上训练 DeepSeek V3 是完全有可能的。毕竟,谷歌曾经被指控做过同样的事情。

非营利组织 AI Now Institute 的首席 AI 科学家 Heidy Khlaaf 表示,无论风险如何,“提炼”现有模型知识所带来的成本节省对开发人员来说都是有吸引力的。

“即使现在互联网数据充斥着 AI 输出,其他意外地在 ChatGPT  GPT-4 输出上进行训练的模型也不一定能展示出让人联想到 OpenAI 定制消息的输出,”Khlaaf 说。“如果 DeepSeek 部分使用 OpenAI 模型进行提炼,那就不足为奇了。”

然而,更有可能的是,大量 ChatGPT/GPT-4 数据进入了 DeepSeek V3 训练集。这意味着该模型不能被信任进行自我识别。但更令人担忧的是,DeepSeek V3 可能会通过不加批判地吸收和迭代 GPT-4 的输出,加剧该模型的一些偏见和缺陷。

0%(0)
0%(0)
标 题 (必选项):
内 容 (选填项):
实用资讯
北美最大最全的折扣机票网站
美国名厂保健品一级代理,花旗参,维他命,鱼油,卵磷脂,30天退货保证.买百免邮.
一周点击热帖 更多>>
一周回复热帖
历史上的今天:回复热帖
2024: 新冠中的跨物种、跨生物界、超生物基因
2024: 毛主席在山东的讲活
2023: 谈柏杨、李敖及其他
2023: 从医学角度分析为什么病毒会在中国如此
2022: 《打油在瘟疫蔓延时》暨武汉肺炎流行两
2022: 我的封城十日志(长安十日)
2021: 革命战争
2021: 毛泽东时代不吃人
2020: 毛泽东时代的新疆为什么平安无事
2020: 毛主席说,深挖洞,广积粮,不称霸!