OpenAI新模型达到博士水平? zt |
送交者: 2024年09月16日00:48:48 于 [世界军事论坛] 发送悄悄话 |
|
OpenAI新模型达到博士水平?我找清北博士品鉴了一下。说实话,有点受不了这些公司,老是半夜丢个大的了。。。
之前说什么草莓不草莓的,一张草莓的照片遛了大家好几天 结果,这回新模型根本跟草莓毛关系没有,而是起了一个全新的名字Oepn AI o1 模型。 而且这玩意已经号称 openAI 的天顶星科技,奥特曼直接发帖明说了,这就是他们到现在为止最强、最一致的模型。 跟往次不同的是,这玩意到底多牛 OpenAI 实际也没多吹,但是轻飘飘甩出了几张图,就有点让人头皮微麻。 像下面的图里,三个测试项目的结果就能说明了,分别是国际数学奥林匹克竞赛、编程竞赛还有博士级别的科学问题。 这里面最左边为 GPT-4o ,中间是目前已经开放了的预览版 o1 ,最右边高高的红色柱子为满血 o1 。你瞅瞅,基本每一项, o1 比起自己的前辈来说,都是接近 8 倍的提升。。。 要是把这些测试结果拆开来,这新 o1 也几乎是在各种学科、各种领域,都全量、全面、全方位地超越 4o 。 而真正让差评君觉得可怕的是, OpenAI 说自己专门请了博士专家一起答题。 结果在博士级别的测试结果上,我们看到 o1 答题分数均超过了博士专家。o1 得分 78 ,人类得分 69.7 。。。 连博士都输了,那我和它比算什么? 敏感的网友们,直接就炸了呀。又开始喊着,新的神已经出现。 随便一翻,都是带着【 最 】字的超高评价,什么 “ 简直太棒了! ” 、 “ 最接近人类推理的东西 ” 。 甚至有不少差友跑到咱们后台,感慨 o1 你小子确实有点东西啊。 听起来是不是很牛逼?OpenAI 他们自己很显然也是这么觉着的。
o1 预览版每百万输入 15 美元,每百万输出 60 美元 这次对用户开放的甚至不是满血版本,就是一个早期的预览版和一个小型阉割版。 哪怕只是抢先尝鲜,不仅不免费,哪怕你掏钱开了会员,也卡你问答次数。预览版每周只有 30 条, mini 每周只有 50 条。。。 虽然有点贵,但我们肯定不可能让 OpenAI 吹什么就是什么。 他们不是说超过博士了吗?差评君就冲了几个账号,去找了几个博士来亲测了一下。
其中,南京大学在读的固体物理学崔博士给出的评价,算是几个人里最高的。他觉得 o1 已经达到了 60 - 80 分( 满分 100 )的水平。 甚至,部分回答也可以给到 90 分。 崔博士给的第一个问题:远距离纠缠光子分发,有什么克服白噪声的办法? 大概 9 秒钟左右, o1 就给出了 10 点可行的措施。
其中,提到的自适应光学的方向甚至是今年最新的 science 成果。 和老版 4o 一比,马上高下立判了。 就别说新方向提没提到,光是给出的措施数量上,就差了不少。 于是后面,我们就专门对自适应光学这个船新方向进行了追问:利用了量子纠缠的什么原理来提高信噪比?能否拓展到量子自适应光学?
不过,后续我们再深入追问之后,它问题就暴露出来了。当追问到更难的实验细节部分, o1 的回答效果就会降低。 但总体来说,在物理方面, o1 的表现算是不错的。和老版比下来,提升基本在 20 分左右。
K 博士围绕Fe-N4 问了一系列的问题, o1 给了很长的一串回答,为了精简篇幅我们这里只展示了部分问题和结果。 整体测试之后, K 博士给出的评价也差不多:可能有研究生水平,但是深入的认知和给方案的能力,比较虚,主要还是针对已知内容作答。
虽然相比 gpt4o 没那么胡说八道,但具体的问题上他俩都给不了太多建议,老版是丧失细节乱说,新版能力有限就会词穷。 除了这俩,理综三科那肯定也少不了生物。 我们还咨询了来自清华,在读生物学的信博士,他的问题是: “ 如何从质谱数据集中区分赖氨酸残基的乳酰化和羧乙基修饰? ” 虽然我听不懂,但是 o1 也给了一段非常长的回答,跟论文综述似的,后面还贴了参考文献。 但出乎意料的是,当我们把这个回答交给信博士,人家看完就发现不对路了,而且是一眼丁真的问题。
虽然编了,但也没完全编,总体来说人家清华博士还是觉得比之前的 AI 能强不少,起码理解能力是肉眼可见了,编也编的很像。。。 不过,不同方向的博士评价有所区别,这或许也跟 o1 自己擅长的领域有关。 拿官方给出的理综分数来看,虽然 gpt4o 在生物学上的评分要比化学和物理高,但这回的 o1 就完全不一样。
总体而言,真要说到超越专业博士水平,博士们认为还得缓缓。 崔博士直言,在现实科研工作中,多数情况学者们都还得自己动手, AI 只能提供大致方向,因此花钱要这样的细致 AI 意义不大。 他更推荐本科生选择这个 AI ,要是硕博阶段,那这个 AI 的回答其实并不符合导师标准,组会上肯定要挨批。 清华的信博士也同样持这种看法,且不说 AI 的幻觉编造文献问题,就专业程度而言, AI 的回答也只能糊弄大同行,也就是同一大学科里面方向不同的人群;而在小同行,专业研究这个方向的人眼里, AI 的毛病还是非常明显的。 北大 K 博士则谈的更深入,他认为这个 AI 只能说在认知上有了硕士生的水平,但也只是作为一个缝补匠,谈不上说出什么创造性的成果。就创造性这一点来说, AI 是远远比不上硕博的水平的,这也是 AI 需要解决的重要问题。 在博士们的评价里,我们似乎能抓到一个重点:o1 模型之所以相对更强,是因为他有了更高维的认知和思考模式。 这,也是 o1 本次更新的要点。我们在 OpenAI 官网找到了 Learning to Reason with LLMs 这篇文章,他们在文中表示,主要是他们用上了长思维链 ( CoT , Chain of thought ) ,而不是传统的提示链( Prompt chain )。
在以前的模式下,大模型的问答就跟下意识出答案一样,比如你问我天是啥颜色,这问题我想都不想,秒答蓝色。这实际上需要我本来就知道这个知识点,然后给你直接反应就完了。 但这个长思维链就相当于,我不仅要知道蓝色是个啥,还能自己推一遍为啥是蓝色,什么大气散射,光谱波长都要考虑进去。 这就需要 AI 得有实打实的构建逻辑,推理论证的能力,换句话说,他不仅要长脑子,还要动脑子。 尽管思维链这个概念是 2022 年谷歌提出来的,但 OpenAI 这次是第一个实现的。
比如我们拿崔博士提问的 “ 远距离纠缠光子分发,有什么克服白噪声的办法? ” 这一问题为例, o1 模型的思考过程如下: 不过,就像专业领域的问题它也会翻车一样,有些日常场景的简单题似乎也有可能难住它。 拿之前那个经典 9.11 和 9.8 比大小例子来说,小红书网友 @ 小水刚醒 就发现这玩意 “ 一上难度就崩溃……无限循环发疯般推思维链( CoT ) ” 我们编辑部自己评测时也发现了这个问题,不过当询问它为什么的时候,它也会马上反应过来自己推理出现了错误,然后再重新推导一番。 好好好,不愧是博士,善于发现错误是吧。 整轮测试下来,差评君不得不承认,它确实是大大提升了。士别三日,也的确应当刮目相看。 在效果上,也确实相比前代确实更好,而且长思维的应用,对未来 AI 发展都是好事。
不过 OpenAI 的研究人员 Noam Brown 透露,未来版本的 o1 将会思考几个小时、几天甚至几周,虽然这样烧钱会更多,但像在研发抗癌药这些任务上,这种花费也是值得的。 另外,差评君觉得 GPT o1 实现的思维链模式,也很有可能会像之前的 Transformer 架构、 DiT 架构那样,又会引领全世界的大模型的方向。 所以说,通往 AGI 之路说近不近,但说远也不远,期待接下来各家的选手轮番登场了。 图片、资料来源:OpenAI ,X , IBM ,小红书等,图源网络 |
|
|
|
![]() |
![]() |
实用资讯 | |
|
|
一周点击热帖 | 更多>> |
|
|
一周回复热帖 |
|
历史上的今天:回复热帖 |
2023: | 不需要euv光刻機了!清華直接造長200米 | |
2023: | UAW那班货应发起全国大罢工,支持老墨将 | |
2022: | 大疫已三年,到底什么时候是个头? | |
2022: | 中国将在2028年实现聚变发电 zt | |
2021: | 【转】中国指英美与澳核潜艇合作破坏地 | |
2021: | 华为连夜宣布重磅消息,终于突围了,国 | |
2020: | 我早介绍过碎片理论,任何局部都呈现相 | |
2020: | 为什么中国的智库无论怎样逻辑分析都无 | |
2019: | 共军连这个都要参加阅兵? | |
2019: | 1955年,上海妓女改造:920位姐妹来到新 | |
|