文/观察者网专栏作者 唐晓甫
观察者网编辑
最近,AI Agent(AI智能体/助理/助手)成为一个非常热门的话题。作为一个长期跟踪AI发展、但已经忘记如何编程的人,我也在一直追逐前沿动态,试图更加高效地学习使用AI Agent,拓展自己的能力边界。
于是继5月份,我和AI一起从零开始,低效手搓出一个功能不全的简易版Agent后,我把目光投向了已经颇具规模的成熟Agent,选择了朋友推荐的新兴开源Agent——Hermes,然后将API(应用程序编程接口)选定为我的老朋友DeepSeek。
当然,开了高权限的Agent能干的事情确实非常多,不仅能和你搞出聊天bot、相对高效率地编程、对很多参数配置进行一句话修改,还能模拟键鼠绕过传统的反爬虫程序,读取不少东西。当然这个过程也并非一帆风顺,也会出现改错东西致使软件崩溃的情况,例如我在修改bot参数的时候,Agent会意外篡改原来的API信息、并且没事就切换输入法繁简体,还挺无语的。
令人惊叹的低价
只不过最让我意外的还是DeepSeek,由于我本来对编程已经忘得差不多了,本地也没有很多编程工具和软件包,每次在调试程序的时候,我给出的提示词都比较模糊,导致精细调整时浪费很多词元。于是在一次次不断地为本地Agent界面功能升级、自动输出skill以及编程的过程中,不知不觉,我的词元消耗量在短时间内达到了相对庞大的数字——4.5亿。

我不太清楚这个数字意味着什么,尤其是我的第一选择一直是DeepSeek,没有使用过其他公司的官网API,我并不知道这背后隐藏着中美AI大模型最核心的差异之处。我只是稀里糊涂地查了一下账单,发现我四天浪费4.5亿词元的结果是——我只要为此付出35块钱。
到这时,我才突然想起来,我是不是可以问问ChatGPT,4.5亿词元意味着什么。于是我向ChatGPT提出了这个问题:4.5亿词元是不是很多?然后它给出了回答:

是的,4.5亿词元非常多。直观说:
1.内容量级很大
4.5亿词元大致相当于:
英文:约3亿多个英文单词
中文:可能约3亿到4.5亿个汉字/字符级内容
如果一篇长稿按1万词元算,大概是4.5万篇长稿,如果一本书按10万到20万词元算,大概是2250到4500本书
2.API成本也不小
按OpenAI当前官方价格,GPT-5.5标准API是输入$5/100万词元,输出$30/100万词元;GPT-5.4mini是输入$0.75/100万词元,输出$4.50/100万词元。所以4.5亿词元=450个“百万词元”。
结论:
4.5亿词元已经不是普通个人使用量,而是中大型内容处理、批量摘要、数据清洗、知识库构建、批量翻译/改写这类项目级用量。
由于ChatGPT的这个回答超出了我的预期,我就问了一下,4亿词元(还不是4.5亿)用美国的API要多少钱?答案再次让我惊讶。



根据ChatGPT、Gemini和Claude的说法,即便在最便宜的情况下,用GPT-5.4nano全输入4亿词元,也要80美元。而如果是全输出,最贵的GPT-5.5会收费1.2万美元。可以这么说,即便按美国主流模型中最便宜的报价计算,处理4.5亿词元的成本,理论上也会是我这次DeepSeek浪费行动所花成本的约17.5倍。
然后我想了想,也许是因为我的缓存命中比较高的原因(DeepSeek也是出了名的缓存命中高),所以导致收费很低。于是我问了一下,如果缓存命中率达到99%(显然正常情况下是不可能的),4亿词元我要花多少钱?答案如下:



我们可以看到,哪怕是我把缓存命中率提到99%,无论是ChatGPT、Gemini还是Claude的旗舰大模型的收费标准都显著高于DeepSeek,甚至高于DeepSeek几十倍收费依旧是常态。
当然,这次Agent实验过程中,我没有用什么专门的编程软件,也没有调用现成的工具库、多专家Agent或者Skill库,没有用Codex或者Claude Code中转CC Switch连接DeepSeek,也知道DeepSeek在处理一些问题的时候会非常笨拙且消耗词元,所以我这次只是单纯比较词元的价格。
也许有人认为这样单纯追求廉价意义有限。因为在AI狂飙突进的叙事下,似乎极致的性能才是一切的核心,谁能率先实现AGI,谁就能拿到打开下一个时代的钥匙,然后在一夜之间带来生产力的飞升和文明的进化,所以一切高投入都是值得的。
这里我们先抛开DeepSeek V4 Pro本身的Agent性能,以及国人是否可以围绕DeepSeek等国产大模型创造更高效的Vibe Coding生态等问题不谈,而是更加细致地从价格和财务的角度关注2026年上半年的AI生态,就会发现,所谓“一切高投入都是值得的”之类的结论似乎太武断了。
美国公司也无法承受越来越长的美国AI账单了
一些不太关注AI的朋友可能会产生这样的印象:即便有数据表明中国模型的性价比远高于美国产品——例如,人工智能基准测试公司Artificial Analysis在相同10项评估中对比各实验室最强模型后发现,Anthropic的Claude成本高达4811美元,OpenAI的ChatGPT为3357美元,而DeepSeek仅需1071美元,Kimi为948美元,智谱的GLM更是低至544美元,Claude的成本几乎是其中最便宜的中国方案的九倍。
同时,中国模型的调用词元数量已阶段性位居世界第一,根据OpenRouter数据,3月底至4月初中国模型的词元调用占比一度接近48%,并且在2026年4月以来的大多数周中都超过了美国模型,单周调用量甚至一度达到美国模型的4.28倍。
尽管如此,我们一般还是会默认,美国公司不仅会将业务留给美国AI大模型,而且美国巨头们对于AI词元的需求,至少现在是近乎无上限的。但是事实上,我们错了,而且大错特错。
首先,美国公司现在也在大规模运用中国的AI大模型。不仅用得多,甚至还直连官网。这里我们可以看看知名财务自动化平台与企业支出管理软件Ramp关于DeepSeek的两篇报道。第一篇是发布于2025年3月7日的《Are businesses actually using DeepSeek?》,里面提到,根据其企业支付数据估算,截至2025年1月底,一度有0.3%的美国企业使用过DeepSeek。

然而在6月3日发布的《Top SaaS Vendors on Ramp (June 2026)》中,Ramp首席经济学家Ara Kharazian在文中表示,DeepSeek在当月登上Ramp “trending software list”的榜首。更重要的是,Ramp特别说明,这不是企业自建开源模型的间接使用,而是企业正在直接向DeepSeek付款,并且通过DeepSeek直接发送和接收数据。也就是说,虽然没有给出明确数据,但是已经有一定比例的美国企业开始通过官方API渠道采购DeepSeek的服务,而不只是下载开源权重或通过第三方平台间接使用。
如果这只是小型企业开始嫌弃美国大模型收费太贵的话,那么另外的一些报道则可能更值得警惕:美国顶级企业开始限制员工对词元的消耗。
5月,美媒《华尔街日报》就报道,不少大公司数月前对AI应用的普遍看法仍是“越多越好”。因此,当模型开发商提供无限量订阅模式时,部分企业员工便尽可能消耗算力,以证明自己紧跟AI热潮。然而,随着无限量订阅模式被按词元收费的模式取代,以及词元的单价飙升后,企业在运用AI方面的支出也将随之大增。
有公司已经报告称自家AI支出增加了一到两倍,而Uber在4个月就已经用完了AI的全年度预算。Meta、微软、Salesforce等企业的技术主管也提出新措施,以确保员工使用AI有助于提高生产力,或减少部分员工使用特定工具的权限。亚马逊也在5月通知员工,旗下可用于跟踪员工词元消耗情况的“Kirorank”榜单已停止服务。该榜单的设立初衷是推动AI在业务场景的应用,然而事与愿违,部分员工为追求更高的排名和绩效,将AI智能体当作不计成本的“烧词元”工具,导致公司算力资源被浪费。
同时,老牌企业也开始限制自家员工对于词元的需求。Walmart也被报道对内部AI编程工具设置词元数量限制,用来减少重复性“vibe coding”和控制成本。
这股风气甚至蔓延到了一直在炒作AI需求的华尔街。Business Insider报道称,JPMorgan、毕马威等公司已经建立了跟踪员工AI使用机制;其中JPMorgan工程师的AI使用情况会被内部记录和分类(包括GitHub Copilot、Claude等工具)。
摩根大通的首席数据与分析官在2026年6月初的纽约科技周上公开证实,部分员工使用大模型产生的词元成本,已经超过了其个人薪水。作为在全球及北美拥有庞大投行业务的欧洲最大银行之一,法国巴黎银行CIB的首席AI官在巴黎Mistral AI峰会期间表示,他已经不再把“每天消耗数十亿词元”作为首要指标,而是更重视实际产出、效率提升和收入影响。
更加扎心的是,这些被消耗的词元并没有转化为生产力,根据初创企业Entelligence AI收集的2000多家使用高级AI编程工具公司的数据,发现只有18%的词元支出转化为了能够触及真实用户的已交付编码产品。
而这时候,我们不妨来看看近期的一个例子,《崩坏》系列AI NPC&Gameplay技术团队负责人郑银河在2026阿里云峰会上,无意间透露了内部Agent尝试的成本。团队有个工程师为测试多智能体协作,搭建了几十个AI Agent,没有设置词元消耗上限就下班离开。结果智能体连续运行13小时,消耗了价值200万元人民币的词元。他还对同事开玩笑说,如果你是一个独立游戏开发团队,那一晚上已经破产了。(200万元人民币都够很多编程小团队一年以上工资了。)

接连出现的成本失控事件,正在迫使所有企业直面AI实验室此前刻意回避的核心问题:这项技术究竟是否足够有用,值得投入这么高的成本?
从创新逻辑看,技术发展本就建立在大量试错的基础上,但当试错本身已经拥有极高的成本,甚至有拖垮项目的风险时,越来越多企业开始重新衡量这条技术路线的合理性。Ramp首席经济学家Ara Kharazian指出,当前大量美国企业的AI支出已经面临巨大成本压力;在高昂词元消耗、远低于预期的投资回报率双重挤压下,不少企业开始主动寻找OpenAI、Anthropic的平价替代方案,而DeepSeek极低的词元定价,恰好给这类尝试和创新提供了低成本试错的空间。
但是从美国政府的角度来看,AI从来不只是工程上的问题,也不只是金融上的问题,它还涉及美国的美元霸权以及所谓“第四次工业革命”的美梦。
美国“AI金融学”已经正面遇到了那堵墙
对于美国来说,金融端对词元需求的叙事恰恰相反。在很多人的叙事中,美国的高等级AI推理是稀缺的、高价的AI硬件是供应不足的、高价词元是可以被企业无限消化的、高估值是可以由无限增长的推理需求支撑的,而且即便词元价格高企,其投入产出终将会扩大,而AI公司也可以靠昂贵的闭源API,长期收割全球企业并获得盈利。
为此,他们试图将词元与“高等级推理能力的计量单位”相挂钩:越复杂的推理、越长的上下文、越多的Agent调用,就越需要高端GPU、数据中心、电力、云服务和闭源模型能力。这个叙事支撑了AI基础设施的巨额资本开支预期。高盛的基准模型估算,AI相关年度资本开支可能从2026年的7650亿美元,增长到2031年的1.6万亿美元;摩根士丹利也估算,到2028年前后将有近3万亿美元AI基础设施投资流入全球经济。
随后通过这种挂钩以及对稀缺算力的垄断,美国一直试图将算力和美元挂钩,从而实现新时代美元霸权体系的基础,也就是“算力美元”。要不是中国也发展出了自己的AI产业链、开源了自己的AI大模型,并且始终只落后美国AI半年到一年的时间,早就开始加速“算力美元”体系以及其至关重要的算力期货机制建设,而不是拼命地迭代自己的闭源AI体系了。要知道迭代一次AI,沿着Scaling Law扩大参数是非常烧钱的。如果没有后面的追赶,美国人完全可以达成一种默契,逐步收回自己的前期投资之后再推进AI大模型的发展。
而现在,美国的AI相关资本开支已经达到了一个惊人的地步,根据2026年6月初的公开财报和投行估算,美国AI相关资本开支已经进入“准国家级基建投资”规模:一年7000亿到8000亿美元量级,未来数年累计数万亿美元。市场媒体汇总中,四大科技公司Amazon、Microsoft、Alphabet、Meta在2026年合计资本性支出预估为约7250亿美元,较2025年的约4100亿美元增长约77%。这已经超过很多国家一整年的财政支出,也与美国的年度国防预算相媲美。
根据公开数据,仅Amazon、Microsoft、Alphabet、Meta四家公司2026年的AI/数据中心相关资本开支,就相当于美国全年私人国内总投资的约13%,相当于美国全年私人非住宅固定投资的约16%。
这一比例是历史级别的,甚至比互联网泡沫末期的比例更大。2000年美国信息产业资本开支为1642亿美元,占当年有雇员企业资本开支的14.9%;可以说,这是现代美国资本主义史上罕见的,甚至可以说接近史无前例的集中式投资浪潮。
更有意思的是,美国M2从2025年4月的21.7757万亿美元,上升到2026年4月的22.8045万亿美元,一年增加约1.0288万亿美元。这意味着,仅四大AI的资本支出就是过去一年美国M2增量的70.5%。这说明AI基础设施建设已经成为吸收市场流动性、重塑资本配置和支撑高估值叙事的核心机制之一。
美国已经All in AI。
所以美国马上面临的下一个问题是:美国人多久能收回自己的投资?未来的流动性还够吗?在中国大模型已经渗透进美国公司工作环境的今天,在美国资本已经把AI相关资本开支预期打满的今天,在美国密歇根大学消费者信心指数创下自1952年调查以来历史新低的今天,在美国面临高通胀、高利率的今天,本轮美国的AI产业链以及上下游产业链还能烧多久的钱呢?他们真的还能无限扩张式(保持高增速)地烧钱吗?以及最重要的问题,AI算力尤其是推理算力真的缺吗?
至少从我得到的消息看,似乎推理算力(训练算力依旧相对紧缺),全球已经有了短期相对过剩趋势。微软CEO Nadella甚至公开承认,当前瓶颈不是“没有芯片”,而是没有足够电力和已经准备好的数据中心外壳,导致部分芯片处于“在库存里但插不上电”的状态。这意味着AI基础设施的约束正在从“买不买得到GPU”,转向“有没有电、有没有机房、有没有冷却、有没有真实负载把GPU用满”。而Cast AI《2026年 Kubernetes 优化报告》则指出,根据其对大量未优化Kubernetes集群的分析显示,GPU平均利用率只有约5%,CPU平均利用率约8%,内存约20%。
诚然,我们可以明确,AI肯定是未来最重要的发展方向之一,但是正如经典模型Gartner技术成熟度曲线所展现的那样,我们眼下正在经历的,似乎是本轮AI产业链从技术萌芽期到商业化验证的阶段。

更关键的是,美国经济已经出现了明显的“双层结构”:AI相关资本开支、数据中心建设和高端设备投资仍在高速扩张,并成为GDP增长和资本市场估值的核心支撑;但在AI之外,传统消费、服务业就业、制造业就业、白领岗位、利率敏感行业和中小企业部门已经显著降速,部分指标呈现衰退特征。美国正在进入一种由AI投资遮蔽的结构性停滞状态。

我们可以看一张比较经典的图片:标普500指数与美国失业率的走势图。传统上,美国股市通常会在失业率见底并开始上行后进入更脆弱阶段,因为就业恶化最终会传导到消费、企业盈利和信用周期。但本轮AI行情中,这一传统关系出现了明显分化:失业率已经从周期低位抬升至4.3%,但标普500仍处在历史高位附近。AI行情暂时把“就业走弱”转化为“降息预期”,又把“资本开支扩张”转化为“盈利增长预期”,从而遮蔽了传统经济部门的疲弱。
尤其是,在美国AI巨头普遍将基于AI发展的裁员视作一种重大利好的背景下,这种分化正在演变成为本轮AI周期最大的风险:AI叙事必须证明自己能够创造足够生产率、利润乃至就业;否则两条分化的线条会重新收敛,但大概率不是以失业率下降的方式,而是以标普500补跌的方式收敛。
所以一切又回到了那个问题:“美国的高等级AI推理是稀缺的,高价的AI硬件是供应不足的,高价词元可以被企业无限消化,高估值可以由无限增长的推理需求支撑且即便词元价格高企,其投入产出终将会扩大,而AI公司也可以靠昂贵闭源API长期收割全球企业并获得盈利。”——这个叙事还能持续吗?
至少在我看来,这个问题很难。因为流动性短期上限正在被锁死,而便宜、性能仅次于美国大模型的中国大模型正在蚕食美国大模型的盈利预期上限。而且这种局面会让越来越多的人,包括美国人也包括广大的第三世界人民,可以围绕着这个便宜但能用的生态贡献自己的力量,毕竟有句老话:永远不要小瞧开源的信仰。
而正如很多网友的说法一样,从美国的AI闭源模型角度来看,以DeepSeek为代表的、开源而廉价的中国大模型就像一个淘汰圈,闭源模型跑赢了DeepSeek没有奖励,但是跑输了,那就有惩罚,惩罚的结果就是,这个闭源模型会直接消失。



