Anthropic反超了,但企业花的钱和买的东西对不上
刷到Ramp那份AI Index报告的时候,我愣了一下。
Anthropic在美国企业AI支出里占比41%,超过OpenAI的39.5%。你问我第一反应是什么?不是"Anthropic真牛",而是困惑——明明前一天还看到Fable 5在真实工作场景里翻车,怎么企业还越买越多了?
带着这个困惑,我把几份数据拆开了看。越拆越觉得,企业花钱的逻辑,跟"哪个产品最好"已经没关系了。
Ramp的AI Index是实打实的交易数据。7万多家美国企业的信用卡和账单记录,看谁在按月给哪家AI厂商付费。Anthropic 41%对OpenAI 39.5%,2026年5月的数据。
但单看一个点没意义。我把Anthropic的占比拉长:
| 月份 | Anthropic | OpenAI | xAI | DeepSeek | |
|---|---|---|---|---|---|
| 2024年12月 | 10.6% | 33.0% | — | — | — |
| 2025年6月 | 14.2% | 39.4% | — | — | — |
| 2025年12月 | 18.4% | 41.2% | — | — | — |
| 2026年2月 | 27.5% | 41.2% | — | — | — |
| 2026年3月 | 34.1% | 40.3% | — | — | — |
| 2026年4月 | 38.6% | 39.6% | — | — | — |
| 2026年5月 | 41.0% | 39.5% | 6.1% | 3.1% | 0.3% |
数据来源:Ramp AI Index,2026年6月9日发布。份额允许重叠,因为企业同时购买多家产品。
一年半,从10.6%到41%。OpenAI同期从33%到39.5%,几乎原地踏步。 Anthropic往上爬的速度,比OpenAI往下掉的速度快得多。
但这个增速是怎么来的?不是IT部门理性评估后统一采购的。Anthropic的Claude Code、Claude Cowork这类工具在开发者圈子里传得很快,一个人先偷偷用,团队其他人被迫跟上,最后IT部门只能走正式采购流程。Ramp的数据正好捕捉了这种自下而上的传播。它快,但它跟"产品更好"没有必然关系。
还有个更耐人寻味的细节。企业AI支出分化极大:前1%企业人均月支出约$7,449,前10%是$611,但中位数只有$11.38——大概一个ChatGPT或Claude的座位费。绝大多数企业根本没把AI用深,就是在"买几个座位试试看"。这种阶段,选型逻辑跟产品能力的关系很弱,跟谁先接触到团队的关系更强。
另一个数据唱反调
IDC在2026年3月做的企业调查,结论跟Ramp完全不同。约42%的企业组织在使用OpenAI,Google约38%。Anthropic只有19%被"广泛使用",25%还在"评估中"。
两个数字都对,但数的不是同一个东西。Ramp看的是"谁在给钱"——信用卡和账单上的实际支出。IDC看的是"谁在组织层面使用"——顶层标准化采购和合同关系。 Anthropic在"团队偷偷花钱"这条路上跑得快,但"IT部门统一签大合同"这条腿还没追上。
说实话,对于这种"谁是第一"的 headline,我更信任Ramp的信用卡数据。不会撒谎。但IDC的提醒也重要:企业AI采购有两条腿,跑成两条轨道了。Anthropic只占了一条。
Fable 5跑分95%,真实任务只过了3%
6月9日Anthropic发布了Fable 5,Mythos级旗舰,SWE-bench Verified 95%。各大 headline 都在吹。但紧接着两份数据直接把气氛反转了。
第一份,Artificial Analysis的AA-Briefcase benchmark。不是做选择题,是给模型多周知识工作项目——把Slack对话、邮件、会议纪要、数据导出串起来,让它在真实信息碎片里找答案。91项任务,Fable 5只通过了3%的评判标准。31项任务里,没有任何模型达到50%的及格线。全挂。
第二份,开发者Ali Khallad的私有benchmark。用他自己项目里的真实bug建了4个用例,React和TypeScript。Fable 5过了3个,最难的一个翻了车——kanban board有两处独立的视觉bug,Fable 5只修了一处,然后宣布"所有症状已解释"。它没去找第二处bug,因为第一处已经给了它一个"完美的理论",不需要继续验证了。
两份数据合在一起,跑分高不代表真实场景里好用。Fable 5标准benchmark上95%,交叉验证碎片信息的任务里3%。真实debug里,一个"漂亮的解释"就能让它停下来。
其实31项"全挂"的任务里,所有模型都没过。这不是Anthropic一家的问题。但Fable 5作为目前的"最强模型",落差最刺眼——跑分最高,实际通过率也最低(3%)。
成本上更离谱。AA-Briefcase里,DeepSeek V4 Flash单任务约$0.04,Fable 5超$31,差800倍。花$31做一件事没修好,$0.04就能做的事。这个三角——跑分高、成本高、实际通过率低——对企业决策的影响,比任何benchmark数字都更直接。
企业到底在买什么
Fable 5翻车成这样,企业支出还往Anthropic倾斜。原因不在产品本身,在传播机制。
Anthropic在6月底发布了一份自研调研,约9700名用户参与。Artifacts功能使用率:营销文案撰写80%、博客创作81%、数据库查询82%。这组数据至少说明Claude在工作流里被高频使用,但Artifacts对应的是"写文档、查数据"这些可拆解的环节。调研自己也留了话:“完整的工作不只是零散任务的叠加,任务间的知识传递尤为关键。“跨环节的知识传递AI还没搞定。所以"约半数用户觉得AI能接管一半工作”——这个"一半”,只是工作里可外包的部分。
另外,自研数据有偏向性。愿意参与调研的本身就是活跃用户,沉默的大多数可能没这么乐观。参考可以,别过度解读。
Ramp的中位数$11.38暴露了一个更底层的问题:企业在买的不是"最好的AI产品",是"便宜座位"。Claude Code在开发者圈子里的渗透率高,一个人偷偷用,团队被迫跟上,IT部门只能买单。这是传播机制在驱动,不是产品优劣在评选。选型逻辑不是"哪个模型能帮我省几百万",是"哪个工具我的团队已经用上了"。注意——是"已经用上",不是"最好用"。
Fable 5翻车那次没搞破坏,所有行为保护检查都通过了。没修好,但也没弄坏。这个"相对优势"的代价是:花了$31做了一个$0.04就能做的事,结果还没修好。企业不追究这种性价比,说明决策链条里缺一个较真的人。或者说,决策链条压根不在乎性价比,因为花的是$11.38的座位费,不是$7,449的深度部署预算。
Ramp留了三个风险
Ramp的首席经济学家Ara Kharazian在报告里明确说,别把1.5个百分点领先当成"锁定胜局"。他列了三个风险:
第一,激励不对齐。Anthropic的收入跟token消耗挂钩,企业用得越多,它赚得越多。机制天然倾向于推更贵的模型,即使便宜的已经够用。预算收紧时,这个矛盾会浮出来。
第二,可靠性投诉。2026年春季有用户报告中断和速率限制。Anthropic 4月调整了用量限制,还跟SpaceX签了数据中心合作。但基础设施问题不是签个协议就能解决的。
第三,模型变更的成本压力。模型更新频繁,每次更新可能改变token消耗模式。企业用习惯了某个输出风格,突然升级后成本变了,管理成本很高。
三个风险里,第一个最隐蔽。Ramp的数据是实际支出,如果企业因为激励不对齐而多花了冤枉钱,那"41%"本身就有水分。短期内很难量化,只能作为一个提醒放在那里。
回到开头那个困惑
Anthropic反超OpenAI,是真实信号。但把它解读为"Anthropic赢了",跟把它解读为"OpenAI不行了",一样都是过度简化。
更准确的描述是:企业AI市场的两条轨道——自下而上的草根采购和自上而下的标准化采购——正在分裂。Anthropic在第一条上跑得快,OpenAI在第二条上守得牢。Fable 5的跑分翻车提醒我们,模型能力的benchmark和实际工作场景之间还有巨大的鸿沟。
但这个变化本身,跟"Anthropic比OpenAI更好"没有必然关系。它只能说明一件事:跑分已经说服不了企业花钱了,惯性、熟悉度和传播效应才是决定支出的因素。这个局面,对Anthropic是利好,对OpenAI是压力,但对行业本身意味着什么——可能不是好事。当企业的选型决策跟产品能力的真实差距脱钩,市场信号就会失真。失真久了,好产品和坏产品都会收不到反馈。
Ramp的数据预测不了六个月后的格局。一年半前Anthropic只占10.6%,现在41%。如果另一个一年半后格局又变了,我不会意外。但至少在2026年这个节点,企业AI支出的流向已经给出了一个清晰的信号:选型的逻辑变了,跑分不再是唯一指标。问题是,新的指标是什么——还没有人能给出一个靠谱的答案。
我一开始困惑的那个问题,现在有了答案:企业花的钱,和它们买的东西,确实对不上。但它们不在乎对不上,因为花的还不够多。等花到$7,449的时候,这个对不上的问题才会真正暴露出来。
数据来源:Ramp AI Index(2026年6月9日发布,7万+企业样本);Anthropic H轮融资公告(2026年5月);IDC FERS Survey(2026年3月);Artificial Analysis AA-Briefcase benchmark(2026年6月);Ali Khallad私有benchmark测试(2026年6月10日);Anthropic自研用户调研(约9700人,2026年6月)。截至2026年6月29日。
Ramp数据不会撒谎,但它只能看到已经发生的事。41%也好,3%也好,都是2026年5月的快照。六个月后格局可能完全不同,但选型逻辑已经变了这件事,大概不会变回去。