Anthropic份额首超OpenAI，但企业花钱的逻辑跟跑分已经没关系了-尧图网站建设

📅 发布时间：2026/6/30 12:14:34

Anthropic反超了，但企业花的钱和买的东西对不上

刷到Ramp那份AI Index报告的时候，我愣了一下。

Anthropic在美国企业AI支出里占比41%，超过OpenAI的39.5%。你问我第一反应是什么？不是"Anthropic真牛"，而是困惑——明明前一天还看到Fable 5在真实工作场景里翻车，怎么企业还越买越多了？

带着这个困惑，我把几份数据拆开了看。越拆越觉得，企业花钱的逻辑，跟"哪个产品最好"已经没关系了。

Ramp的AI Index是实打实的交易数据。7万多家美国企业的信用卡和账单记录，看谁在按月给哪家AI厂商付费。Anthropic 41%对OpenAI 39.5%，2026年5月的数据。

但单看一个点没意义。我把Anthropic的占比拉长：

月份	Anthropic	OpenAI	Google	xAI	DeepSeek
2024年12月	10.6%	33.0%	—	—	—
2025年6月	14.2%	39.4%	—	—	—
2025年12月	18.4%	41.2%	—	—	—
2026年2月	27.5%	41.2%	—	—	—
2026年3月	34.1%	40.3%	—	—	—
2026年4月	38.6%	39.6%	—	—	—
2026年5月	41.0%	39.5%	6.1%	3.1%	0.3%

数据来源：Ramp AI Index，2026年6月9日发布。份额允许重叠，因为企业同时购买多家产品。

一年半，从10.6%到41%。OpenAI同期从33%到39.5%，几乎原地踏步。 Anthropic往上爬的速度，比OpenAI往下掉的速度快得多。

但这个增速是怎么来的？不是IT部门理性评估后统一采购的。Anthropic的Claude Code、Claude Cowork这类工具在开发者圈子里传得很快，一个人先偷偷用，团队其他人被迫跟上，最后IT部门只能走正式采购流程。Ramp的数据正好捕捉了这种自下而上的传播。它快，但它跟"产品更好"没有必然关系。

还有个更耐人寻味的细节。企业AI支出分化极大：前1%企业人均月支出约$7,449，前10%是$611，但中位数只有$11.38——大概一个ChatGPT或Claude的座位费。绝大多数企业根本没把AI用深，就是在"买几个座位试试看"。这种阶段，选型逻辑跟产品能力的关系很弱，跟谁先接触到团队的关系更强。

另一个数据唱反调

IDC在2026年3月做的企业调查，结论跟Ramp完全不同。约42%的企业组织在使用OpenAI，Google约38%。Anthropic只有19%被"广泛使用"，25%还在"评估中"。

两个数字都对，但数的不是同一个东西。Ramp看的是"谁在给钱"——信用卡和账单上的实际支出。IDC看的是"谁在组织层面使用"——顶层标准化采购和合同关系。 Anthropic在"团队偷偷花钱"这条路上跑得快，但"IT部门统一签大合同"这条腿还没追上。

说实话，对于这种"谁是第一"的 headline，我更信任Ramp的信用卡数据。不会撒谎。但IDC的提醒也重要：企业AI采购有两条腿，跑成两条轨道了。Anthropic只占了一条。

Fable 5跑分95%，真实任务只过了3%

6月9日Anthropic发布了Fable 5，Mythos级旗舰，SWE-bench Verified 95%。各大 headline 都在吹。但紧接着两份数据直接把气氛反转了。

第一份，Artificial Analysis的AA-Briefcase benchmark。不是做选择题，是给模型多周知识工作项目——把Slack对话、邮件、会议纪要、数据导出串起来，让它在真实信息碎片里找答案。91项任务，Fable 5只通过了3%的评判标准。31项任务里，没有任何模型达到50%的及格线。全挂。

第二份，开发者Ali Khallad的私有benchmark。用他自己项目里的真实bug建了4个用例，React和TypeScript。Fable 5过了3个，最难的一个翻了车——kanban board有两处独立的视觉bug，Fable 5只修了一处，然后宣布"所有症状已解释"。它没去找第二处bug，因为第一处已经给了它一个"完美的理论"，不需要继续验证了。

两份数据合在一起，跑分高不代表真实场景里好用。Fable 5标准benchmark上95%，交叉验证碎片信息的任务里3%。真实debug里，一个"漂亮的解释"就能让它停下来。

其实31项"全挂"的任务里，所有模型都没过。这不是Anthropic一家的问题。但Fable 5作为目前的"最强模型"，落差最刺眼——跑分最高，实际通过率也最低（3%）。

成本上更离谱。AA-Briefcase里，DeepSeek V4 Flash单任务约$0.04，Fable 5超$31，差800倍。花$31做一件事没修好，$0.04就能做的事。这个三角——跑分高、成本高、实际通过率低——对企业决策的影响，比任何benchmark数字都更直接。

企业到底在买什么

Fable 5翻车成这样，企业支出还往Anthropic倾斜。原因不在产品本身，在传播机制。

Anthropic在6月底发布了一份自研调研，约9700名用户参与。Artifacts功能使用率：营销文案撰写80%、博客创作81%、数据库查询82%。这组数据至少说明Claude在工作流里被高频使用，但Artifacts对应的是"写文档、查数据"这些可拆解的环节。调研自己也留了话：“完整的工作不只是零散任务的叠加，任务间的知识传递尤为关键。“跨环节的知识传递AI还没搞定。所以"约半数用户觉得AI能接管一半工作”——这个"一半”，只是工作里可外包的部分。

另外，自研数据有偏向性。愿意参与调研的本身就是活跃用户，沉默的大多数可能没这么乐观。参考可以，别过度解读。

Ramp的中位数$11.38暴露了一个更底层的问题：企业在买的不是"最好的AI产品"，是"便宜座位"。Claude Code在开发者圈子里的渗透率高，一个人偷偷用，团队被迫跟上，IT部门只能买单。这是传播机制在驱动，不是产品优劣在评选。选型逻辑不是"哪个模型能帮我省几百万"，是"哪个工具我的团队已经用上了"。注意——是"已经用上"，不是"最好用"。

Fable 5翻车那次没搞破坏，所有行为保护检查都通过了。没修好，但也没弄坏。这个"相对优势"的代价是：花了$31做了一个$0.04就能做的事，结果还没修好。企业不追究这种性价比，说明决策链条里缺一个较真的人。或者说，决策链条压根不在乎性价比，因为花的是$11.38的座位费，不是$7,449的深度部署预算。

Ramp留了三个风险

Ramp的首席经济学家Ara Kharazian在报告里明确说，别把1.5个百分点领先当成"锁定胜局"。他列了三个风险：

第一，激励不对齐。Anthropic的收入跟token消耗挂钩，企业用得越多，它赚得越多。机制天然倾向于推更贵的模型，即使便宜的已经够用。预算收紧时，这个矛盾会浮出来。

第二，可靠性投诉。2026年春季有用户报告中断和速率限制。Anthropic 4月调整了用量限制，还跟SpaceX签了数据中心合作。但基础设施问题不是签个协议就能解决的。

第三，模型变更的成本压力。模型更新频繁，每次更新可能改变token消耗模式。企业用习惯了某个输出风格，突然升级后成本变了，管理成本很高。

三个风险里，第一个最隐蔽。Ramp的数据是实际支出，如果企业因为激励不对齐而多花了冤枉钱，那"41%"本身就有水分。短期内很难量化，只能作为一个提醒放在那里。

回到开头那个困惑

Anthropic反超OpenAI，是真实信号。但把它解读为"Anthropic赢了"，跟把它解读为"OpenAI不行了"，一样都是过度简化。

更准确的描述是：企业AI市场的两条轨道——自下而上的草根采购和自上而下的标准化采购——正在分裂。Anthropic在第一条上跑得快，OpenAI在第二条上守得牢。Fable 5的跑分翻车提醒我们，模型能力的benchmark和实际工作场景之间还有巨大的鸿沟。

但这个变化本身，跟"Anthropic比OpenAI更好"没有必然关系。它只能说明一件事：跑分已经说服不了企业花钱了，惯性、熟悉度和传播效应才是决定支出的因素。这个局面，对Anthropic是利好，对OpenAI是压力，但对行业本身意味着什么——可能不是好事。当企业的选型决策跟产品能力的真实差距脱钩，市场信号就会失真。失真久了，好产品和坏产品都会收不到反馈。

Ramp的数据预测不了六个月后的格局。一年半前Anthropic只占10.6%，现在41%。如果另一个一年半后格局又变了，我不会意外。但至少在2026年这个节点，企业AI支出的流向已经给出了一个清晰的信号：选型的逻辑变了，跑分不再是唯一指标。问题是，新的指标是什么——还没有人能给出一个靠谱的答案。

我一开始困惑的那个问题，现在有了答案：企业花的钱，和它们买的东西，确实对不上。但它们不在乎对不上，因为花的还不够多。等花到$7,449的时候，这个对不上的问题才会真正暴露出来。

数据来源：Ramp AI Index（2026年6月9日发布，7万+企业样本）；Anthropic H轮融资公告（2026年5月）；IDC FERS Survey（2026年3月）；Artificial Analysis AA-Briefcase benchmark（2026年6月）；Ali Khallad私有benchmark测试（2026年6月10日）；Anthropic自研用户调研（约9700人，2026年6月）。截至2026年6月29日。

Ramp数据不会撒谎，但它只能看到已经发生的事。41%也好，3%也好，都是2026年5月的快照。六个月后格局可能完全不同，但选型逻辑已经变了这件事，大概不会变回去。