Uber 4 个月烧光 2026 全年 AI 预算:人均月账单 $500-$2000,企业 token 计费失控的第一个公开样本
5 月 26 日 Fortune 的一篇报道引爆了 AI 圈:Uber 在 2026 年 4 月就把原定全年的 AI 工具预算花光了。COO Andrew Macdonald 在采访里用了"head-exploding moment"形容这次事故,CTO Praveen Neppalli Naga 证实全年预算无补充计划。
这是企业 AI 工具规模化采购时代第一个"全员账单失控"的公开样本——值得每一个正在评估 AI 工具采纳节奏的技术负责人看一眼数字。
一、关键数字
事件经 Fortune、Briefs、AI Magazine 等多家媒体交叉报道,可信度较高。已核实数字如下:
| 指标 | 数值 |
|---|---|
| 全员工程师规模 | 5,000 |
| 月人均 API 账单 | $500–$2,000(重度用户达 $2,000) |
| 月人均平均水位 | $150–$250 |
| 月活 AI 工具使用率 | 95% |
| AI 生成代码占提交比例 | ≈70% |
| 内部 AI agent 每周完全自动写入的代码变更数 | 约 1,800 条 |
| Q1 2026 R&D 支出 | $951M,同比 +17% |
| 全年 R&D 体量 | $3.4B |
时间线也值得看:
- 2025-12:Uber 把 Claude Code 推给全员
- 2026-02:月活工程师从 32% 跃升至 63%,两月翻倍
- 2026-03:84% 工程师进入"agentic coding"状态
- 2026-04:全年 AI 预算被烧光
- 2026-05-26:COO 在内部 all-hands 公开复盘
二、为什么会烧得这么快:三个被低估的成本机制
把这件事归结为"Uber 财务能力不行"太肤浅了。同样的机制正在每一家把 AI 编码工具推到全员的公司里发生。
机制 1:座位许可式预算 vs token 计费的结构错配
传统企业软件是 seat-based:一个工程师一个 license,预算线性可预测。AI 编码工具是token-based:
- 工程师 A 用它做函数末尾自动补全,单次几百 token,月度账单几十美元
- 工程师 B 把它当 agent 在 monorepo 里跑一下午"重构 API 层并补齐测试",单次会话几千美元
5000 工程师 × 不可预测的 agentic 行为模式 = 完全跳出年度预算节奏的现金流。这不是算账失误,是企业财务模型还没适配 token 计费。
机制 2:内部排行榜把 token 用量变成了 KPI
Uber 内部有一个按 AI 使用量排名团队的 leaderboard——本意是推广 AI 工具采纳率,结果工程师为了上榜主动堆 token 用量。
这个现象在行业里被称为tokenmaxxing,据报道 Meta 等公司也有类似的内部仪表盘。问题是:token 数和实际产出之间没有线性关系。Macdonald 的原话:“如果你没法把这个支出直接对应到给用户交付了多少功能,这笔交易就很难再合理化。”
机制 3:agentic 模式下的"次思考成本"
Claude 4.x 系列在 agentic 模式下会自己规划、分步、调工具。每一步都消耗 thinking tokens——而且 Opus 4.7 的 adaptive thinking 默认就是effort: high,模型会在判断必要时大量思考。
一次工程师以为"就让它写个函数"的请求,可能在背后跑了 10 万 token 的推理与工具循环。这部分成本对工程师本人完全不可见——他们只看到结果,看不到中间消耗。账单出来时只有财务能拼出全貌。
三、行业涟漪:Uber 不是唯一一家
| 公司 | 动作 | 信号 |
|---|---|---|
| Microsoft | 5 月初被报道取消大部分 Claude Code 直接许可,让工程师改用 GitHub Copilot CLI | 大厂开始把 token 计费 AI 工具视为不可控成本 |
| Uber | 4 月烧光预算并公开复盘 | 第一个公开样本 |
| Meta(据报道) | 内部 token 用量仪表盘 | tokenmaxxing 文化已成型 |
第三方调研也指向同一趋势:2025 Mavvrik 调研显示85% 的企业 AI 成本超出预期 10% 以上,84% 的企业毛利率下降 6 个百分点以上。Gartner 预测 2026 年 AI agent 软件支出将达约2070 亿美元,比 2025 年的 864 亿翻 1.4 倍。
Uber 的"head-exploding moment"将在 2026 下半年大量复现,只是其他公司未必会公开。
四、可落地的成本控制:三件马上能做的事
工程师团队规模就算只有 Uber 的 1/100,相同的机制一样适用。下面三件事不需要等到月底账单出来才能动手。
1. 用 Prompt Caching 把高频上下文成本拍平
对于 codebase 大、上下文长的场景,prompt caching 能把重复输入的部分降到原价的 10%。
importanthropic client=anthropic.Anthropic(api_key="sk-你的密钥",base_url="https://gw.claudeapi.com")response=client.messages.create(model="claude-sonnet-4-6",max_tokens=2048,system=[{"type":"text","text":"<把代码库的关键文件、约定、风格指南塞进来>","cache_control":{"type":"ephemeral"}}],messages=[{"role":"user","content":"为 utils/parser.py 加单元测试"}])第一次调用建缓存,之后 5 分钟窗口内的所有请求只按 10% 价格计算 cached 部分。对一天内反复让 Claude 看同一份代码库的工作流,能省下约七成 token 费用。
2. 模型分层路由:不是所有任务都需要 Opus 4.7
人均 $2000 的工程师,多半把 Opus 4.7 当默认模型在所有场景下用。但实际上:
| 任务类型 | 推荐模型 | 相对 Opus 4.7 价格 |
|---|---|---|
| 复杂架构、长链路推理、最难的 bug | Opus 4.7 | 100% 基准 |
| 90% 日常编码、PR review、文档 | Sonnet 4.6 | 输入输出都约 1/5 价 |
| 分类、抽取、简单补全、 schema 转换 | Haiku 4.5 | 输入输出都约 1/20 价 |
仅仅把"默认模型"从 Opus 改成 Sonnet,账单能砍到 1/5。Opus 4.7 留给真正需要深度推理的任务——日常工作流里这样的任务占比远低于很多人以为的。
3. 工程师粒度的预算与告警
Uber 这次事故的核心问题不是用得多,而是用了才知道。要避免重演,最低要求是:
- 每个工程师独立 API Key,账单可追溯到人
- 每把 Key 设月度预算上限,触发后自动停用
- 异常用量(单日 > 个人均值 3 倍)触发告警
实现方式不限于哪家中转平台,主流平台都提供按 Key 维度的用量明细。关键是把这件事在工程师入职 Day 1 就配好,而不是等出账单。
五、复盘:tokenmaxxing 不是好事
Uber 这次复盘最值得 industry 记住的一句话来自 Macdonald:
“如果你没法把这个支出直接对应到给用户交付了多少功能,这笔交易就很难再合理化。”
70% 的提交代码由 AI 生成,听起来是个漂亮的 KPI——但它和"产品提速"之间没有自动等号。token 数也不等于产出。用得对比用得多重要。
下一波踩同样坑的,大概率不是 Uber 级别的公司,而是那些刚把 Claude Code 推给全公司、还没设预算上限、还没做模型分层路由的中型团队。提前 6 个月把这三件事做好,能省下的钱可能比工具本身的价值还高。
信息来源:Fortune / Briefs / AI Magazine 及 Startup Fortune、Designrush 等二手报道。完整 Claude 模型定价见 claudeapi.com。
