当前位置: 首页 > news >正文

Uber 4 个月烧光 2026 全年 AI 预算:人均月账单 $500-$2000,企业 token 计费失控的第一个公开样本

5 月 26 日 Fortune 的一篇报道引爆了 AI 圈:Uber 在 2026 年 4 月就把原定全年的 AI 工具预算花光了。COO Andrew Macdonald 在采访里用了"head-exploding moment"形容这次事故,CTO Praveen Neppalli Naga 证实全年预算无补充计划。

这是企业 AI 工具规模化采购时代第一个"全员账单失控"的公开样本——值得每一个正在评估 AI 工具采纳节奏的技术负责人看一眼数字。


一、关键数字

事件经 Fortune、Briefs、AI Magazine 等多家媒体交叉报道,可信度较高。已核实数字如下:

指标数值
全员工程师规模5,000
月人均 API 账单$500–$2,000(重度用户达 $2,000)
月人均平均水位$150–$250
月活 AI 工具使用率95%
AI 生成代码占提交比例≈70%
内部 AI agent 每周完全自动写入的代码变更数约 1,800 条
Q1 2026 R&D 支出$951M,同比 +17%
全年 R&D 体量$3.4B

时间线也值得看:

  • 2025-12:Uber 把 Claude Code 推给全员
  • 2026-02:月活工程师从 32% 跃升至 63%,两月翻倍
  • 2026-03:84% 工程师进入"agentic coding"状态
  • 2026-04:全年 AI 预算被烧光
  • 2026-05-26:COO 在内部 all-hands 公开复盘

二、为什么会烧得这么快:三个被低估的成本机制

把这件事归结为"Uber 财务能力不行"太肤浅了。同样的机制正在每一家把 AI 编码工具推到全员的公司里发生。

机制 1:座位许可式预算 vs token 计费的结构错配

传统企业软件是 seat-based:一个工程师一个 license,预算线性可预测。AI 编码工具是token-based

  • 工程师 A 用它做函数末尾自动补全,单次几百 token,月度账单几十美元
  • 工程师 B 把它当 agent 在 monorepo 里跑一下午"重构 API 层并补齐测试",单次会话几千美元

5000 工程师 × 不可预测的 agentic 行为模式 = 完全跳出年度预算节奏的现金流。这不是算账失误,是企业财务模型还没适配 token 计费

机制 2:内部排行榜把 token 用量变成了 KPI

Uber 内部有一个按 AI 使用量排名团队的 leaderboard——本意是推广 AI 工具采纳率,结果工程师为了上榜主动堆 token 用量。

这个现象在行业里被称为tokenmaxxing,据报道 Meta 等公司也有类似的内部仪表盘。问题是:token 数和实际产出之间没有线性关系。Macdonald 的原话:“如果你没法把这个支出直接对应到给用户交付了多少功能,这笔交易就很难再合理化。”

机制 3:agentic 模式下的"次思考成本"

Claude 4.x 系列在 agentic 模式下会自己规划、分步、调工具。每一步都消耗 thinking tokens——而且 Opus 4.7 的 adaptive thinking 默认就是effort: high,模型会在判断必要时大量思考。

一次工程师以为"就让它写个函数"的请求,可能在背后跑了 10 万 token 的推理与工具循环。这部分成本对工程师本人完全不可见——他们只看到结果,看不到中间消耗。账单出来时只有财务能拼出全貌。


三、行业涟漪:Uber 不是唯一一家

公司动作信号
Microsoft5 月初被报道取消大部分 Claude Code 直接许可,让工程师改用 GitHub Copilot CLI大厂开始把 token 计费 AI 工具视为不可控成本
Uber4 月烧光预算并公开复盘第一个公开样本
Meta(据报道)内部 token 用量仪表盘tokenmaxxing 文化已成型

第三方调研也指向同一趋势:2025 Mavvrik 调研显示85% 的企业 AI 成本超出预期 10% 以上84% 的企业毛利率下降 6 个百分点以上。Gartner 预测 2026 年 AI agent 软件支出将达约2070 亿美元,比 2025 年的 864 亿翻 1.4 倍。

Uber 的"head-exploding moment"将在 2026 下半年大量复现,只是其他公司未必会公开


四、可落地的成本控制:三件马上能做的事

工程师团队规模就算只有 Uber 的 1/100,相同的机制一样适用。下面三件事不需要等到月底账单出来才能动手。

1. 用 Prompt Caching 把高频上下文成本拍平

对于 codebase 大、上下文长的场景,prompt caching 能把重复输入的部分降到原价的 10%。

importanthropic client=anthropic.Anthropic(api_key="sk-你的密钥",base_url="https://gw.claudeapi.com")response=client.messages.create(model="claude-sonnet-4-6",max_tokens=2048,system=[{"type":"text","text":"<把代码库的关键文件、约定、风格指南塞进来>","cache_control":{"type":"ephemeral"}}],messages=[{"role":"user","content":"为 utils/parser.py 加单元测试"}])

第一次调用建缓存,之后 5 分钟窗口内的所有请求只按 10% 价格计算 cached 部分。对一天内反复让 Claude 看同一份代码库的工作流,能省下约七成 token 费用。

2. 模型分层路由:不是所有任务都需要 Opus 4.7

人均 $2000 的工程师,多半把 Opus 4.7 当默认模型在所有场景下用。但实际上:

任务类型推荐模型相对 Opus 4.7 价格
复杂架构、长链路推理、最难的 bugOpus 4.7100% 基准
90% 日常编码、PR review、文档Sonnet 4.6输入输出都约 1/5 价
分类、抽取、简单补全、 schema 转换Haiku 4.5输入输出都约 1/20 价

仅仅把"默认模型"从 Opus 改成 Sonnet,账单能砍到 1/5。Opus 4.7 留给真正需要深度推理的任务——日常工作流里这样的任务占比远低于很多人以为的。

3. 工程师粒度的预算与告警

Uber 这次事故的核心问题不是用得多,而是用了才知道。要避免重演,最低要求是:

  • 每个工程师独立 API Key,账单可追溯到人
  • 每把 Key 设月度预算上限,触发后自动停用
  • 异常用量(单日 > 个人均值 3 倍)触发告警

实现方式不限于哪家中转平台,主流平台都提供按 Key 维度的用量明细。关键是把这件事在工程师入职 Day 1 就配好,而不是等出账单。


五、复盘:tokenmaxxing 不是好事

Uber 这次复盘最值得 industry 记住的一句话来自 Macdonald:

“如果你没法把这个支出直接对应到给用户交付了多少功能,这笔交易就很难再合理化。”

70% 的提交代码由 AI 生成,听起来是个漂亮的 KPI——但它和"产品提速"之间没有自动等号。token 数也不等于产出。用得对用得多重要。

下一波踩同样坑的,大概率不是 Uber 级别的公司,而是那些刚把 Claude Code 推给全公司、还没设预算上限、还没做模型分层路由的中型团队。提前 6 个月把这三件事做好,能省下的钱可能比工具本身的价值还高。


信息来源:Fortune / Briefs / AI Magazine 及 Startup Fortune、Designrush 等二手报道。完整 Claude 模型定价见 claudeapi.com。

http://www.rkmt.cn/news/1419682.html

相关文章:

  • 术语俗话 --- 什么是类C代码
  • 体育科技革命:从数据采集到AI分析,技术如何重塑竞技体育
  • 如何用 ChatGPT 提升学习指导效率?完整实现指南
  • Gemini多语言翻译质量深度拆解(中/日/阿/印地语实测盲区大曝光)
  • 微服务间的远程接口调用:OpenFeign 的使用
  • 鸿蒙数学 108 篇 第二十八篇:计数体系完整推演
  • MATLAB配电网状态估计算法包:最小二乘+解耦双模型,改参数就能跑不同拓扑
  • 如何用tcc-g15实现戴尔G15散热控制的终极开源替代方案
  • Hermes Agent框架连接Taotoken自定义模型提供商详细步骤
  • 2026专业的杭州酒店花园设计施工公司口碑排行榜 - 品牌排行榜
  • Django+OpenCV人脸采集与比对Web系统(含数据库、媒体资源和完整迁移文件)
  • 2025-2026年维克顿数字能源电话查询:使用前请核实资质与产品适配性 - 品牌推荐
  • 炉石传说HsMod插件:55项实用功能全面优化你的游戏体验
  • 水文极值适线拟合工具:支持6h/12h/24h降雨样本,内置皮III型与极值I型分布
  • Claude架构评审实战指南:7步完成生产级AI系统健壮性评估
  • 仅限首批内测团队获取:DeepSeek官方未公开的移动端Profile模板(含GPU占用热力图+KV Cache命中率实时监控)
  • 初创公司如何借助Taotoken以更低成本试错多个AI模型
  • AI开发工具实战:七、一个完整的 AI 开发工作流(系列总结)
  • 【infra之路】C/C++编译链接与执行全链路拆解
  • 易观分析:2026Q1中国GEO服务商市场规模约16亿元,前10名行业集中度不足10%
  • Science Robotics | 不靠大脑靠身体:这群机器人靠“纠缠”就能成群结队地运动
  • Gemini投资者关系管理SOP手册(含SEC/FCA双合规模板+季度财报话术库·限时内部版)
  • 【造数利器】一键生成数十万行高度拟真的测试CSV文件并导入MySQL
  • 2026 北京邮票纪念币工艺品回收机构深度测评排行 - 品牌排行榜单
  • 【原创解锁】壁纸秀秀1.0.00.232登录后解锁VIP海量壁纸
  • 提示工程进阶:从TextGrad到CROP的自动化优化与结构化约束实践
  • 随机过程WebApp实验室:从随机动力学到 AI 洞察的概率世界
  • 2025-2026年犀鸟搬场服务(上海)有限公司电话查询:选择搬家公司前需核实资质 - 品牌推荐
  • 职场人必备AI思维与实战指南:从提示工程到数据洞察
  • 2026年目前优质无缝拼接全彩屏定做厂家排行榜单 - 品牌排行榜