别人都在拼Token单价,华为云为什么选了“第三条路“?
当火山引擎豆包喊出0.0008元/千Token的时候,所有人都觉得云计算的价格战打到了尽头。但华为云在INSPIRE大会上给出了一个反直觉的回答:Token好不好,不看单价,看它提了多少效率。
开篇
中国云厂商集体卷进Token价格战是2024年夏天的事。DeepSeek V2打响了降价第一枪,火山引擎豆包以0.0008元/千Token的定价点燃了导火索,阿里、百度、腾讯、讯飞一个接一个入场。推理算力的毛利率被压到负数,所有人都在赌同一个逻辑——用低价模型引流,带动背后的公有云销售。
但华为云在2026 INSPIRE创想者大会上选择了不跟。
CEO周跃峰的原话很有指向性:"在国产化算力正在成长的情况下,华为云不太在乎Token总量,也不在乎收入总量。"他举了个例子:一个人闲来无事在手机上问AI一个问题,也会产生Token,但这种Token的价值很难衡量。在他看来,衡量一朵云做得好不好,不该看它跑出了多少万亿Token,而该看这些Token替企业提了多少效率。
这番话把打了两年多的价格战,拉到了一个完全不同的维度。
一场没有赢家的囚徒困境
回头看2024到2025年,Token价格战的惨烈程度在云计算历史上都少见。
DeepSeek V2在2024年5月掀起降价潮后,各大云厂商只能跟进。豆包的定价低到让人怀疑是不是标错了小数点,阿里很快给出了对标的报价,百度、腾讯、科大讯飞前赴后继。没有谁想打这场仗,但谁也退不出来——跟了亏钱,不跟丢市场。
这套打法的内核并不复杂:把大模型当成超市里的鸡蛋,低价引流,期望顾客进来顺便买点别的东西。但现实是一大批用户真的只进来拿鸡蛋就走。推理成本越降越低,云计算高价值服务的转化率远没有追上来。
转折点出现在DeepSeek R1发布之后。Coding和视频模型对Token的需求呈指数级暴增。但各家的竞争焦点几乎没有变化——还在比谁的Token更便宜、谁的调用量更大。算力毛利率继续承压,与此同时真正进入企业生产流程的Token占比并不高。大量消耗发生在闲聊、测试和无效调用上。
周跃峰在现场提了一个微妙的问题:Token质量呢?
这不是一个容易回答的问题。因为当所有人都在比价格,没有人愿意说自己卖得贵。但客户心里有一本账——便宜的Token如果解决不了问题,再便宜也没有意义。这个困局,正是华为云选择"不跟牌"的现实背景。
第三条路叫什么:Agentic Infra
INSPIRE大会上,华为云推出了一个全新概念——Agentic Infra。翻译成大白话,就是让AI在底层跑得更稳、更快、更聪明。
这个框架包含四个维度:高效的Token工厂、可持续学习、通智一体化调度、安全自治。每个维度都有对应的硬件和软件产品落地。
最引人注意的是AICS灵衢智算集群。基于灵衢网络,它支持10万卡级别的规模,总算力200EFLOPS,Token生成时延压缩到10毫秒以内,千卡每秒吞吐量500万Token,在线服务可用性99.95%。华为云管它叫"Token工厂"——一个不太像云厂商会用、又特别精准的工业词汇。
配套的CCE Volcano Next调度引擎也是个有意思的产品。它用"训推共池+碎片整合"的方式,把通用算力和智能算力混合调度,资源利用率提升30%以上。简单说就是:显卡碎片时间被捡起来重新利用,不用让算力闲置着等活干。
AMS记忆存储方案做了PB级的记忆空间,用NPU直通硬件实现。AgentSphere则提供了100毫秒级启动的智能体安全运行环境。这些产品的名字虽然有点难记,但背后的逻辑很统一:不靠降价来省成本,靠架构创新来提升效率。这是两种完全不同的竞争思路。
在模型平台层面,华为云发布了ModelArts Next。MaaS模型路由是一个实际价值很高的功能——根据请求特征自动调度最合适的模型,目前接入了15款SOTA模型,官方称调度精准率超过95%,调用成本平均降低20%。换句话说你的钱没有花在买更便宜的Token上,而是花在了让昂贵的Token干它擅长的活上。
还有今年刚端出来的RLaaS——强化学习即服务。强化学习在复杂决策场景里的价值已经被反复证明,但部署门槛一直很高,大多数企业知道它有用但用不上。华为云把它做成了一个云服务,相当于给企业级AI加了一个开箱即用的"决策引擎"模块。
国产算力:不想做大,只想做开放
华为云的差异化有一个任何同行都不具备的杀手锏——从昇腾芯片到ModelArts工具链的全面国产化。
2025年初DeepSeek爆火的时候,华为云和硅基流动在昇腾CloudMatrix 384超节点上部署了DeepSeek-R1/V3,推理效率追平了英伟达H800。从那时起,国产算力不再只是一个"情怀选项"——它确实能跑出头部的模型效果。
周跃峰在大会上提出了"第二个算力平面"的概念。不拿国产算力的规模去和英伟达的"万国牌"算力比大小,而是给全球开发者多提供一个技术路线和生态选择。这话背后的潜台词是:华为云不追求做最大的算力平台,但想做最开放的。
开放表现在三个层次:底层算力开放(昇腾+鲲鹏)、操作系统开放(欧拉)、模型生态开放。INSPIRE大会上,华为云联合智谱、DeepSeek、Kimi、阶跃星辰、百度等20多家模型厂商发布了"百模千态"合作计划。
这件事的意义在对比中更明显。火山引擎有豆包,阿里云有通义千问,百度云有文心一言——各家自研模型在自家平台上的优先级天然更高。华为云没有自研的基础大模型,对所有第三方模型一视同仁。这种"中立性"在政企和金融客户那里价值很高,因为这些客户最怕被某个模型绑定。
落到地面上:从病理切片到机器人
把硬件架构和价值讲得再好,最后还是要回答一个问题:客户用上了吗?
华为云这次拿出了几个很有说服力的案例。
具身智能赛道是个好例子。中国有300多家具身智能创业公司,绝大多数规模不大。华为云推出了CloudRobo开发平台,让这些中小企业低成本接入、共享数据和模型。周跃峰的原话很接地气:“让它们各自自建算力和数据链,压力太大了。”
更扎心的案例来自医疗。全国能看病理切片的医生只有约2万名,缺口大到无法想象。偏远地区的病理误诊率居高不下,患者为了一个确诊要往返几百公里。华为云和瑞金医院联合开发的病理大模型已经上线运行了,县域和地市级医院通过云端就能调用三甲水平的诊断能力。
这个案例可以很直观地回答周跃峰关于"Token质量"的那个问题。一个偏远医院发起的病理诊断请求产生的Token不多,但它直接改变了患者的人生。从这个角度看,Token的"含金量"远比"含Token量"有价值。
华为云也在推面向智能体的混合云方案和机密计算。政府、金融、央国企对数据安全的要求不是"最好有",而是"必须有"。华为云给的是公有云加私有云"两条腿走路"的方案,不想放弃任何一边。
谁是赢家
华为云的"第三条路"到底能不能走得通?
有几个信号是正面的。首先,它打破了云厂商同质化竞争的死循环。当所有人都在同一个维度上拼价格,最后谁都不赚钱。华为云选择在技术路线和生态构建上找差异,这个战略方向本身是扎实的。
其次,国产算力的可行性和商业价值得到了实质性验证。从昇腾芯片到病理大模型落地的链条已经走通了。医生通过国产算力解决误诊问题,这不是情怀——是实打实的生产力。
第三,“Token健康度"这个概念的出现,很可能标志着产业进入了一个新阶段。就像互联网从"流量为王"转向"增长质量”,AI基础设施也会从"数量竞赛"走向"质量竞争"。华为云选择在这个节点提出这个说法,时机抓得很准。
但挑战同样明显。华为云没有自研基础大模型,意味着它必须比任何云厂商都更好地服务第三方模型。这种"中立"能不能持续赢得模型厂商的信任,需要时间来验证。从智谱、DeepSeek、Kimi愿意加入"百模千态"来看,至少第一步走得不差。
另一个潜在风险是:当算力需求持续膨胀,华为云能否保持昇腾生态的迭代速度?追赶英伟达的研发节奏不是一件容易的事,一点一点缩小差距和突然拉开差距是两回事。
周跃峰在大会结尾说了一句话让我记了很久:“华为云要做硅基黑土地。”
黑土地上种什么、谁来种、怎么种,华为云说它不关心。但土地本身是否足够肥沃、足够开放——这才是"第三条路"的全部赌注。
