大模型推理速度天花板又被捅破了。5月22日智谱上线GLM-5.1高速版API接口名GLM-5.1-highspeed输出速度跑到400 tokens/s刷新全球大模型API速度纪录比原版提速约7倍。比谷歌刚发的主打速度与性能的旗舰模型Gemini 3.5 Flash还快一倍。一个754B参数的旗舰模型跑出了即问即答的速度代码生成效率提升近10倍过去因延迟卡住的产品形态开始变得可行。Token狂飙股价也跟着狂飙涨了25%。1265的股价排在了贵州茅台和寒武纪之后。400 tokens/s怎么做到的普通人阅读中文的速度大概每分钟300到500字换算下来大约每秒5到8个token。400 tokens/s相当于模型输出速度是人阅读速度的50到80倍。你才开始读它已经把整篇文档写完了。此前全球大模型API的速度上限大约在50到60 tokens/s400 tokens/s直接把数字翻了将近7倍。GLM-5.1-highspeed与原版GLM-5.1对比效果非常明显。前者30秒就跑完了后者跑了7分钟。这个速度由智谱GLM团队和TileRT团队联合打造核心优化分三层推进。推理引擎层针对GLM-5.1的MoEMixture of Experts混合专家架构特点重写了核心推理路径。MoE架构的特点是每次推理只激活部分专家路由计算和专家调度的效率直接影响推理速度。重写后的推理路径把单卡吞吐能力拉了上去打好了底层基础。调度系统层动态批处理、请求合并、KV缓存调度优化三套组合拳一起上。动态批处理让不同用户的请求智能打包减少GPU空闲时间。请求合并把相似请求合并处理避免重复计算。KV缓存调度优化让注意力计算中的键值对缓存命中率更高重复内容不用反复算。三招叠加的效果是高并发场景下的尾延迟大幅降低。以往用户一多排队时间就飙升这套调度让多人同时调用时仍能保持低延迟。基础设施层推理集群部署、网络链路、负载均衡协同优化。智谱特别强调了一点400 TPS每秒token数不是一个峰值数字是稳定可用的生产级能力。跑一秒400容易持续稳定在400才难。这背后需要对集群的每一层做精细调优从GPU间通信的带宽分配到请求路由策略任何一个环节的瓶颈都会拖垮整体吞吐。更关键的技术细节来自TileRT团队。当前主流推理框架以operator/kernel为基本调度单元每个算子都要走一遍完整链路host启动读权重计算写回同步。推理进入单token、小batch、多卡TPTensor Parallel张量并行的场景后算子被切到微秒级调度、访存与同步的开销反而占了大部分时间真正用于计算的比例很低。就像一条流水线每个工位都要走一遍审批流程加工本身只要一秒审批花了十秒。TileRT抛弃Runtime层的动态调度在AOTAhead-Of-Time预编译阶段把整个计算图静态编排为一个常驻GPU的persistent Engine Kernel。单卡之内计算、异步IO和通信被拆解为Tile级微任务整个推理过程只Launch一次Engine Kernel算子间的中间结果不再写回Global Memory经由Register寄存器、Shared Memory共享内存与L2 Cache直传host调度和跨算子同步被压进同一个常驻kernel。相当于把流水线的审批全去掉所有工位同步开工中间品不进仓库直接传下一站。多卡层面TileRT把SMStreaming Multiprocessor流多处理器内部的Warp Specialization思路外推到整张8卡NVL拓扑。不同GPU rank不再执行同构逻辑按计算密度与数据依赖被特化为不同worker有的专门做注意力计算有的专门做前馈网络各干各的专长活儿。这种异构分工比传统同构并行效率高出一截。TTFTTime to First Token首token延迟压到了1秒以内。用户发一句话还没反应过来回答已经往外冒了。快和强终于不矛盾了过去大模型推理常识是快的小大的慢。高速模型几乎总是轻量级模型参数少、能力弱速度快但干不了精细活儿。旗舰模型参数多、能力强但推理慢一个复杂问题等个十几秒是常态。GLM-5.1高速版打破了这个惯例第一次在国产大模型中把旗舰级能力和低延迟同时带入生产环境。它完整保留了GLM-5.1的综合能力与Coding能力没有为了速度牺牲质量。GLM-5.1作为智谱最新旗舰模型它采用754B参数的MoE架构256个专家混合约44B激活参数支持200K上下文与128K超长输出。长程任务能力方面能在单次任务中持续、自主地工作长达8小时完成从规划、执行到迭代优化的完整闭环交付工程级成果。在SWE-bench Pro基准测试中GLM-5.1拿到58.4分国产模型首次超越Claude Opus 4.6也是目前唯一达到8小时级持续工作的开源模型。OpenRouter数据显示GLM-5.1在编码和Agent能力上取得开源SOTA表现。高速版在这些能力上没有缩水。同一个大脑只是换了一套更快的神经系统。推理框架的优化改变的是信号传递速度不改变大脑的思考深度。AI编程场景中代码生成效率提升约10倍模型能同步理解工程上下文并输出方案。写代码这件事原来等模型输出是效率瓶颈现在变成了人思考的速度跟不上模型输出的速度。3D游戏场景中玩家输入文字后模型可实时调整场景文字输入与场景即时联动。此前因为延迟问题这类交互只能停留在概念阶段玩家说一句话等5秒场景才变体验很糟糕。400 tokens/s下场景随语言变化几近实时此前无法落地的产品形态开始具备可行性。很多场景一下打开了。交互式应用生成、实时工具调用都不再是问题。400 tokens/s的输出速度TTFT小于1秒GLM-5.1高速版能够应对一切响应延迟要求极高的场合。Coding Agent编程智能体在工作时需要频繁调用模型一轮任务可能涉及几十次甚至上百次模型请求。原来每次请求等几秒累计下来效率很低。高速版让代码生成效率提升约10倍Agent的迭代节奏从等模型输出变成了跟上自己的思路连续调用不再是效率瓶颈。实时交互即问即答体感跟跟真人聊天差不多。这种低延迟交互在客服、教育、心理咨询等场景中直接影响用户体验。金融市场瞬息万变行情分析、风险评估、策略生成都需要模型快速响应。慢一秒可能就错过一个交易窗口。高速版让模型从辅助工具变成准实时决策引擎数据进来判断出去延迟控制在人类反应时间之内。文字描述与场景实时联动虚拟世界和现实输入之间的墙被推倒了一半。目前GLM-5.1高速版面向智谱MaaS模型即服务平台部分企业客户开放官方暂未公布面向更广泛用户开放的时间计划。大模型的竞争正从谁更聪明变成谁更快地聪明。参考资料https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1-highspeed