智谱GLM-5.1高速版400tokens/s×DeepSeek 700亿融资:国产AI的速度与规模
摘要
核心结论:2026年5月22日,中国AI行业同时发生两件大事。其一:智谱发布GLM-5.1高速版API(GLM-5.1-highspeed),输出速度高达400 tokens/s,刷新全球大模型厂商API推理速度上限,打破"快等于小"的行业惯例。其二:DeepSeek确认700亿元人民币融资进入最后阶段,梁文锋在投资者会议上明确承诺:坚持开源到底,AGI目标不变。这两件事折射出国产AI的两条路线——智谱走"性能极致化+商业服务",DeepSeek走"开源生态+研究导向"。两者并非竞争关系,而是共同构成了中国AI在全球竞争中的双轮驱动。
| 事件 | 核心数字 | 意义 |
|---|---|---|
| 智谱GLM-5.1高速版 | 400 tokens/s | 全球大模型API推理速度新纪录 |
| DeepSeek融资 | 700亿元人民币 | 中国AI史上最大单笔融资 |
| DeepSeek估值 | ~450亿美元 | 刷新中国AI独角兽估值纪录 |
| 主要投资方 | 腾讯、IDG、Monolith | 顶级机构背书 |
一、智谱GLM-5.1高速版:当速度成为护城河
1.1 400 tokens/s意味着什么?
2026年5月22日上午,智谱宣布面向部分企业客户推出GLM-5.1高速版API(API名称:GLM-5.1-highspeed),其输出速度达到400 tokens/s,刷新当前全球大模型厂商API推理速度的上限。
让我们把这个数字放在上下文里理解:
什么是tokens/s(令牌每秒)?
tokens/s是衡量大模型推理速度的核心指标。1个token约等于0.75个英文单词或0.5个汉字。400 tokens/s意味着每秒可以输出约200个汉字,相当于一个人1分钟的正常阅读速度的3倍以上,这已经超过了人类阅读的速度极限。
行业对比来看:
| 模型/厂商 | 典型输出速度(tokens/s) | 类型 |
|---|---|---|
| 智谱GLM-5.1-highspeed | 400 | 旗舰高速版 |
| Groq(专用推理芯片) | ~200-300 | 中小模型加速 |
| Cerebras(晶圆级芯片) | ~200-250 | 专用硬件 |
| DeepSeek V4-Pro | ~80-120 | 大模型常规 |
| Claude Opus 4.7 | ~60-80 | 旗舰模型 |
| GPT-5.5 | ~50-80 | 旗舰模型 |
| Gemini 3.5 Flash | ~150-200 | 中等大小模型 |
核心突破点:GLM-5.1高速版打破了大模型界长期存在的"快等于小"惯例——以往速度达300+ tokens/s的往往是50亿参数以下的小模型,而GLM-5.1是一款旗舰级能力的大模型。这意味着技术层面的根本性突破。
1.2 技术原理:速度是怎么"推"出来的的?
智谱官方没有完整披露技术细节,但从工业界已有实践来看,实现400 tokens/s的旗舰大模型推理,需要以下几个核心技术的组合:
(1)推理引擎深度优化(最关键)
传统推理链路: Input Tokens → Attention计算 → FFN计算 → 生成1个Token → 循环 优化后的推理链路: Input Tokens → Flash Attention(降低内存访问) → 连续批处理(Continuous Batching) → Page Attention(KV Cache高效管理) → Speculative Decoding(并行预测后续Token) → 生成1个Token(5倍以上速度提升)- Flash Attention 3:通过优化注意力计算的内存访问模式,降低HBM带宽瓶颈
- Continuous Batching:动态批量处理多个请求,最大化GPU利用率
- Speculation Decoding(预测解码):用小模型并行预测后续多个Token,再由大模型验证,可将速度提升2-4倍
(2)精度优化:FP4/FP8混合精度
# 示例:FP8量化推理的核心思路# 训练:BF16/FP32精度# 推理部署:FP8量化(INT8-FP8-BF16混合)# 关键活跃层保持BF16,权重压缩使用FP8# 结果:内存占用减半,吞吐量翻倍,精度损失<0.5%(3)专用硬件优化
智谱选择不公开,但业界推断其可能使用了:
- NVIDIA H200多卡NVLink互联,并针对推理优化了集群调度
- 或者与专用推理加速芯片(如Groq LPU、Cerebras)进行了合作
1.3 应用场景:400 tokens/s能做什么?
速度不只是一个数字,它直接改变了AI的应用边界:
场景一:实时语音交互
- 人类语速约120-150字/分钟 ≈ 2-3字/秒
- 400 tokens/s ≈ 200字/秒,是语音交互所需速度的60-80倍
- 这意味着AI可以在用户说话完毕的同时完成分析,实现真正的"实时"对话
场景二:AI编程实时补全
- 传统IDE代码补全要求延迟<100ms
- 以400 tokens/s速度,生成100个Token(约50行代码)仅需250ms
- AI代码补全从"辅助"升级为"实时协作"
场景三:多智能体高频调用
- AI Agent系统中,Agent频繁调用LLM进行推理
- 速度从80 tokens/s提升到400 tokens/s,相当于Agent的"思考速度"提升5倍
- Agent系统的整体吞吐量翻倍以上
1.4 商业策略:旗舰能力+速度极限+企业定制
值得注意的是,GLM-5.1-highspeed目前仅向部分企业客户开放,这与智谱的商业策略高度吻合:
- C端:继续维持标准版API,满足大众需求
- B端:推出高速版作为企业服务的核心差异化能力
- 定价:高速版溢价定价,瞄准实时交互、Agent系统等高价值场景
智谱选择不向所有客户开放,原因可能是:高速版的推理成本更高(更多GPU、更高利用率),需要通过企业定制合同的形式收回成本。
二、DeepSeek 700亿融资:那个"不差钱"的公司要钱了
2.1 从"三不"到破冰
DeepSeek的创业故事里有个著名的"三不原则"——不融资、不商业化、不路演。这三个"不",是DeepSeek创始人梁文锋用来保持技术纯粹性的防火墙:在没有外部资本压力的情况下,研究团队可以专注于技术突破,而无需向投资人的季度KPI妥协。
但2026年5月22日,彭博社援引知情人士消息,DeepSeek 700亿元人民币融资谈判进入最后阶段:
- 融资规模:约700亿元人民币(约97亿美元)
- 投前估值:约450亿美元(折合人民币超过3000亿元)
- 主要投资方:腾讯控股、IDG资本、Monolith Capital接近确认参与
- 融资性质:首次外部融资(此前完全依赖幻方量化的内部资金)
这笔融资将打破中国科技初创公司首轮融资的历史纪录。
2.2 梁文锋在投资者会议上说了什么?
据知情人士透露,梁文锋在至少一次投资者会议上做出了明确承诺:
“DeepSeek将继续开发开源AI模型,同时追求实现通用人工智能(AGI)这一更远大的目标。主要目标是推动技术升级,而非变现。”
——梁文锋,DeepSeek创始人兼CEO
这个承诺有两层含义:
- 开源路线不变:即便拿了700亿,DeepSeek的模型仍将保持开源发布
- AGI优先:梁文锋坚持"技术第一、商业第二"的优先级
什么是AGI(通用人工智能)?
AGI指能够像人类一样跨领域执行任何智力任务的人工智能,被视为AI发展的终极目标。目前业界普遍认为当前的大模型(包括GPT-5.5、Claude等)还不是AGI,但已在某些专业领域超越人类平均水平。Anthropic联创Jack Clark曾预言2028年底有60%概率实现递归自我改进——这是AGI的前驱信号。
2.3 为什么DeepSeek现在要融资了?
如果"三不原则"如此坚定,为什么又要融资?原因是多维度的:
原因一:算力军备升级的巨大资金需求
DeepSeek V4训练消耗了大量H800集群资源。随着V4.1(预计6月发布)和后续更大参数模型的研发,算力投入呈指数级增长。幻方量化的内部资金虽然雄厚,但面对万亿参数模型的训练成本,也开始显得捉襟见肘。
原因二:多模态战略转型的投入
DeepSeek V4.1预计加入多模态能力,这需要:
- 大量图像/视频数据采购和处理
- 多模态架构研究投入
- 更多顶尖研究人才引进
原因三:全球竞争格局的倒逼
OpenAI(私募融资数百亿美元)、Anthropic(冲击1万亿美元估值)、Google(内部算力无限)——DeepSeek面对的对手们都有近乎无限的资金支持。"不融资"策略在技术竞赛加速期是一种奢侈。
原因四:战略伙伴的引入
腾讯的加入不只是资金——腾讯的微信生态、企业微信渠道、以及云计算基础设施,将为DeepSeek的商业落地提供不可替代的渠道价值。
2.4 融资后的DeepSeek:开源承诺的可信度
市场最大的担忧是:拿了外部钱之后,DeepSeek还会坚持开源吗?
几个因素支撑开源承诺的可信度:
| 因素 | 分析 |
|---|---|
| 品牌价值 | DeepSeek的全球声誉90%来自开源,关闭开源等于自毁长城 |
| 梁文锋公开承诺 | 投资者会议上的承诺具有法律和声誉约束 |
| 开源生态反哺 | DeepSeek的大量技术反馈来自开源社区,关闭开源将失去这个生态优势 |
| 竞争差异化 | 相比GPT/Claude等闭源模型,开源是DeepSeek最核心的差异化竞争优势 |
当然,"开源"的定义可能会发生微妙变化:
- 最新最强的版本(如V4-Pro)可能会延迟开源或有限开源
- 完整权重的开源可能逐步让位于"仅开源部分权重"
2.5 DeepSeek V4-Pro永久降价:配合融资的节奏
就在融资消息曝光的同一周(5月22日),DeepSeek官宣了另一重磅消息:V4-Pro API价格永久调整为原价的25%(之前是促销折扣,现在转为永久定价):
| 计费项目 | 原价 | 永久新价 | 降幅 |
|---|---|---|---|
| 缓存未命中输入 | 12元/百万tokens | 3元/百万tokens | -75% |
| 缓存命中输入 | 1.2元/百万tokens | 0.3元/百万tokens | -75% |
| 输出 | 24元/百万tokens | 6元/百万tokens | -75% |
这是一个精心设计的节奏:融资消息+永久降价同时发布,向市场传递"我们有充足资金支撑低价战略"的信号,同时也在融资前夕展示"增长飞轮"——降价→用量大幅增加→数据积累→模型优化→吸引更多资金。
三、两条路线的战略分野
3.1 智谱的路线:性能极致化 + 商业服务
智谱的战略逻辑清晰:
智谱战略路径: 研究突破 → 旗舰模型 → 极致性能(400 tokens/s) → 企业API(高价值、差异化) → 大模型生态系统(MaaS) → 支持B端落地的解决方案重要里程碑:
- 2024年:发布GLM-4系列,进入第一梯队
- 2025年:GLM-5.1系列,对标Claude/GPT,推出代码能力旗舰
- 2026年Q2:GLM-5.1高速版,全球速度最快的旗舰API
- 2026年Q3(预测):GLM-5.2,多模态旗舰
3.2 DeepSeek的路线:开源生态 + 研究导向
DeepSeek走的是完全不同的路:
DeepSeek战略路径: 深度研究 → 算法创新 → 技术报告发表 → 开源发布(带动全球生态) → API低价商业化 → 国际影响力 → 估值提升 → 融资核心竞争力:
- 研究质量:MoE架构创新、长上下文训练技术
- 成本效率:同等性能下训练/推理成本全球最低
- 开源生态:全球开发者的深度使用反哺技术迭代
3.3 互补共生,而非零和博弈
一个有趣的观察是:智谱和DeepSeek在用户群体上高度互补,并不激烈竞争:
- 智谱:主打企业客户,强调服务稳定性、速度极致、合规安全
- DeepSeek:主打开发者/研究者,强调技术透明、成本极低、可本地部署
两者共同构成了中国AI在全球竞争中的"双轮驱动"——智谱代表商业服务能力,DeepSeek代表技术研究能力。就像美国市场里OpenAI和Hugging Face的分工一样,两条路线相互强化,共同推动了整个国产AI生态的成熟。
四、国产AI:2026年5月的技术全景
4.1 国产大模型技术竞争力横评
经过5月下旬的一系列动作,国产大模型的技术格局已经相当清晰:
| 模型 | SWE-bench Pro | 推理速度 | 上下文长度 | 开源? | 定价(输出) |
|---|---|---|---|---|---|
| Kimi K2.6 | 58.6% | ~80 t/s | 100万 tokens | 否 | 较高 |
| DeepSeek V4-Pro | ~55% | ~100 t/s | 100万 tokens | 开源权重 | 6元/M |
| GLM-5.1 (standard) | ~50% | ~150 t/s | 128K tokens | 否 | 中等 |
| GLM-5.1-highspeed | ~50% | 400 t/s | 128K tokens | 否 | 高(企业) |
| Qwen3.7-Max | ~52% | ~80 t/s | 100万 tokens | 否(Plus开源中) | 中等 |
4.2 关键趋势总结
趋势一:速度将成为新的竞争维度
GLM-5.1高速版的出现,预示着"推理速度"将成为继"能力"、"价格"之后的第三个核心竞争维度。未来6-12个月,各大厂商都将跟进推出高速推理服务。
趋势二:中国AI资本热度持续高涨
DeepSeek 700亿元融资 + Kimi 136亿元融资(5月上旬),两笔加起来超过200亿美元,中国AI融资热潮将推动更多独角兽级别的国产大模型公司出现。
趋势三:开源与闭源路线的分化加剧
DeepSeek坚持开源、Qwen开源Plus版、智谱走闭源商业化——中国大模型正在形成鲜明的路线分野,这与全球AI市场的格局高度同构。
FAQ:常见问题
Q:GLM-5.1高速版400 tokens/s是否有基准数据支撑?
A:目前智谱仅发布了速度数据,未同时发布与速度测试同条件下的质量Benchmark。从同类技术原理推断,高速版的质量可能略低于标准版(推理精度压缩带来的代价),但具体差距尚未公开。
Q:DeepSeek的700亿融资是否已经成定局?
A:据彭博社5月22日报道,谈判已进入"最后阶段",但尚未正式签署协议。投资者会议已经召开,腾讯等主要投资方已接近确认参与。预计正式宣布将在2-4周内完成。
Q:智谱GLM-5.1高速版什么时候对普通开发者开放?
A:目前仅面向部分企业客户提供。据智谱官方表述,普通开发者版本预计在2026年Q3开放,届时可能以阶梯定价方式面向所有用户。
Q:DeepSeek V4.1多模态版什么时候发布?
A:据此前官方透露,DeepSeek V4.1多模态版定档2026年6月发布。主要新增能力包括:图像理解、图表解析、视频帧分析,以及通过识图模式的商业化落地。
参考资料
- 新浪财经(2026-05-22): “智谱 GLM-5.1 高速版 AI 模型发布,跑出全球最快速度 400 tokens/s” - https://finance.sina.com.cn/tech/digi/2026-05-22/doc-inhytqkw6284792.shtml
- IT之家(2026-05-22): “智谱GLM-5.1高速版AI模型发布,全球最快速度400 tokens/s” - https://www.ithome.com/0/953/717.htm
- 腾讯新闻(2026-05-22): “智谱发布GLM-5.1高速版 模型输出速度达400 tokens/s” - https://news.qq.com/rain/a/20260522A04KXQ00
- 新浪财经(2026-05-22): “DeepSeek推进700亿元融资,梁文锋承诺坚持开发开源AI模型” - https://finance.sina.com.cn/tech/roll/2026-05-22/doc-inhytyyq5314174.shtml
- 搜狐财经(2026-05-22): “700亿融资+全球最低价!DeepSeek这步棋,下活了中国AI” - https://www.sohu.com/a/1026965203_100085330
- 搜狐科技(2026-05-22): “从’不差钱’到’广积粮’:DeepSeek的700亿融资与梁文锋的AI远征” - https://www.sohu.com/a/1026357728_138913
{"@context":"https://schema.org","@type":"TechArticle","headline":"智谱GLM-5.1高速版400tokens/s×DeepSeek 700亿融资:国产AI的速度与规模","description":"智谱GLM-5.1高速版API刷新全球推理速度纪录达400 tokens/s;DeepSeek确认700亿元融资并坚持开源。深度解析国产AI两条路线的战略分野。","author":{"@type":"Person","name":"大模型技术观察"},"datePublished":"2026-05-25","keywords":"智谱GLM-5.1高速版,DeepSeek融资,400tokens/s,国产大模型,梁文锋AGI"}