【模型架构篇09】国产大模型生态:DeepSeek、Qwen与智谱
🇨🇳 国产大模型生态:DeepSeek、Qwen与智谱的技术图谱
一句话速览:从DeepSeek R1震惊全球到V4全面转向华为昇腾,从Qwen 3.5登顶开源榜单到GLM-5开源上亿融资——2024-2026年,国产大模型经历了从"追赶者"到"并跑者"的关键转变。本文深入拆解八家主流国产大模型的技术架构与演进路线。
📑 目录
- 国产大模型全景:2026年八雄格局
- DeepSeek:穷人的武器打赢富人的游戏
- Qwen(通义千问):阿里开源生态的旗手
- GLM(智谱):清华系技术派的坚持
- 文心ERNIE 5.0:百度的合规利器
- 豆包Seed 2.0:字节跳动的多模态王牌
- Kimi & MiniMax & 腾讯混元
- 架构对比:一张表看懂国产大模型
- 国产芯片适配与算力格局
- 总结与展望
🏛️ 国产大模型全景:2026年八雄格局
2026年的国产大模型市场,形成了"四大互联网巨头 + 四大技术专精黑马"的稳定格局:
| 派系 | 公司 | 模型 | 定位 | 开源 |
|---|---|---|---|---|
| 🐋量化基金系 | 深度求索 | DeepSeekV4 | 极致技术、性价比之王 | ✅ |
| ☁️阿里系 | 阿里巴巴 | Qwen3.5 | 最强开源生态 | ✅ |
| 🎓清华系 | 智谱AI | GLM-5.1 | 逻辑推理、Agent | ✅ |
| 🐻百度系 | 百度 | ERNIE5.0 | 合规最强、中文理解 | ❌ |
| 🎵字节系 | 字节跳动 | 豆包Seed2.0 Pro | 多模态、C端体验 | ❌ |
| 📱月之暗面 | Moonshot | KimiK2.5 | 长上下文、文档 | ❌ |
| 🎯MiniMax | MiniMax | MiniMax | 语音多模态 | ❌ |
| 🐧腾讯系 | 腾讯 | 混元 | 企业级、社交集成 | ❌ |
🚀 DeepSeek:穷人的武器打赢富人的游戏
公司背景
DeepSeek(深度求索)由量化私募巨头幻方科技孵化,核心团队来自幻方量化。其最具传奇色彩的是——在资源远少于OpenAI和Google的情况下,通过架构创新和训练策略优化,达到了世界级水平。
技术演进路线
DeepSeek V2 (2024.05) └── 236B MoE + MLA(Multi-head Latent Attention) ↓ DeepSeek V3 (2024.12) ★ 里程碑 └── 671B MoE + 无辅助损失负载均衡 ↓ DeepSeek R1 (2025.01) ★ 震惊世界 └── 671B + GRPO强化学习 + 推理能力涌现 ↓ DeepSeek V3.1 → V3.2 (2025) └── 追平GPT-5 + 完全开源 ↓ DeepSeek V4 (2026.04) ★ 全面超越 └── 1.6T MoE + 384专家 + 全栈昇腾适配DeepSeek V2(2024.05):MLA的诞生
核心创新:Multi-head Latent Attention(MLA)
MLA是DeepSeek对注意力机制的颠覆性改进:
传统MHA的KV Cache: 每个token需要存储 2 × n_heads × d_head 个值 → 推理时KV Cache巨大,显存爆炸 MLA的核心思想: 将Key和Value压缩到低维"潜在空间" 推理时只缓存压缩后的潜在向量 使用时再解压缩回完整维度 效果: KV Cache减少约87.5% 推理吞吐量提升5倍+ 质量没有损失!传统MHA注意力: Q, K, V = [n_heads × d_head] KV Cache: 存储全尺寸K和V → 大 MLA注意力: Q, K, V = 从低维潜在向量 c 投影得到 c = W_down × [原始K, 原始V] # 压缩 KV Cache: 只存储低维向量 c → 小得多 使用时: K' = W_up_k × c, V' = W_up_v × cV2架构:236B总参数,21B激活参数,MoE架构。
DeepSeek V3(2024.12):开源界的核弹
671B总参数的MoE模型,以极低的训练成本达到了超越LLaMA 3 405B的性能:
| 维度 | DeepSeek V3 | LLaMA 3.1 405B | GPT-4 |
|---|---|---|---|
| 总参数 | 671B | 405B | ~1.8T |
| 激活参数 | 37B | 405B | ~280B |
| 架构 | MoE (256专家) | 密集 | MoE (8专家) |
| 训练成本 | $5.6M | ~$50M+ | ~$63M |
| 上下文 | 128K | 128K | 128K |
技术突破:
- 无辅助损失负载均衡:MoE训练中不再需要额外的负载均衡loss,让模型自主学习专家分配
- Multi-Token Prediction:一次预测多个未来token,提升训练效率
- FP8混合精度训练:首次在超大规模MoE上成功使用FP8
DeepSeek R1(2025.01):推理Scaling Law的开源实现
R1是DeepSeek在推理能力上的突破,是与OpenAI o1对标的开源推理模型:
核心创新:GRPO(Group Relative Policy Optimization)
传统PPO: 需要训练一个价值函数(Critic)模型 训练过程复杂,资源消耗大 GRPO(Group Relative Policy Optimization): 不需要Critic模型! 对一个问题生成多个回答 通过群体内的相对表现来估计优势 实现更轻量级的强化学习R1的训练流程:
冷启动 → 推理导向RL → 拒绝采样 + SFT → 全场景RL ↓ ↓ ↓ ↓ 收集少量 GRPO强化 用R1输出 对齐有用性 高质量 学习,提升 训练通用 和安全性 推理数据 推理能力 SFT模型R1的成绩:
- AIME数学竞赛:79.8%(o1≈83%,GPT-4o≈12%)
- MATH-500:97.3%(超越o1)
- 训练成本:仅**$6M**(o1估计>100M)
DeepSeek V3.1 → V3.2(2025)
进一步优化,性能追平GPT-5和Gemini 3.0 Pro,并且全部开源。
DeepSeek V4(2026.04):全面超越
2026年4月24日发布的DeepSeek V4是一次重大的架构升级:
| 维度 | V3 | V4 |
|---|---|---|
| 总参数 | 671B | 1.6T |
| 专家数 | 256 | 384 + 2共享专家 |
| 激活参数 | 37B | ~50B |
| 路由策略 | Top-K | 动态Top-K |
| 上下文 | 128K | 1M |
| 训练芯片 | A100/H100 | 全栈昇腾910C |
| 推理引擎 | 自研 | FlashMLA |
V4的三大突破:
- 昇腾全参数训练:1000颗华为昇腾910C完成全参数训练,完全不依赖英伟达
- FlashMLA推理引擎:专为MLA优化的推理引擎,推理速度提升35倍
- 384+2专家架构:2个共享专家处理通用知识,384个路由专家处理专业任务
☁️ Qwen(通义千问):阿里开源生态的旗手
演进路线
Qwen 1.0 (2023.08) → Qwen 1.5 (2024.02) → Qwen 2.0 (2024.06) → Qwen 2.5 (2024.09) → Qwen 3.0 (2025) → Qwen 3.5 (2026)Qwen 2.5
阿里最成功的版本之一,在开源社区广受欢迎:
| 规格 | 参数量 | 架构 | 特点 |
|---|---|---|---|
| Qwen 2.5 0.5B | 0.5B | Dense | 端侧 |
| Qwen 2.5 1.5B | 1.5B | Dense | 轻量级 |
| Qwen 2.5 7B | 7B | Dense | 对标LLaMA 3 8B |
| Qwen 2.5 14B | 14B | Dense | 性能均衡 |
| Qwen 2.5 32B | 32B | Dense | 推理能力强 |
| Qwen 2.5 72B | 72B | Dense | 旗舰密集模型 |
| Qwen 2.5 Max | ~1T | MoE | 最强性能 |
Qwen 2.5的关键改进:
- 支持29种以上语言
- 19万亿tokens训练
- 128K上下文(通过YaRN扩展)
- 代码、数学、多语言能力全面提升
Qwen 3.5(2026)
2026年最新的旗舰版本:
- MoE架构延续,性能大幅提升
- 在LMSYS榜单等基准测试中名列前茅
- 继续开源策略,生态持续扩大
- 与阿里云深度整合,通过百炼平台提供服务
🎓 GLM(智谱):清华系技术派的坚持
独特技术路线:GLM架构
智谱AI源于清华大学,是中国最早从事大模型研究的团队之一。与其他模型不同,GLM采用自研的通用语言模型(GLM)架构,而非直接移植LLaMA架构。
GLM架构的特点:
GPT (Decoder-only): 从左到右生成 BERT (Encoder-only): 双向理解 T5 (Encoder-Decoder): 编码-解码 GLM (自回归填空): 将文本中的一部分随机空白 模型需要生成填充这些空白的内容 同时实现了理解和生成能力演进路线
GLM-130B (2022) → ChatGLM 6B (2023) → GLM-4 (2024.01) → GLM-4-Plus (2024) → GLM-5 (2026.02) → GLM-5.1 (2026)GLM-5(2026.02)
2026年2月12日发布,智谱的旗舰开源模型:
| 维度 | GLM-4 | GLM-5 |
|---|---|---|
| 架构 | GLM(自回归填空) | GLM(自回归填空) |
| 参数量 | 未公开 | 未公开 |
| 定位 | 通用对话 | 复杂系统工程 + 长程Agent |
| 编程能力 | 基础 | 提升超20% |
| 开源 | ✅ 部分 | ✅完全开源 |
| 国产芯片适配 | 部分 | ✅昇腾、摩尔线程、寒武纪 |
| 上下文 | 128K | 1M+ |
GLM-5的亮点:
- Agent能力突出:面向长周期智能体任务设计
- 国产芯片全适配:华为昇腾、摩尔线程、寒武纪全部支持
- 开源 + 商用:开源后股价一度大涨40%
- GLM-5.1升级:在逻辑/推理/代码上进一步优化
智谱的技术特点
- 清华血脉:核心团队来自清华大学,学术研究驱动
- GLM自研架构:不走LLaMA路线,自主研发
- 开源最早:GLM-130B是亚洲首个千亿级开源模型
- Agent原生化:从架构层面支持Agent任务
🐻 文心ERNIE 5.0:百度的合规利器
公司背景
百度文心(ERNIE)是中国最早的大模型之一,最初以知识增强为核心特色。
演进路线
ERNIE 3.0 (2021) → ERNIE 4.0 (2023.10) → ERNIE 4.5 (2024) → ERNIE 5.0 (2025-2026)ERNIE 5.0架构
| 维度 | 规格 |
|---|---|
| 参数量 | ~1.8T MoE(旗舰版) |
| 轻量版 | ERNIE 5.1(小参数版) |
| 训练芯片 | A100/H100 + 昆仑芯3代 + 昇腾910B |
| 核心优势 | 中文理解 + 合规最强 |
| 定位 | 企业级、政务级应用 |
独特优势
- 知识增强:利用百度搜索积累的知识图谱
- 合规最强:在内容安全、价值观对齐上投入最大
- 百度生态:深度整合搜索、文库、地图、Apollo等
- 开源态度:不开放(闭源),走商业化路线
🎵 豆包Seed 2.0:字节跳动的多模态王牌
公司背景
字节跳动的豆包(Doubao)凭借C端产品体验最佳脱颖而出,是国内用户量最大的AI助手之一。
架构演进
| 版本 | 亮点 |
|---|---|
| 豆包 1.0 (2023) | 初始版本 |
| 豆包 2.0 (2024) | 多模态升级 |
| Seed 2.0 Pro (2025-2026) | 多模态最强 |
Seed 2.0 Pro的技术特点
- 多模态最强:在图像、视频理解上表现突出
- C端体验最佳:产品化能力是字节的核心优势
- 训练芯片:A800/H20为主,国产昇腾910B为辅
- 火山引擎:通过火山引擎提供API服务
📱 Kimi & MiniMax & 腾讯混元
Kimi K2.5(月之暗面)
| 维度 | 特点 |
|---|---|
| 定位 | 长上下文、文档处理 |
| 核心能力 | 200万字阅读、PDF智能解析 |
| 技术特色 | 强调长文档理解能力 |
| 用户群 | 学生、研究人员、法律从业者 |
MiniMax
- 专注于语音多模态
- 在语音合成和交互上技术领先
- 海外市场表现亮眼(Hailuo AI)
腾讯混元
| 维度 | 特点 |
|---|---|
| 参数量 | 389B MoE |
| 定位 | 企业级、社交集成 |
| 生态 | 微信、QQ、企业微信场景 |
| 训练芯片 | H100 + 昇腾910C + 紫霄(自研推理) |
📊 架构对比:一张表看懂国产大模型
| 模型 | 公司 | 架构 | 总参数 | 激活参数 | 上下文 | 开源 | 芯片 |
|---|---|---|---|---|---|---|---|
| DeepSeek V4 | 深度求索 | MoE+MLA | 1.6T | ~50B | 1M | ✅ | 昇腾910C |
| DeepSeek V3 | 深度求索 | MoE | 671B | 37B | 128K | ✅ | A100/H100 |
| Qwen 3.5 | 阿里 | MoE | ~1T MoE | 未公开 | 128K+ | ✅ | A100+昇腾 |
| Qwen 2.5 72B | 阿里 | Dense | 72B | 72B | 128K | ✅ | A100 |
| GLM-5 | 智谱 | GLM | 未公开 | 未公开 | 1M | ✅ | 全国产 |
| ERNIE 5.0 | 百度 | MoE | ~1.8T MoE | 未公开 | 128K | ❌ | 昆仑芯+昇腾 |
| Seed 2.0 Pro | 字节 | Dense/MoE | ~65B-MoE | 未公开 | 128K | ❌ | A800+昇腾 |
| Kimi K2.5 | 月之暗面 | 未公开 | 未公开 | 未公开 | 200万字 | ❌ | 未公开 |
| MiniMax | MiniMax | MoE | 未公开 | 未公开 | 256K | ❌ | 未公开 |
| 混元 | 腾讯 | MoE | 389B | 未公开 | 128K | ❌ | H100+昇腾 |
🔧 国产芯片适配与算力格局
2026年芯片分配现状
70B+大模型的训练芯片格局: 英伟达存量 (H100/A100/A800) ├── DeepSeek V3 (早期)、Qwen 3 部分 ├── 文心ERNIE 5.0 部分 (昆仑芯并行) └── 腾讯混元 部分 (H100) 华为昇腾 910C/950PR ★ 国产主力 ├── DeepSeek V4 ← 1000颗昇腾910C全参数训练! ├── GLM-5 ← 全栈适配:昇腾、摩尔线程、寒武纪 ├── 文心ERNIE 5.0 (与昆仑芯并行) ├── Qwen 3.5 增量训练 ├── 华为盘古 ← 全栈昇腾(100%无英伟达) └── 腾讯混元 (与H100并行) 其他国产芯片 ├── 昆仑芯2代/3代 → 百度自研训练 ├── 平头哥真武810E → 阿里自研 ├── 寒武纪思元590 → 字节、智谱 ├── 海光DCU → 多家兼容 └── 紫霄 → 腾讯自研推理DeepSeek V4的"去英伟达"意义
DeepSeek V4最大的战略意义不在于性能提升,而在于:
首次在超大规模模型上成功实现全栈国产芯片训练
- 基于1000颗华为昇腾910C
- 不依赖任何英伟达芯片
- 全参数训练1.6T MoE模型
- FlashMLA推理引擎提升35倍
这标志着中国AI产业在算力自主可控上迈出了关键一步。
📝 总结与展望
国产大模型的三大阵营
| 阵营 | 代表 | 策略 | 优势 |
|---|---|---|---|
| 技术驱动型 | DeepSeek、智谱、阿里Qwen | 开源 + 技术领先 | 全球影响力、社区生态 |
| 场景驱动型 | 百度、字节、腾讯 | 闭源 + 生态绑定 | 产品化、商业闭环 |
| 垂直专精型 | Kimi、MiniMax | 聚焦特定场景 | 差异化、用户体验 |
2026年国产大模型趋势
- 全面MoE化:从DeepSeek到ERNIE都转向了MoE架构
- 推理能力成为标配:R1风格的推理模型是必备能力
- 国产芯片适配加速:昇腾已成为主流训练选择
- Agent化:模型从回答问题转向执行任务
- 价格战加剧:DeepSeek的超低价策略倒逼全行业降价
- 开源 vs 闭源分化:DeepSeek/Qwen/GLM坚定开源,百度/字节/腾讯闭源
国产大模型的世界竞争力
截至2026年6月,国产大模型已在以下方面达到世界一流水平:
- DeepSeek:MoE架构创新、训练效率、性价比
- Qwen:开源生态、多语言能力
- GLM:自研架构、Agent能力
- 豆包:多模态、C端产品体验
💡面试加分点:国产大模型的核心竞争优势已经从"追赶"变为"并跑"。DeepSeek在MoE架构(MLA、GRPO)和训练效率上的创新已经被全球学术界和工业界广泛认可。面试时如果能深入对比DeepSeek V4的MLA架构与标准MHA的差异,以及对昇腾芯片适配的技术挑战,将是极佳的加分项。
如果你觉得这篇文章有帮助,欢迎点赞、收藏、转发!
📌 系列文章导航:
- 【模型架构篇01】大模型部署:从vLLM到ollama
- 【模型架构篇02】模型压缩:知识蒸馏与剪枝
- 【模型架构篇03】MoE混合专家模型详解
- 【模型架构篇04】Transformer架构精讲:Encoder-Decoder全拆解
- 【模型架构篇05】LLaMA系列架构详解:开源模型的里程碑
- 【模型架构篇06】GPT系列架构演进:从GPT-1到GPT-5
- 【模型架构篇07】Claude系列架构详解:Anthropic的技术路线
- 【模型架构篇08】Gemini系列架构详解:Google的多模态探索
- [【模型架构篇09】国产大模型生态:DeepSeek、Qwen与智谱] ← 本文
