GLM-5.1 与 GLM-5.2 在架构上的主要区别:
一、架构层面对比
| 维度 | GLM-5.1 | GLM-5.2 |
|---|---|---|
| 参数量 | 744B 总参数 / 40B 激活参数 | 744B 总参数 / 40B 激活参数(保持不变) |
| 注意力机制 | DSA(动态稀疏注意力) | DSA 优化版 |
| 上下文窗口 | 1M(但超过 200K 后性能衰减) | 1M 全长度稳定可用 |
核心架构改进:
1. DSA 机制优化
- 掩码生成精度和效率提升
- 采用分层稀疏策略:先粗粒度确定注意力范围,再细粒度精化注意力模式
2. 1M 上下文真正可用
- GLM-5.1 在超过 200K token 后存在"中间遗忘"问题
- GLM-5.2 在全长度范围内保持稳定检索和推理能力
二、训练方法改进
| 维度 | GLM-5.1 | GLM-5.2 |
|---|---|---|
| 预训练数据 | 28.5T tokens | 28.5T+ tokens(持续扩充) |
| 数据截止时间 | 较早 | 2025 年 11 月 |
| 后训练 | Agentic 能力强化 | 新增双思考模式 |
训练改进详情:
1. 双思考模式(核心创新)
- 标准思考模式:快速响应简单任务
- 深度思考模式:多步推理 + 自我验证,适合复杂任务
2. 长上下文训练策略
- 渐进式训练:32K → 128K → 512K → 1M
- 增加代码仓库级别数据,训练跨文件依赖理解能力
3. Agentic 能力强化
- 更多 Agent 轨迹数据(完整思考-行动-观察序列)
- 基于执行结果的奖励信号优化
三、性能提升
| 评测项 | GLM-5.1 | GLM-5.2 |
|---|---|---|
| SWE-bench Verified | 77.8% | ~80%+ |
| HumanEval | 90.0% | ~91% |
| 1M 上下文稳定性 | 良好(有衰减) | 优秀(全长度稳定) |
| 长程 Agent 任务 | 开源 SOTA | 持续领先 |
四、总结:三大核心改进
- 1M 上下文真正可用:DSA 优化解决了长上下文性能衰减
- 长程 Agentic Coding 强化:多步骤、多文件协作能力显著提升
- 双思考模式:用户可按需选择效率或质量
定位:GLM-5.2 不是全新架构,而是在 GLM-5/5.1 基础上的精细化迭代,重点优化长上下文稳定性和 Agent 能力。