GLM-5.1 与 GLM-5.2关键区别-尧图网站建设

GLM-5.1 与 GLM-5.2关键区别

📅 发布时间：2026/7/2 11:04:56

GLM-5.1 与 GLM-5.2 在架构上的主要区别：

一、架构层面对比

维度	GLM-5.1	GLM-5.2
参数量	744B 总参数 / 40B 激活参数	744B 总参数 / 40B 激活参数（保持不变）
注意力机制	DSA（动态稀疏注意力）	DSA 优化版
上下文窗口	1M（但超过 200K 后性能衰减）	1M 全长度稳定可用

核心架构改进：

1. DSA 机制优化

掩码生成精度和效率提升
采用分层稀疏策略：先粗粒度确定注意力范围，再细粒度精化注意力模式

2. 1M 上下文真正可用

GLM-5.1 在超过 200K token 后存在"中间遗忘"问题
GLM-5.2 在全长度范围内保持稳定检索和推理能力

二、训练方法改进

维度	GLM-5.1	GLM-5.2
预训练数据	28.5T tokens	28.5T+ tokens（持续扩充）
数据截止时间	较早	2025 年 11 月
后训练	Agentic 能力强化	新增双思考模式

训练改进详情：

1. 双思考模式（核心创新）

标准思考模式：快速响应简单任务
深度思考模式：多步推理 + 自我验证，适合复杂任务

2. 长上下文训练策略

渐进式训练：32K → 128K → 512K → 1M
增加代码仓库级别数据，训练跨文件依赖理解能力

3. Agentic 能力强化

更多 Agent 轨迹数据（完整思考-行动-观察序列）
基于执行结果的奖励信号优化

三、性能提升

评测项	GLM-5.1	GLM-5.2
SWE-bench Verified	77.8%	~80%+
HumanEval	90.0%	~91%
1M 上下文稳定性	良好（有衰减）	优秀（全长度稳定）
长程 Agent 任务	开源 SOTA	持续领先

四、总结：三大核心改进

1M 上下文真正可用：DSA 优化解决了长上下文性能衰减
长程 Agentic Coding 强化：多步骤、多文件协作能力显著提升
双思考模式：用户可按需选择效率或质量

定位：GLM-5.2 不是全新架构，而是在 GLM-5/5.1 基础上的精细化迭代，重点优化长上下文稳定性和 Agent 能力。