当前位置: 首页 > news >正文

【Qwen3.6】关键技术:线性注意力(Linear Attention/DeltaNet)和标准多头注意力(Standard Attention)混合

官方材料https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8/blob/main/README.md分析一款非常前沿的混合架构大模型Qwen3.6-35B-A3B下一代 Qwen 模型。这个模型的核心创新在于它不是纯粹的 Transformer而是将两种不同的序列建模技术——线性注意力Linear Attention/DeltaNet和标准多头注意力Standard Attention混合在一起。以下是每个技术模块的详细解读1. 核心架构概念混合专家 (MoE) 与稀疏激活Number of Parameters: 35B in total and 3B activated总参数量 (35B)模型拥有 350 亿个参数。激活参数量 (3B)在推理过程中每次只使用其中的 30 亿个参数。技术含义这是MoE (Mixture-of-Experts混合专家模型)的典型特征。通过稀疏激活模型在保持大模型性能35B 级别的同时获得了小模型3B 级别的推理速度和低延迟。2. 隐藏层布局 (Hidden Layout)10 × (3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE))总数 40 层模型共有 40 层 Transformer 块。分组结构这 40 层被分成了 10 个大的 Block组。组内结构每个 Block 包含 4 层3 层 Gated DeltaNet MoE负责高效处理序列的主要部分。1 层 Gated Attention MoE负责在关键位置进行高精度的全局注意力计算。设计意图这是一种混合注意力机制。DeltaNet 计算速度快但精度略低于标准 Attention。通过在每 4 层中插入 1 层标准 Attention模型能在保持高速度的同时捕捉长距离依赖和复杂关系。3. Gated DeltaNet (门控线性注意力)技术背景DeltaNet 是 State Space Models (SSM) 或线性注意力的一种变体旨在替代标准的O(N2)O(N^2)O(N2)注意力机制实现O(N)O(N)O(N)的计算复杂度。Number of Linear Attention Heads: 32 for V and 16 for QK这是线性注意力的特定实现方式可能是基于 SSM 或 RWKV 类的架构。它使用更少的头数来处理状态更新。Head Dimension: 128每个注意力头的维度是 128。作用负责快速扫描文本序列捕捉局部和中等距离的信息速度极快。4. Gated Attention (门控标准注意力)技术背景这就是标准的 Transformer 多头注意力机制但在 Qwen 的混合架构中它被“门控”或稀疏使用。Number of Attention Heads: 16 for Q and 2 for KVGQA (Grouped-Query Attention)查询头数 (Q) 是 16键/值头数 (KV) 是 2。这意味着每 8 个 Q 头共享一个 KV 头。这极大地减少了 KV Cache 的内存占用和推理带宽压力同时保留了多查询头的表达能力。Head Dimension: 256标准注意力的头维度较大以便捕捉更精细的特征。Rotary Position Embedding Dimension: 64RoPE (旋转位置编码)用于编码 token 的位置信息。这里明确指出用于注意力机制的位置编码维度是 64。作用在混合架构的关键节点提供高精度的全局上下文理解解决 DeltaNet 可能丢失长距离依赖的问题。5. Mixture Of Experts (MoE) 配置Number of Experts: 256每层有 256 个独立的“专家”网络通常是 FFN。Number of Activated Experts: 8 Routed 1 Shared8 Routed (路由专家)对于每个输入 token路由器Router会选择 8 个最相关的专家进行计算。1 Shared (共享专家)还有一个专家对所有 token 都是激活的。这有助于捕捉通用的、全局性的特征如语法、常见语义避免专家稀疏导致的信息损失。激活总数8 1 9 个专家被激活。结合专家内部参数构成了总共 3B 的激活参数。Expert Intermediate Dimension: 512每个专家网络内部隐藏层的维度。6. Token OutputToken Embedding: 248,320 (Padded)词表大小约为 248k。这个巨大的词表通常是为了更好地处理多语言、代码符号和各种特殊字符减少 OOV未登录词问题。Padded表示词表大小可能为了硬件优化如 GPU 内存对齐进行了填充实际有效词汇可能略少。LM Output: 248,320 (Padded)模型输出层映射回同样的词表大小。7. MTP (Multi-Step Prediction / Multi-Token Prediction)trained with multi-steps技术含义这是一种训练技巧类似于Lookahead Decoder或Speculative Decoding 的训练版。在训练过程中模型不仅预测下一个 token还被要求预测下两个、下三个 token多步预测。目的提高生成效率模型在推理时可以一次输出多个 token。增强连贯性让模型更好地理解序列的整体结构而不仅仅是单步依赖。总结这是什么类型的模型这是一个Hybrid Linear-Transformer MoE 模型具体来说混合架构它结合了SSM/Linear Attention (DeltaNet)的高效性和Standard Attention的精度。MoE 稀疏激活通过 256 选 9 的方式实现了 35B 参数仅消耗 3B 算力。长上下文优化DeltaNet 天然支持长上下文且内存占用低配合少量的标准 Attention使其在处理超长文本时比纯 Transformer 更稳定、更快。多语言/代码优化248k 的大词表支持更细粒度的语言建模。性能预估这种架构通常旨在实现3B 级别的推理速度但拥有接近 30B 密集模型的性能如搜索结果显示其 SWE-bench 得分 73.4远超同等大小的传统模型。它是为了在消费级硬件如笔记本上运行高质量 AI 代理Agent而设计的。
http://www.rkmt.cn/news/1385206.html

相关文章:

  • MySQL 死锁产生原因与避免
  • Hugging Face 中tokenizer.json 和vocab.json 有区别?
  • AI 充电枪智能功率 MOSFET 完整选型方案
  • 玩转Hermes Agent|使用Lighthouse快速部署云上Hermes Agent-周红伟
  • 如何精准控制20QPS测试百度首页
  • 企业数据安全方案有哪些:2026年从风险评估到落地的完整指南 - 华旭传媒
  • 博弈论导向的车辆队列运动协同分层控制算法【附算法】
  • 企业级AI语音合成采购决策白皮书(2024真实报价单首次公开)
  • RTX51 Tiny内存冲突与ISD51调试器解决方案
  • 精准测试落地难?我用半年实践总结出这4条铁律
  • 机器学习入门:理解线性回归与逻辑(简化且附Python实战代码)
  • 2026年金华为餐饮企业提供SAAS收银系统的服务商综合分析与适配指南 - 万事通达
  • Claude code 接入 deepseek-v4-pro setting 文件配置
  • HTTP与HTTPS超详解:协议流程、报文结构、HTTPS加密、各版本区别、面试
  • Visual C++运行库合集终极指南:一键解决Windows应用程序依赖问题
  • ​用于雷达系统设计的 MATLAB 仿真附matlab代码
  • 2026软考中级软件设计师_考后分享
  • 基于GMR传感器的DIY示波器电流钳探头设计与实现
  • 暗黑破坏神2存档修改器:Diablo Edit2让你的游戏体验随心所欲
  • 打不开JupyterLab
  • 荣耀出征官网下载:1.03H经典副本复刻,高阶装备稳定掉落
  • 【DeepSeek性能测试黄金法则】:20年专家亲授5大避坑指南与实测调优参数清单
  • DeepSeek代码签名验证形同虚设?——用eBPF+Sigstore构建不可绕过的100%可信执行链(含生产环境一键部署脚本)
  • Claude端到端测试设计:从零搭建可审计、可回放、可量化的AI服务测试流水线(含开源Schema校验工具)
  • HDI 高密度互连板阶数的深度理解
  • DMA使用心得-STM32
  • 搜维尔科技:Xsens动作捕捉在人形机器人研发中的应用
  • 光轮智能 谢晨 访谈总结机器人仿真数据产业
  • 轻量化部署,异地机房快速接入,多机房管理不用再大动干戈
  • 基于ATtiny84的智能冰箱监控器:低功耗温度与门状态监测方案