Ring-flash-2.0：6.1B激活MoE模型推理破百B性能-尧图网站建设

📅 发布时间：2026/6/19 7:25:49

Ring-flash-2.0：6.1B激活MoE模型推理破百B性能

【免费下载链接】Ring-flash-2.0项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ring-flash-2.0

近日，inclusionAI正式开源高性能思维模型Ring-flash-2.0，该模型基于MoE（Mixture of Experts，混合专家）架构，在仅激活6.1B参数的情况下实现了媲美百亿级模型的复杂推理能力，同时通过创新的IcePop算法解决了MoE模型强化学习训练不稳定的核心难题。

当前大语言模型领域正面临"性能-效率"的双重挑战：一方面，复杂任务如数学竞赛、逻辑推理等需要模型具备深度思维能力，通常依赖大参数量模型；另一方面，全参数激活的密集型模型（Dense Model）推理成本高昂，难以满足高并发场景需求。MoE架构通过稀疏激活机制实现了参数量与计算效率的平衡，但在强化学习阶段的训练不稳定性一直是行业痛点。根据Gartner最新报告，2025年将有65%的企业AI应用面临推理成本过高的问题，高效能模型成为突破关键。

Ring-flash-2.0在架构设计和训练方法上实现了多重突破。作为Ling-flash-2.0-base的深度优化版本，该模型总参数量达100B，但通过1/32专家激活比例和MTP层等结构优化，每次推理仅激活6.1B参数（其中4.8B为非嵌入参数）。这一设计使模型在四颗H20 GPU上部署时，生成速度可达200+ tokens/秒，大幅降低了高性能思维模型的部署门槛。

如上图所示，该基准测试对比了Ring-flash-2.0与GPT-OSS-120B、Qwen3-32B-Thinking等主流模型在数学竞赛（AIME 25、Omni-MATH）、代码生成（LiveCodeBench）和逻辑推理（ARC-Prize）等任务上的表现。从图中可以清晰看出，Ring-flash-2.0不仅超越了40B以下密集型模型，还在多项指标上媲美更大规模的开源MoE模型和闭源API。

该图展示了Ring-flash-2.0的MoE架构优化细节，包括专家激活机制和MTP层设计。从图中可以看出，极低的激活参数比例（6.1B/100B）是实现高性能与高效率平衡的关键，这种"小激活大模型"的设计思路为行业提供了新的技术参考。

模型性能的跃升得益于inclusionAI自研的IcePop算法，该算法通过"掩码双向截断"技术有效解决了MoE模型强化学习中的训练-推理偏差问题。传统GRPO算法在长序列训练中会出现概率分布偏差累积，当相对差异超过5%时训练即告失败。IcePop算法创新性地同时截断训练概率显著高于和低于推理概率的token，并对差异过大的token进行梯度掩码，使模型能够在长周期RL训练中保持稳定进化。

在训练流程上，Ring-flash-2.0采用"SFT+RLVR+RLHF"三阶段方案：首先通过轻量化Long-CoT SFT（长链思维微调）赋予模型多样化思维模式；然后通过RLVR（带可验证奖励的强化学习）激发推理潜力；最后通过RLHF（基于人类反馈的强化学习）优化通用能力。这种分阶段训练既保证了复杂推理任务的性能，又兼顾了模型的整体可用性。

该截图展示了Ring-flash-2.0创新的两阶段RL训练 pipeline。从图中可以看出，研发团队对比了联合训练与分阶段训练两种方案，最终选择的分阶段方案在工程效率和生成质量平衡上表现更优，尤其减少了长尾生成问题。

Ring-flash-2.0的开源将加速高效能思维模型的产业化应用。在金融风控领域，其逻辑推理能力可用于复杂交易规则的实时解析；在教育场景，数学竞赛级别的解题能力能够赋能个性化辅导系统；而200+ tokens/秒的生成速度使其具备高并发服务能力，有望推动AI客服、智能创作等场景的体验升级。随着模型部署生态的完善（已支持vLLM和SGLang推理框架），预计将有更多开发者基于该架构探索低成本高性能的AI应用。

未来，随着IcePop算法的进一步优化和多阶段训练流程的迭代，MoE模型有望在保持高效率优势的同时，逐步逼近甚至超越同量级密集型模型的综合能力。Ring-flash-2.0的技术路径表明，稀疏激活与强化学习的深度融合，可能是实现"千卡训练、百卡部署、超千卡性能"的关键所在，这将为大语言模型的可持续发展提供新的方向指引。

【免费下载链接】Ring-flash-2.0项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ring-flash-2.0

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考