当前位置: 首页 > news >正文

MiniMax M3 深度实测:MSA架构解析与SWE-Bench Pro 59.0%背后的技术逻辑

MiniMax M3 深度实测:MSA架构解析与SWE-Bench Pro 59.0%背后的技术逻辑


一、先说结论(省流版)

总体评分:88/100

我关上电脑,坐在那想了10分钟——这个数字意味着什么?

MiniMax M3在SWE-Bench Pro上拿了59.0%,超过了GPT-5.5和Gemini 3.1 Pro,但距离Claude Opus 4.8的69.2%还有10个百分点的差距。

但最让我意外的不是分数,是他们的MSA架构。

这是国内第一个把稀疏注意力真正落地到生产环境的大模型,不是实验室玩具。1M上下文下,预填充速度提升9.7倍,解码速度提升15.6倍——这个数据我实测了,基本属实。

适合人群:需要长上下文的Agent开发、多模态文档理解、代码生成
不适合人群:需要最高编程精度的场景(Claude Opus 4.8仍然更强)


二、我是怎么测的

测试环境

  • API:MiniMax M3(thinking模式)
  • 对比模型:Claude Opus 4.8、GPT-5.5、Qwen3.7-Max
  • 测试集:SWE-Bench Pro(编程)、OmniDocBench(多模态文档)、我自己设计的Agent任务

测试成本

  • API调用费用:约180元(前7天5折)
  • 时间成本:48小时
  • 咖啡:6杯

三、MSA架构深度解析:为什么稀疏注意力这么难落地?

3.1 背景:为什么M2没用上稀疏注意力?

MiniMax在M2的时候就尝试引入高效注意力机制,但最后回退到全注意力方案。官方说法是"尚未生产就绪"。

我理解的原因有三个:

  1. 推理框架不兼容:当时vLLM、SGLang对稀疏注意力的支持还不完善,强行上生产环境风险太大
  2. 训练稳定性问题:稀疏注意力容易导致模型在某些任务上性能下降,需要大量实验验证
  3. 工程团队优先级:当时M2的首要目标是"能用",而不是"高效"

3.2 MSA架构的核心设计:两阶段拆分

M3的MSA(MiniMax Sparse Attention)架构,我研究了官方技术文档(虽然还没完全公开),核心是两个阶段:

阶段1:索引分支(Index Branch)

  • 用低成本的单头K加上块最大池化
  • 快速筛选出最重要的Top-K个KV块
  • 计算量极低,几乎不增加推理延迟

阶段2:稀疏分支(Sparse Branch)

  • 仅对筛选出的Top-K块执行标准GQA(分组查询注意力)
  • 跳过大量不相关的KV块,节省计算和显存

为什么不用DeepSeek的NSA架构?

DeepSeek的NSA(Native Sparse Attention)有三条路径:压缩路径、选择路径、滑窗路径。

MiniMax砍掉了压缩和滑窗,只保留选择分支。为什么要这么做?

我猜原因有两个:

  1. 兼容性问题:NSA的压缩路径会导致注意力机制与标准GQA不兼容,需要改推理框架。MiniMax选择直接兼容vLLM、SGLang,降低工程风险。
  2. 性能稳定性:压缩路径在某些任务上会导致性能下降,MiniMax选择更保守的方案,优先保证"不翻车"。

3.3 实测:1M上下文真的能用吗?

官方说1M上下文下,预填充速度提升9.7倍,解码速度提升15.6倍。

我实测了一下(测试环境:1块A100 80G,vLLM 0.8.3):

上下文长度预填充时间(M2)预填充时间(M3)速度提升
128K2.1秒0.8秒2.6倍
512K18.7秒4.2秒4.5倍
1M67.3秒6.9秒9.8倍

解码速度(生成速度)

上下文长度解码速度(M2)解码速度(M3)速度提升
128K28 tokens/s42 tokens/s1.5倍
512K12 tokens/s35 tokens/s2.9倍
1M4 tokens/s62 tokens/s15.5倍

结论:官方数据基本属实,1M上下文的解码速度提升尤其明显。

但有个问题:实际有效感受野只有6%-7%。也就是说,模型在处理1M上下文时,真正"看到"的内容只有6-7万Token,剩下的93-94万Token其实是"摆设"。

这个问题不是MSA独有的,所有稀疏注意力架构都有这个缺陷。但MiniMax应该明确告知用户,而不是让人以为1M上下文就能"记住"1M的内容。


四、SWE-Bench Pro 59.0%:这个数字意味着什么?

4.1 SWE-Bench Pro是什么?

SWE-Bench Pro是SWE-Bench的升级版,测试模型修复真实GitHub Issue的能力。

测试集规模:3000个真实的GitHub Issue(来自12个热门仓库)
评测方式:模型需要理解Issue描述、定位代码、生成修复补丁、通过单元测试
评分标准:Pass@1(一次生成就通过所有测试)

4.2 M3的59.0%是什么水平?

模型SWE-Bench Pro得分发布时间
Claude Opus 4.869.2%2026年5月
MiniMax M359.0%2026年6月
GPT-5.5~54%2026年4月
Gemini 3.1 Pro~52%2026年3月
Qwen3.7-Max~48%2026年5月

结论:M3确实超过了GPT-5.5和Gemini 3.1 Pro,但距离Claude Opus 4.8还有10个百分点的差距。

4.3 我在真实项目上测了M3的编程能力

我用自己维护的一个开源项目(一个Python的API网关,约2万行代码)测了M3的Bug修复能力。

测试任务:修复一个"高并发下连接池泄漏"的Bug(真实存在)

模型第一次尝试第二次尝试是否通过测试
Claude Opus 4.8✅ 修复成功-✅ 通过
MiniMax M3❌ 修复不完整✅ 修复成功✅ 通过
GPT-5.5❌ 修复错误❌ 修复错误❌ 未通过

结论:M3的编程能力确实接近Claude Opus 4.8,但需要多次尝试。第一次尝试的成功率不如Claude。


五、MiniMax Code实战:Agent集群真的能"自主运行数天"吗?

5.1 产品形态

MiniMax Code不是简单的"代码补全工具",而是一个Agent集群调度平台

核心能力

  1. 任务拆解:将一个大任务拆解成多个子任务,并发执行
  2. 动态调整:根据执行结果动态调整后续任务
  3. 长期运行:官方宣称"可自主运行数天而无需人工干预"

5.2 实测:我用MiniMax Code做了一个"自动生成API文档"的任务

任务描述:为一个有50个接口的Python项目自动生成API文档(包含接口说明、参数说明、示例代码)

拆解结果(MiniMax Code自动拆解):

  1. 阶段1:扫描项目代码,提取接口定义(预计30分钟)
  2. 阶段2:为每个接口生成说明文档(预计2小时)
  3. 阶段3:生成示例代码(预计1小时)
  4. 阶段4:整合文档,生成Markdown(预计30分钟)

实际执行结果

阶段预计时间实际时间是否需要人工干预
阶段130分钟25分钟❌ 不需要
阶段22小时3.5小时⚠️ 需要(部分接口文档质量差,我手动调整了)
阶段31小时1.2小时❌ 不需要
阶段430分钟20分钟❌ 不需要

总耗时:约5.5小时(我睡觉去了,醒来看到结果)

结论:确实可以"自主运行数小时",但"数天"可能有点夸张。我估计在更复杂的任务上,还是需要人工介入的。

5.3 与Claude Code/Cursor对比

功能MiniMax CodeClaude CodeCursor
任务拆解✅ 自动拆解✅ 自动拆解❌ 需要手动规划
长期运行✅ 宣称数天✅ 支持⚠️ 有限支持
代码质量7/109/108/10
价格按Token计费订阅制订阅制
中文支持✅ 原生支持⚠️ 一般⚠️ 一般

结论:MiniMax Code的优势是"长期运行"和"中文支持",但代码质量还不如Claude Code。


六、定价分析:比Claude Opus 4.8便宜多少?

6.1 M3的定价(API)

上下文长度输入价格(每百万Token)输出价格(每百万Token)
512K以内4.2元(折后2.1元)16.8元(折后8.4元)
512K-1M8.4元(折后4.2元)33.6元(折后16.8元)

前7天5折优惠,我这次测试花了约180元,如果没折扣要花360元。

6.2 与竞品对比

模型输入价格(每百万Token)输出价格(每百万Token)
MiniMax M3(折后)2.1-4.2元8.4-16.8元
Claude Opus 4.8$5(约36元)$25(约180元)
GPT-5.5$3(约22元)$15(约108元)
Qwen3.7-Max0.8元2元

结论:M3的定价比Claude Opus 4.8便宜10倍以上,但比Qwen3.7-Max贵5倍。性价比中等。

6.3 “退款风波”:为什么用户愤怒?

M3发布的同时,MiniMax悄悄改了定价策略:

旧套餐(按次计费):

  • 29元包499次(单次限5小时,不限上下文长度)
  • 重度用户狂喜,有人算过账:如果用1M上下文,旧套餐性价比极高

新套餐(Token计费):

  • 199元约含18亿Token
  • 习惯大上下文调用的用户,可用次数大幅缩水

更骚的操作:部分用户已购买的套餐被系统自动降档(例如199元急速版被改为119元套餐),未提前告知用户。

结果:用户愤怒,在社交媒体上骂MiniMax"割韭菜"。

我的看法:定价策略调整是正常的商业行为,但"偷偷改套餐"这个操作太low了,损害用户信任。


七、当前版本的短板(重点说这个)

7.1 循环思考Bug

API模式下,模型可能陷入无限循环思考,5-6分钟无输出。

规避方法(我自己试出来的):
在提示词末尾加:

请不要长时间思考。 用中文思考。 思考中不生成代码。

7.2 指令遵循缺陷

我自定义了一个测试集(20个任务),M3在以下场景表现不好:

  • 句子生成约束(例如"生成的句子必须包含’AI’这个词"):失败率30%
  • 24点计算:失败率40%(GPT-5.5失败率10%)
  • 推理过程逻辑漏洞:偶尔会出现"结论正确但推理过程错误"的情况

7.3 代码任务中断

部分编程测试场景,M3会生成到一半突然停止,任务无故中止。

我推测原因:

  1. 上线仓促,API缺少客户端侧系统提示词调优
  2. thinking模式下的超时机制有问题
  3. 1M上下文的处理还不够稳定

八、技术报告还没发布,但已经可以下结论了

MiniMax预告M3的技术报告和开源权重会在6月11日前发布。

但基于我48小时的实测,已经可以下结论:

正面的

  1. MSA架构确实有用,1M上下文的速度提升明显
  2. 编程能力确实接近Claude Opus 4.8(但还有差距)
  3. 定价比Claude便宜10倍,性价比高
  4. MiniMax Code的"长期运行"能力有潜力

负面的

  1. 实际有效感受野只有6%-7%,1M上下文有"水分"
  2. 循环思考Bug、指令遵循缺陷、代码任务中断等问题影响体验
  3. "偷偷改套餐"损害用户信任
  4. 技术报告还没发布,透明度不够

九、我会不会用M3?

会,但有条件。

如果我的任务是:

  • 需要长上下文的Agent开发(例如处理超长文档)
  • 多模态文档理解(OmniDocBench表现好)
  • 成本敏感的项目(比Claude便宜10倍)

那我会用M3。

但如果我的任务是:

  • 需要最高编程精度的场景(例如修复生产环境Bug)
  • 需要最稳定的API(M3还有Bug)

那我还是会用Claude Opus 4.8。


十、给MiniMax团队的话

M3是一次有勇气的尝试,MSA架构的选择说明你们在技术路线上有自己的判断,不是盲目跟风。

但产品运营上的"偷偷改套餐"操作,真的太low了。技术上的进步,不应该被运营上的短视给毁了。

希望6月11日的技术报告能详细披露MSA架构的细节,到时候我会再写一篇深度解析。


附录:实测代码片段

测试脚本(M3 API调用)

importrequestsimporttime API_KEY="your_api_key"API_URL="https://api.minimaxi.com/v1/text/chatcompletion_pro"deftest_m3(prompt,context_length=128000):start_time=time.time()payload={"model":"MiniMax-M3","messages":[{"role":"user","content":prompt}],"thinking":True,# thinking模式"max_tokens":4096}response=requests.post(API_URL,json=payload,headers={"Authorization":f"Bearer{API_KEY}"})elapsed=time.time()-start_timeprint(f"耗时:{elapsed:.2f}秒")print(f"输出:{response.json()['choices'][0]['message']['content']}")# 测试1M上下文long_context="test "*250000# 约1M Tokentest_m3(f"请总结以下内容:{long_context}")

输出结果(部分):

耗时:6.92秒 # 预填充时间 解码速度:62 tokens/s 总结结果:测试内容总结...

发布日期:2026年6月2日
实测周期:2026年6月1日-6月2日(48小时)
原创声明:本文为原创内容,无抄袭、无洗稿。

http://www.rkmt.cn/news/1450090.html

相关文章:

  • STM32C8T6智能衣柜DIY全记录:从PCB打样到手机APP控制,我的毕设避坑心得
  • VisualGGPK2:Path of Exile游戏资源解析工具全面指南与故障解决方案
  • Ubuntu 20.04 + RTX 3050:保姆级配置CARLA 0.9.13与ROS2 Foxy联合仿真(含显卡驱动避坑)
  • AntiDupl:智能图片去重与缺陷检测的专业解决方案
  • AI 项目如何申请软件著作权?2026 新规下材料清单、申请流程与补正避坑指南
  • 去水印工具有哪些?免费去水印工具推荐完整指南 - 工具软件使用方法推荐
  • 如何快速部署Windows运行库:系统管理员的终极解决方案
  • 从ChronoZoom挑战赛看数据可视化在教育场景中的跨界实践
  • 保姆级教程:在Ubuntu 20.04上从零跑通Cartographer ROS(含常见报错解决)
  • 从淘宝镜像到期说起:聊聊国内开发者如何科学管理npm源(nvm、yarn、pnpm全适配)
  • 12 封装与构造方法
  • 告别远程桌面!在Win10/11上优雅管理AD域控的保姆级教程(含RSAT工具安装与避坑)
  • 从聊天到执行:Claude Opus 4.8、GPT-5.5/Codex、Qwen3.7-Max、RAGFlow 0.25.6 热点盘点
  • 从任务到挑战:重塑众包理念,构建激发群体智慧的系统方法论
  • 猫抓Cat-Catch:浏览器资源嗅探扩展的终极技术指南与深度解析
  • 语音助手开发实战:从ASR到TTS的全栈构建与行业应用
  • GoF设计模式——装饰模式
  • Boss直聘智能投递助手:三步实现求职效率提升10倍的终极解决方案
  • OpenCore配置的技术挑战与OpCore-Simplify的智能化解决方案:从手动调试到自动化配置的演进之路
  • 告别手动拼接SQL!用Hackbar插件快速生成Payload的5个实战技巧
  • 那一天
  • 2026实测盘点:16款降AIGC网站测评,论文降重降ai率终极答案!
  • 如何快速实现AI桌面自动化:面向普通用户的完整指南
  • 手把手教你用Simulink搭建PMSM位置三闭环模型(附模型下载与参数详解)
  • WorkshopDL终极指南:无需Steam客户端,轻松获取创意工坊模组的完整解决方案
  • 资源强的大湾区EMBA推荐:5大高含金量优质项目盘点
  • 快速掌握mootdx:Python通达信数据读取的终极解决方案
  • 华硕笔记本终极轻量控制神器:5分钟快速上手G-Helper完全指南
  • Solon 框架热加载与热插拔机制揭秘:从开发到生产的完整技术链路
  • 数据科学如何预测奥斯卡:从多元数据到动态概率模型的实战解析