尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

一个模型,三种“人格”——FRSMASH-v3.6 凭什么既能快如闪电,又能记住 128K 前的事?

一个模型,三种“人格”——FRSMASH-v3.6 凭什么既能快如闪电,又能记住 128K 前的事?
📅 发布时间:2026/7/5 9:05:44

钩子:如果有一个模型,训练 60M 参数只用了3.9 小时,生成速度跑到625 tok/s,128K 上下文外推不崩,显存还恒定 276 MB——你信吗?

这不是标题党。这是 ModelScope 上刚更新的FRSMASH-v3.6。


先抛一个问题:为什么纯 SSM 记不住“套路”?

如果你玩过 Mamba 或 RWKV,可能遇到过这种情况:前面明明出现过一模一样的模式,模型就是“想不起来”后面该接什么。

这叫associative recall 问题——给模型一串a1 a2 a3 ... aK [marker] a1 a2 a3 ...,它应该在看到a_i时准确输出下一个。纯 SSM 在这类任务上几乎全军覆没。

FRSMASH-v3.6 的解法很直接:既然一个脑子不够用,那就装三个。


三路分工:SSM 做主、GLA 做精、SlowMemory 做“背景板”

架构图里写得清楚,模型把输入同时喂进三条并行路径:

第一条路:SSM Backbone——长程“定海神针”

12 层 MultiSlotFLayer,基于 fla HGRN 实现。递推公式是:

h = A·h + B, A ∈ (0,1]

这个A 恒小于 1的设计是神来之笔——意味着不管序列多长,状态都有数学上界,不会爆炸也不会消失。训练只看了 512/768 的序列长度,外推到 128K 时 PPL 几乎不漂移。170 倍的外推,稳得不像话。

第二条路:GLA Recall——专门抓“模式匹配”

这是 v3.6 相比纯 SSM 最大的升级:

S_t = exp(g)·S_{t-1} + k⊗v, o = q·S

本质上是一个累积式的键值记忆系统。当模型看到一个 token,它会用当前的 query 去记忆库 S 里检索最相关的内容。这就是它能通过 induction 测试的根本原因——它不是“猜”下一个,而是“查”到了上一个。

实测结果:v3.6 在 induction 任务上acc=1.000 PASS,而纯 SSM 是 0.000。差距就是有和无。

第三条路:SlowMemory——慢尺度的“长期背景”

线性化的慢记忆模块,公式是:

h_t = A(x)·h + B(x), y = α(x)·h + x

它不追求精确召回,而是提供一种缓慢变化的全局背景信号。就像写文章时,你不会时刻想着开头第一句,但它始终在影响你的语气和方向。


三条路怎么融合?Gated Fusion

三个分支各自输出x_ash(SSM)、x_mem(慢记忆)、x_recall(GLA),然后通过门控机制融合,再加上原始 embedding,最后进 Head 出 logits。

不是简单的相加,而是让模型自己学会“什么时候该信谁”。


数据说话:这些数字不讲武德

训练效率:3.9 小时搞定 60M 模型

阶段步数loss 变化耗时
Pretrain 2ep79,3886.37 → 2.212.4h
SFT 1ep28,3032.63 → 1.971.5h

训练吞吐125,000 tok/s,单张 RTX 4090。什么概念?你泡杯咖啡的时间,它已经看了几百万 token。

推理速度:CUDA Graph 加持,625 tok/s

  • Eager 模式:102 tok/s
  • CUDA Graph 模式:625 tok/s,6.5 倍提升

更关键的是:生成速度不随上下文长度变化——因为每一步只传递固定大小的 state,不重算历史。

显存:276 MB,管你 100 还是 16000 上下文

ContextFRSMASH-v3.6Transformer KV Cache
100276 MB1.3 MB
1,000276 MB13.2 MB
4,000276 MB52.7 MB
16,000276 MB210.9 MB

恒定vs线性增长。而且 prefill 阶段也是分块(chunk=512)处理,峰值显存同样恒定在 375 MB。这意味着你可以往模型里塞 100K 的 prompt,它照样不 OOM。


版本演进:从 v3.2 到 v3.6,踩过的坑一个没白踩

看版本迭代史就知道这模型为什么 work:

版本问题状态
v3.2手写 scan,慢induction FAIL
v3.3backward 有障碍FAIL
v3.4全 fla 快起来了但 recall 还是 FAIL
v3.5recall 解决了但手写循环太慢
v3.6fla + GLA,又快又准PASS

v3.6 的本质是v3.4 的速度 + v3.5 的 recall 能力,而让这一切成为可能的,是 flash-linear-attention 提供的 Triton kernel——不用手写 backward,不用绕 nvcc,Windows 和 Linux 都能跑。


总结:它 work,因为它在正确的地方做了正确的取舍

FRSMASH-v3.6 没有试图用单一机制解决所有问题,而是:

  1. SSM 负责长程稳定——数学有界,外推不崩
  2. GLA 负责精确召回——补上 SSM 最弱的环节
  3. SlowMemory 负责慢背景——提供全局信息
  4. 全 fla 实现——训练快、推理快、显存恒定

它不追求“一个架构打天下”,而是让三个专家各司其职,再让模型自己学会怎么融合。

最后补一句:这模型 60M 参数,MIT 协议开源。你甚至可以在自己的 8GB 显卡上跑起来。

试试看,反正不亏。

相关新闻

  • AI大模型产业趋势:从模型竞赛到应用深水区,聚焦成本、幻觉与商业化落地
  • BSCCompiler未来展望:统一编程平台的技术路线图与发展方向
  • 容器故障排查利器:openEuler/cpds-agent实用技巧与最佳实践

最新新闻

  • 垂直氮化镓技术:高压电力电子的未来
  • 豆包四大框架拆解:对话理解、角色驱动、知识增强与工具协同
  • 西威变频器主板底座设计差异与维修要点解析
  • 深入解析SSD与内存卡的核心原理与性能差异
  • 大华智能物联平台默认口令漏洞:从Token机制到内网渗透的实战复现
  • RK3588核心板:高性能AIoT开发全解析

日新闻

  • 基于YOLOv12的番茄成熟度智能检测系统开发
  • 终极RimWorld模组管理指南:用RimSort告别模组冲突烦恼
  • AI Agent框架开发:从理论到实践的完整指南

周新闻

  • 基于YOLOv12的番茄成熟度智能检测系统开发
  • 终极RimWorld模组管理指南:用RimSort告别模组冲突烦恼
  • AI Agent框架开发:从理论到实践的完整指南

月新闻

  • 2026年6月公司网站搭建最新热门渠道测评:四大低成本/零代码平台对比+避坑
  • 【Linux】Linux arm 编译QT程序,出现expected “}“报错
  • 【MATLAB例程】四基站二维AOA定位与距离辅助增强对比仿真。基于角度观测和测距修正的固定目标平面定位精度分析

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号