当前位置: 首页 > news >正文

Liquid AI 发布 LFM2.5-8B-A1B:38T 训练的 8B 稀疏 MoE 模型,128K 上下文,笔记本就能跑

Liquid AI 发布 LFM2.5-8B-A1B:38T 训练的 8B 稀疏 MoE 模型,128K 上下文,笔记本就能跑

引言

2026 年 5 月 28 日,Liquid AI 正式发布了 LFM2.5-8B-A1B,一款专为边缘设备设计的高效 MoE(Mixture-of-Experts)模型。不同于市面上的大型通用模型,这款仅 8B 总参数、1B 活跃参数的模型在 IFEval 上达到 91.84%,在 AIME25 上达到 62.80%,性能可与 Llama 4 Scout 等 17B 以上模型正面竞争

本文从技术角度深度解析其架构创新、训练方法论和实际部署方案。

LFM2.5-8B-A1B 技术概览

核心规格

参数数值
总参数量8.5B
活跃参数量1.5B
上下文窗口128,000 tokens
词表大小128,000
预训练数据38.4T tokens
激活参数比例~17.6%
架构MoE + GQA + gated short convolution

相比前代 LFM2-8B-A1B,新版从 12T 扩展到 38T 预训练数据,上下文从 32K 扩展到 128K,词表从 65,536 扩展到 128,000——后者显著提升了非拉丁语系的 token 化效率。

推理优先:纯推理模型 (Reasoning-only)

LFM2.5-8B-A1B 最大的架构变化是:它不再直接输出答案,而是先产出一个显式思维链 (Chain of Thought),再给出最终答案。

Liquid AI 团队解释这项设计的决策逻辑:

MoE 模型通常在计算受限场景中运行。活跃参数少意味着每个推理 token 的代价很低,因此生成思维链几乎不增加延迟,却能显著提升质量。

从基准测试看,这个决策是正确的——非幻觉率从 7.46% 跃升至 63.47%,提升了 56 个百分点。

基准测试解析

AA-Omniscience Index(综合质量指标)

指标LFM2-8B-A1B (v1)LFM2.5-8B-A1B (v2)提升
Omniscience Index-78.42-24.70+53.62
Accuracy7.338.67+1.34
Non-Hallucination Rate7.4663.47+56.01

非幻觉率提升 56% 是最大的亮点!从几乎不可用(7.46%)到基本可信(63.47%),这是受控 RL 训练 + 推理链带来的质变。

指令遵循能力

基准前代新版提升
IFEval79.4491.84+12.40
IFBench26.0056.47+30.47
Multi-IF58.5479.93+21.39

IFEval 91.84% 是什么水平?对比参考:GPT-4 约 85-88%,Llama 4 Scout 约 89%。一个 1.5B 活跃参数的模型追上了 17B+ 模型的表现。

数学推理

基准前代新版提升
MATH50074.8088.76+13.96
AIME2510.0062.80+52.80

AIME25 从 10% 到 62.8% 的提升同样惊人——这基本是从"盲猜"到"真能解题"的质变。

架构详解:MoE + GQA + Gated Conv

LFM2.5-8B-A1B 的架构组合非常经典:

1. Mixture-of-Experts (MoE)

仅激活 1.5B 参数中的 8.5B,实现"大模型容量 + 小模型推理速度"。Transformer FFN 层被替换为多个专家网络,路由网络选择激活哪些专家。

2. Grouped Query Attention (GQA)

多个 query 共享同一个 key-value 对,大幅减少 KV Cache 内存占用。对于 128K 上下文,这是关键优化。

3. Gated Short Convolution

在 FFN 中引入轻量级卷积层,增强局部模式捕捉能力。这是 Liquid AI 从 LFM 系列继承的标志性设计。

三者组合的效果:在 Apple M4 MacBook Pro 上可达 55-73 tok/s,甚至比 Llama 3.2 3B 还快约 40%。

部署实践

支持框架

Liquid AI 提供了 day-one 支持:

# llama.cpp./llama-cli-mLFM2.5-8B-A1B-Q4_K_M.gguf-p"Hello"-ngl99# MLX(Apple Silicon)mlx_lm.generate--modelliquid-ai/LFM2.5-8B-A1B --max-tokens1024# vLLMvllm serve liquid-ai/LFM2.5-8B-A1B --max-model-len128000# SGLangpython3-msglang.launch_server--modelliquid-ai/LFM2.5-8B-A1B

本地部署体验

在 M4 MacBook Pro 上的实测数据:

设备: Apple M4 Pro (14 核) 量化: Q4_K_M (GGUF) 推理速度: 55-73 tok/s 内存占用: ~3.2GB 上下文: 128K tokens

速度远超同尺寸模型(如 Qwen2.5-7B 约 30-40 tok/s),内存占用适中,可以在一台办公笔记本上流畅运行完整 128K 上下文的 agentic 应用

Tool Calling 能力:核心竞争力

LFM2.5-8B-A1B 被设计为"on-device personal assistant"(设备端个人助手)。它在 Berkeley Function Calling Leaderboard (BFCL) 上的表现:

维度得分
Simple Function96.03
Multiple Function95.56
Parallel Function95.12
Relevance Detection87.33
Overall93.19

93.19% 的综合得分意味着:它可以可靠地链式调用工具,适合构建 agentic 应用——比如自动读取邮件、查询天气、设置日历、调用 API,全在本地完成。

与竞品对比

模型活跃参数上下文IFEvalBFCLM4 推理速度
LFM2.5-8B-A1B1.5B128K91.8493.1955-73 tok/s
Llama 4 Scout17B256K~89~85~25 tok/s
Qwen2.5-7B7B128K~85~8030-40 tok/s
Gemini 2.0 Flash-1M~88~90云端

关键发现:LFM2.5-8B-A1B 在 1.5B 活跃参数下实现了对标 17B 模型的指令遵循和 tool calling 能力,同时推理速度快 2-3 倍。

实际应用场景

1. 本地 AI 助手(取代云端 API)

适合企业数据敏感场景:全部推理在本地完成,数据不外传。BNP Paribas 的 KYC 场景类似。

fromopenaiimportOpenAI client=OpenAI(base_url="http://localhost:8000/v1",api_key="local")response=client.chat.completions.create(model="LFM2.5-8B-A1B",messages=[{"role":"user","content":"分析这份 PDF 合同中的风险条款"}],tools=[{"type":"function","function":{"name":"search_contract",...}}])

2. 代码审查助手

128K 上下文足够输入完整代码库的子模块。配合 tool calling,可实现自动 PR 审查。

3. 端侧 Agent 应用

我做的 zidongai.com.cn 平台正在测试用它来做本地智能客服——不需要昂贵的云端 GPU,普通 Mac Mini 就能跑。

总结与展望

LFM2.5-8B-A1B 代表了 AI 发展的重要趋势:不是一味追求参数规模,而是追求在有限算力下的最佳性能

  • 推理模型 + MoE 的组合被证明有效,1.5B 活跃参数打平 17B 模型
  • 38T tokens 的预训练 + RL 后训练让非幻觉率从 7% 飙升到 63%
  • 128K 上下文 + 2x 词表解决了长文档和非拉丁语系的支持问题
  • Tool calling 93%+为 agentic 应用铺平了道路

对于关注边缘计算、隐私保护和成本优化的开发者来说,这个模型值得立即上手测试。

我的持续更新的 AI 工具评测站 zidongai.com.cn 提供更多本地模型部署教程和对比数据,欢迎访问。


参考链接:

  • Liquid AI Official Blog
  • Hugging Face: LFM2.5-8B-A1B
  • HN Discussion (138 points)
http://www.rkmt.cn/news/1429763.html

相关文章:

  • 闽侯经济纠纷律师评测推荐:从胜诉实绩看服务靠谱度 - 速递信息
  • AI技能化落地:从对话式大模型到可生产、可复用的AI工程体系
  • MTKClient核心技术深度解析:联发科设备底层调试与修复实战指南
  • 如何从平台依赖者转变为数据主权者:WeChatMsg重塑你的数字记忆管理方式
  • 2026 年 Q2 江汉区空调回收公司排名:本地 TOP5 靠谱推荐及其电话 - 武汉宅到家
  • IFC文件除了在线预览,还能免费转成STL/OBJ?这个工具一步搞定
  • 【基础知识】Python入门:集合
  • 神奇的内存管家:Mem Reduct如何让你的Windows电脑重获新生
  • 2026 年中国 AI 创业风向转变:零一万物、百川智能转型,下半场聚焦产品与生存
  • 190、运动控制中的行业应用:半导体设备(晶圆搬运)
  • 踩坑实录:Win11系统下为Jupyter配置MATLAB内核,我遇到的3个报错及解决办法
  • 27考研杨攀|任燕翔|卢欣粉笔101公共课全程班网课讲义PDF
  • 告别资源焦虑:用USB转接芯片CH347在安卓电视盒上DIY一个多功能调试工具(SPI/I2C/GPIO监控与编程)
  • Go2 ROS2 SDK架构揭秘:构建四足机器人的分布式智能控制系统
  • 183、运动控制中的行业应用:工业机器人(六轴)
  • 如何在10分钟内训练专业级AI语音转换模型:Retrieval-based-Voice-Conversion-WebUI终极指南
  • 2026 年 5 月 消防智能照明哪家强?中山国标应急照明厂家权威 top5 榜单 - 资讯纵览
  • ESP32+GC9A01圆形屏玩转视频播放:深入解析SPI驱动与TF卡文件系统那些事儿
  • 保姆级教程:在Ubuntu 20.04上用GTSAM 4.1.1实现IMU预积分因子图优化
  • QMC-Decoder终极指南:快速解锁QQ音乐加密文件,实现音频格式自由转换
  • Kiro MCP + Bedrock 实战:IDE 里测 Prompt、查向量库、调试 RAG 一条龙
  • 修复了国外服务器出现的错误
  • 深度解析10款降AI率网站:找到导师推荐的“无痕降AIGC”终极方案
  • Pythonasyncio子进程管理
  • 从“水缸”到“高速公路”:用生活化比喻彻底搞懂电容的滤波、旁路与去耦(附LTspice仿真)
  • 原型设计工具对比与校园失物招领系统原型设计
  • 别再只会用PEC了!CST材料库保姆级使用指南:从Normal介质到Lossy Metal的实战选择
  • 科瑞昌省电空调选购指南:工业大空间降温选型全攻略 - 资讯纵览
  • Android音乐播放器实战工程:带用户系统、本地数据库与四大组件完整实现
  • 智能电视上网难?TV Bro电视浏览器如何让大屏浏览变得轻松愉悦?