Liquid AI 发布 LFM2.5-8B-A1B:38T 训练的 8B 稀疏 MoE 模型,128K 上下文,笔记本就能跑
Liquid AI 发布 LFM2.5-8B-A1B:38T 训练的 8B 稀疏 MoE 模型,128K 上下文,笔记本就能跑
引言
2026 年 5 月 28 日,Liquid AI 正式发布了 LFM2.5-8B-A1B,一款专为边缘设备设计的高效 MoE(Mixture-of-Experts)模型。不同于市面上的大型通用模型,这款仅 8B 总参数、1B 活跃参数的模型在 IFEval 上达到 91.84%,在 AIME25 上达到 62.80%,性能可与 Llama 4 Scout 等 17B 以上模型正面竞争。
本文从技术角度深度解析其架构创新、训练方法论和实际部署方案。
LFM2.5-8B-A1B 技术概览
核心规格
| 参数 | 数值 |
|---|---|
| 总参数量 | 8.5B |
| 活跃参数量 | 1.5B |
| 上下文窗口 | 128,000 tokens |
| 词表大小 | 128,000 |
| 预训练数据 | 38.4T tokens |
| 激活参数比例 | ~17.6% |
| 架构 | MoE + GQA + gated short convolution |
相比前代 LFM2-8B-A1B,新版从 12T 扩展到 38T 预训练数据,上下文从 32K 扩展到 128K,词表从 65,536 扩展到 128,000——后者显著提升了非拉丁语系的 token 化效率。
推理优先:纯推理模型 (Reasoning-only)
LFM2.5-8B-A1B 最大的架构变化是:它不再直接输出答案,而是先产出一个显式思维链 (Chain of Thought),再给出最终答案。
Liquid AI 团队解释这项设计的决策逻辑:
MoE 模型通常在计算受限场景中运行。活跃参数少意味着每个推理 token 的代价很低,因此生成思维链几乎不增加延迟,却能显著提升质量。
从基准测试看,这个决策是正确的——非幻觉率从 7.46% 跃升至 63.47%,提升了 56 个百分点。
基准测试解析
AA-Omniscience Index(综合质量指标)
| 指标 | LFM2-8B-A1B (v1) | LFM2.5-8B-A1B (v2) | 提升 |
|---|---|---|---|
| Omniscience Index | -78.42 | -24.70 | +53.62 |
| Accuracy | 7.33 | 8.67 | +1.34 |
| Non-Hallucination Rate | 7.46 | 63.47 | +56.01 |
非幻觉率提升 56% 是最大的亮点!从几乎不可用(7.46%)到基本可信(63.47%),这是受控 RL 训练 + 推理链带来的质变。
指令遵循能力
| 基准 | 前代 | 新版 | 提升 |
|---|---|---|---|
| IFEval | 79.44 | 91.84 | +12.40 |
| IFBench | 26.00 | 56.47 | +30.47 |
| Multi-IF | 58.54 | 79.93 | +21.39 |
IFEval 91.84% 是什么水平?对比参考:GPT-4 约 85-88%,Llama 4 Scout 约 89%。一个 1.5B 活跃参数的模型追上了 17B+ 模型的表现。
数学推理
| 基准 | 前代 | 新版 | 提升 |
|---|---|---|---|
| MATH500 | 74.80 | 88.76 | +13.96 |
| AIME25 | 10.00 | 62.80 | +52.80 |
AIME25 从 10% 到 62.8% 的提升同样惊人——这基本是从"盲猜"到"真能解题"的质变。
架构详解:MoE + GQA + Gated Conv
LFM2.5-8B-A1B 的架构组合非常经典:
1. Mixture-of-Experts (MoE)
仅激活 1.5B 参数中的 8.5B,实现"大模型容量 + 小模型推理速度"。Transformer FFN 层被替换为多个专家网络,路由网络选择激活哪些专家。
2. Grouped Query Attention (GQA)
多个 query 共享同一个 key-value 对,大幅减少 KV Cache 内存占用。对于 128K 上下文,这是关键优化。
3. Gated Short Convolution
在 FFN 中引入轻量级卷积层,增强局部模式捕捉能力。这是 Liquid AI 从 LFM 系列继承的标志性设计。
三者组合的效果:在 Apple M4 MacBook Pro 上可达 55-73 tok/s,甚至比 Llama 3.2 3B 还快约 40%。
部署实践
支持框架
Liquid AI 提供了 day-one 支持:
# llama.cpp./llama-cli-mLFM2.5-8B-A1B-Q4_K_M.gguf-p"Hello"-ngl99# MLX(Apple Silicon)mlx_lm.generate--modelliquid-ai/LFM2.5-8B-A1B --max-tokens1024# vLLMvllm serve liquid-ai/LFM2.5-8B-A1B --max-model-len128000# SGLangpython3-msglang.launch_server--modelliquid-ai/LFM2.5-8B-A1B本地部署体验
在 M4 MacBook Pro 上的实测数据:
设备: Apple M4 Pro (14 核) 量化: Q4_K_M (GGUF) 推理速度: 55-73 tok/s 内存占用: ~3.2GB 上下文: 128K tokens速度远超同尺寸模型(如 Qwen2.5-7B 约 30-40 tok/s),内存占用适中,可以在一台办公笔记本上流畅运行完整 128K 上下文的 agentic 应用。
Tool Calling 能力:核心竞争力
LFM2.5-8B-A1B 被设计为"on-device personal assistant"(设备端个人助手)。它在 Berkeley Function Calling Leaderboard (BFCL) 上的表现:
| 维度 | 得分 |
|---|---|
| Simple Function | 96.03 |
| Multiple Function | 95.56 |
| Parallel Function | 95.12 |
| Relevance Detection | 87.33 |
| Overall | 93.19 |
93.19% 的综合得分意味着:它可以可靠地链式调用工具,适合构建 agentic 应用——比如自动读取邮件、查询天气、设置日历、调用 API,全在本地完成。
与竞品对比
| 模型 | 活跃参数 | 上下文 | IFEval | BFCL | M4 推理速度 |
|---|---|---|---|---|---|
| LFM2.5-8B-A1B | 1.5B | 128K | 91.84 | 93.19 | 55-73 tok/s |
| Llama 4 Scout | 17B | 256K | ~89 | ~85 | ~25 tok/s |
| Qwen2.5-7B | 7B | 128K | ~85 | ~80 | 30-40 tok/s |
| Gemini 2.0 Flash | - | 1M | ~88 | ~90 | 云端 |
关键发现:LFM2.5-8B-A1B 在 1.5B 活跃参数下实现了对标 17B 模型的指令遵循和 tool calling 能力,同时推理速度快 2-3 倍。
实际应用场景
1. 本地 AI 助手(取代云端 API)
适合企业数据敏感场景:全部推理在本地完成,数据不外传。BNP Paribas 的 KYC 场景类似。
fromopenaiimportOpenAI client=OpenAI(base_url="http://localhost:8000/v1",api_key="local")response=client.chat.completions.create(model="LFM2.5-8B-A1B",messages=[{"role":"user","content":"分析这份 PDF 合同中的风险条款"}],tools=[{"type":"function","function":{"name":"search_contract",...}}])2. 代码审查助手
128K 上下文足够输入完整代码库的子模块。配合 tool calling,可实现自动 PR 审查。
3. 端侧 Agent 应用
我做的 zidongai.com.cn 平台正在测试用它来做本地智能客服——不需要昂贵的云端 GPU,普通 Mac Mini 就能跑。
总结与展望
LFM2.5-8B-A1B 代表了 AI 发展的重要趋势:不是一味追求参数规模,而是追求在有限算力下的最佳性能。
- 推理模型 + MoE 的组合被证明有效,1.5B 活跃参数打平 17B 模型
- 38T tokens 的预训练 + RL 后训练让非幻觉率从 7% 飙升到 63%
- 128K 上下文 + 2x 词表解决了长文档和非拉丁语系的支持问题
- Tool calling 93%+为 agentic 应用铺平了道路
对于关注边缘计算、隐私保护和成本优化的开发者来说,这个模型值得立即上手测试。
我的持续更新的 AI 工具评测站 zidongai.com.cn 提供更多本地模型部署教程和对比数据,欢迎访问。
参考链接:
- Liquid AI Official Blog
- Hugging Face: LFM2.5-8B-A1B
- HN Discussion (138 points)
