当前位置：首页 > news >正文

Liquid AI 发布 LFM2.5-8B-A1B：38T 训练的 8B 稀疏 MoE 模型，128K 上下文，笔记本就能跑

news 2026/5/30 20:41:32

Liquid AI 发布 LFM2.5-8B-A1B：38T 训练的 8B 稀疏 MoE 模型，128K 上下文，笔记本就能跑

引言

2026 年 5 月 28 日，Liquid AI 正式发布了 LFM2.5-8B-A1B，一款专为边缘设备设计的高效 MoE（Mixture-of-Experts）模型。不同于市面上的大型通用模型，这款仅 8B 总参数、1B 活跃参数的模型在 IFEval 上达到 91.84%，在 AIME25 上达到 62.80%，性能可与 Llama 4 Scout 等 17B 以上模型正面竞争。

本文从技术角度深度解析其架构创新、训练方法论和实际部署方案。

LFM2.5-8B-A1B 技术概览

核心规格

参数	数值
总参数量	8.5B
活跃参数量	1.5B
上下文窗口	128,000 tokens
词表大小	128,000
预训练数据	38.4T tokens
激活参数比例	~17.6%
架构	MoE + GQA + gated short convolution

相比前代 LFM2-8B-A1B，新版从 12T 扩展到 38T 预训练数据，上下文从 32K 扩展到 128K，词表从 65,536 扩展到 128,000——后者显著提升了非拉丁语系的 token 化效率。

推理优先：纯推理模型 (Reasoning-only)

LFM2.5-8B-A1B 最大的架构变化是：它不再直接输出答案，而是先产出一个显式思维链 (Chain of Thought)，再给出最终答案。

Liquid AI 团队解释这项设计的决策逻辑：

MoE 模型通常在计算受限场景中运行。活跃参数少意味着每个推理 token 的代价很低，因此生成思维链几乎不增加延迟，却能显著提升质量。

从基准测试看，这个决策是正确的——非幻觉率从 7.46% 跃升至 63.47%，提升了 56 个百分点。

基准测试解析

AA-Omniscience Index（综合质量指标）

指标	LFM2-8B-A1B (v1)	LFM2.5-8B-A1B (v2)	提升
Omniscience Index	-78.42	-24.70	+53.62
Accuracy	7.33	8.67	+1.34
Non-Hallucination Rate	7.46	63.47	+56.01

非幻觉率提升 56% 是最大的亮点！从几乎不可用（7.46%）到基本可信（63.47%），这是受控 RL 训练 + 推理链带来的质变。

指令遵循能力

基准	前代	新版	提升
IFEval	79.44	91.84	+12.40
IFBench	26.00	56.47	+30.47
Multi-IF	58.54	79.93	+21.39

IFEval 91.84% 是什么水平？对比参考：GPT-4 约 85-88%，Llama 4 Scout 约 89%。一个 1.5B 活跃参数的模型追上了 17B+ 模型的表现。

数学推理

基准	前代	新版	提升
MATH500	74.80	88.76	+13.96
AIME25	10.00	62.80	+52.80

AIME25 从 10% 到 62.8% 的提升同样惊人——这基本是从"盲猜"到"真能解题"的质变。

架构详解：MoE + GQA + Gated Conv

LFM2.5-8B-A1B 的架构组合非常经典：

1. Mixture-of-Experts (MoE)

仅激活 1.5B 参数中的 8.5B，实现"大模型容量 + 小模型推理速度"。Transformer FFN 层被替换为多个专家网络，路由网络选择激活哪些专家。

2. Grouped Query Attention (GQA)

多个 query 共享同一个 key-value 对，大幅减少 KV Cache 内存占用。对于 128K 上下文，这是关键优化。

3. Gated Short Convolution

在 FFN 中引入轻量级卷积层，增强局部模式捕捉能力。这是 Liquid AI 从 LFM 系列继承的标志性设计。

三者组合的效果：在 Apple M4 MacBook Pro 上可达 55-73 tok/s，甚至比 Llama 3.2 3B 还快约 40%。

部署实践

支持框架

Liquid AI 提供了 day-one 支持：

# llama.cpp./llama-cli-mLFM2.5-8B-A1B-Q4_K_M.gguf-p"Hello"-ngl99# MLX（Apple Silicon）mlx_lm.generate--modelliquid-ai/LFM2.5-8B-A1B --max-tokens1024# vLLMvllm serve liquid-ai/LFM2.5-8B-A1B --max-model-len128000# SGLangpython3-msglang.launch_server--modelliquid-ai/LFM2.5-8B-A1B

本地部署体验

在 M4 MacBook Pro 上的实测数据：

设备: Apple M4 Pro (14 核) 量化: Q4_K_M (GGUF) 推理速度: 55-73 tok/s 内存占用: ~3.2GB 上下文: 128K tokens

速度远超同尺寸模型（如 Qwen2.5-7B 约 30-40 tok/s），内存占用适中，可以在一台办公笔记本上流畅运行完整 128K 上下文的 agentic 应用。

Tool Calling 能力：核心竞争力

LFM2.5-8B-A1B 被设计为"on-device personal assistant"（设备端个人助手）。它在 Berkeley Function Calling Leaderboard (BFCL) 上的表现：

维度	得分
Simple Function	96.03
Multiple Function	95.56
Parallel Function	95.12
Relevance Detection	87.33
Overall	93.19

93.19% 的综合得分意味着：它可以可靠地链式调用工具，适合构建 agentic 应用——比如自动读取邮件、查询天气、设置日历、调用 API，全在本地完成。

与竞品对比

模型	活跃参数	上下文	IFEval	BFCL	M4 推理速度
LFM2.5-8B-A1B	1.5B	128K	91.84	93.19	55-73 tok/s
Llama 4 Scout	17B	256K	~89	~85	~25 tok/s
Qwen2.5-7B	7B	128K	~85	~80	30-40 tok/s
Gemini 2.0 Flash	-	1M	~88	~90	云端

关键发现：LFM2.5-8B-A1B 在 1.5B 活跃参数下实现了对标 17B 模型的指令遵循和 tool calling 能力，同时推理速度快 2-3 倍。

实际应用场景

1. 本地 AI 助手（取代云端 API）

适合企业数据敏感场景：全部推理在本地完成，数据不外传。BNP Paribas 的 KYC 场景类似。

fromopenaiimportOpenAI client=OpenAI(base_url="http://localhost:8000/v1",api_key="local")response=client.chat.completions.create(model="LFM2.5-8B-A1B",messages=[{"role":"user","content":"分析这份 PDF 合同中的风险条款"}],tools=[{"type":"function","function":{"name":"search_contract",...}}])