当前位置：首页 > news >正文

MiniCPM5-1B震撼发布：10亿参数端侧AI模型如何突破性能极限？

news 2026/6/1 21:58:57

MiniCPM5-1B震撼发布：10亿参数端侧AI模型如何突破性能极限？

【免费下载链接】MiniCPM5-1BMiniCPM5-1B，这是 MiniCPM5 系列的首款模型。它是一个专为端侧、本地部署和资源受限场景打造的 10 亿参数密集型 Transformer 模型，达到了 10 亿参数级开源模型的 SOTA 水平项目地址: https://ai.gitcode.com/OpenBMB/MiniCPM5-1B

MiniCPM5-1B是OpenBMB开源社区推出的首款MiniCPM5系列模型，作为专为端侧、本地部署和资源受限场景打造的10亿参数密集型Transformer模型，它一举达到了10亿参数级开源模型的SOTA水平，为边缘计算场景带来了革命性的AI能力。

🌟 核心亮点：重新定义10亿参数模型性能边界

🏆 10亿参数级开源SOTA

在同类规模模型中，MiniCPM5-1B展现出显著优势，尤其在智能工具使用、代码生成和复杂推理任务上表现突出。通过与LFM2.5-1.2B-Thinking、Qwen3-0.6B/think等强基线模型对比，其综合性能处于开源模型领先地位。

🧠 混合推理模式

内置创新的</think>聊天模板，通过enable_thinking参数即可切换推理模式。同一模型 checkpoint 既能作为快速响应助手，又能变身深度推理专家，满足不同场景需求。

🛠️ 多框架部署支持

采用标准LlamaForCausalLM架构，无需自定义内核或修改模型代码，主流推理引擎可直接加载。支持vLLM、SGLang、Transformers、llama.cpp等多种部署方式，适配从云端到边缘的全场景应用。

🚀 性能突破：RL + OPD技术双引擎驱动

MiniCPM5-1B的训练采用UltraData分层数据管理全栈方案，涵盖基础训练、中期训练和后期训练三个阶段。其中RL（强化学习）+ OPD（On-Policy Distillation）技术组合是性能飞跃的关键：

推理能力提升：在数学、代码和指令遵循任务上平均分数提升16分
效率优化：超长响应（达到最大token限制）比例降低29个百分点
双阶段推理管道：结合长度调度策略，在提升推理准确性的同时有效控制输出长度

💻 极速部署指南：3分钟启动本地AI助手

环境准备

首先克隆项目仓库：

git clone https://gitcode.com/OpenBMB/MiniCPM5-1B cd MiniCPM5-1B

主流部署方式

1. vLLM快速部署

pip install "vllm>=0.21" vllm serve openbmb/MiniCPM5-1B --port 8000

2. SGLang部署（推荐工具调用场景）

pip install "sglang[srt]>=0.5.12" python -m sglang.launch_server --model-path openbmb/MiniCPM5-1B --port 30000

3. Transformers基础部署

pip install -U "transformers>=5.6" accelerate torch

from transformers import AutoModelForCausalLM, AutoTokenizer model_id = "openbmb/MiniCPM5-1B" tokenizer = AutoTokenizer.from_pretrained(model_id) model = AutoModelForCausalLM.from_pretrained( model_id, torch_dtype="auto", device_map="auto", ) messages = [{"role": "user", "content": "介绍一下你自己"}] inputs = tokenizer.apply_chat_template( messages, tokenize=True, add_generation_prompt=True, enable_thinking=False, return_dict=True, return_tensors="pt", ).to(model.device) outputs = model.generate(**inputs, max_new_tokens=128) print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True))