MinerU2.5 Pro技术解析:1.2B参数SOTA PDF解析模型,完整部署教程(Transformers/vLLM/SGLang/Docker)
一、简介
MinerU2.5 Pro(opendatalab/MinerU2.5-Pro-2604-1.2B)是 OpenDataLab 发布的最新文档解析模型,专注于PDF → Markdown的高精度转换任务。
- 📄 论文:arxiv:2604.04771
该模型基于 Qwen2-VL 1.2B 架构,通过大规模高质量数据工程,在 OmniDocBench v1.6 上超越 GPT-4o、Gemini 等商业模型,创下开源文档解析新基准。
二、核心能力
| 能力 | 说明 |
|---|---|
| 文本识别 | 多语言、多字体,保留段落逻辑顺序 |
| 表格解析 | 复杂合并单元格,标准 Markdown 输出 |
| 公式识别 | 内联与块级 LaTeX,识别率行业领先 |
| 布局分析 | 多栏布局正确排序,图文分离 |
| 段落合并 | 跨页/跨栏截断文本自动合并 |
三、环境准备
# Python >= 3.9pipinstallmagic-pdf"transformers>=4.52.0"torch accelerate四、快速使用(Transformers)
fromtransformersimportAutoProcessor,AutoModelForImageTextToTextimporttorch model_id="opendatalab/MinerU2.5-Pro-2604-1.2B"# 加载模型和处理器processor=AutoProcessor.from_pretrained(model_id)model=AutoModelForImageTextToText.from_pretrained(model_id,torch_dtype=torch.bfloat16,device_map="auto")# 构建输入(以图片形式传入PDF页面)messages=[{"role":"user","content":[{"type":"image","url":"https://your-pdf-page-image.png"},{"type":"text","text":"Parse this document page to structured Markdown."}]}]# 推理inputs=processor.apply_chat_template(messages,add_generation_prompt=True,tokenize=True,return_dict=True,return_tensors="pt",).to(model.device)outputs=model.generate(**inputs,max_new_tokens=2048,do_sample=False)result=processor.decode(outputs[0][inputs["input_ids"].shape[-1]:],skip_special_tokens=True)print(result)五、vLLM 生产部署
pipinstallvllm# 启动服务(OpenAI 兼容 API)vllm serve"opendatalab/MinerU2.5-Pro-2604-1.2B"\--host0.0.0.0\--port8000\--dtypebfloat16\--max-model-len8192Python 客户端调用:
fromopenaiimportOpenAIimportbase64 client=OpenAI(base_url="http://localhost:8000/v1",api_key="dummy")withopen("page.png","rb")asf:img_b64=base64.b64encode(f.read()).decode()response=client.chat.completions.create(model="opendatalab/MinerU2.5-Pro-2604-1.2B",messages=[{"role":"user","content":[{"type":"text","text":"Parse this PDF page to Markdown. Preserve all tables, formulas, and structure."},{"type":"image_url","image_url":{"url":f"data:image/png;base64,{img_b64}"}}]}],max_tokens=2048)print(response.choices[0].message.content)六、SGLang 高性能部署
pipinstallsglang python3-msglang.launch_server\--model-path"opendatalab/MinerU2.5-Pro-2604-1.2B"\--host0.0.0.0\--port30000七、Docker 容器化部署
dockerrun--gpusall\--shm-size 32g\-p30000:30000\-v~/.cache/huggingface:/root/.cache/huggingface\--env"HF_TOKEN=your_token_here"\--ipc=host\lmsysorg/sglang:latest\python3-msglang.launch_server\--model-path"opendatalab/MinerU2.5-Pro-2604-1.2B"\--host0.0.0.0\--port30000八、总结
MinerU2.5 Pro 证明了:数据工程 > 参数规模。在 PDF 解析这个垂直任务上,1.2B 参数的专精模型完全可以超越通用大模型。
适合集成到:RAG 知识库、学术文献管道、企业文档数字化、法律/财务文档处理等场景。
- 🌐 官网:https://mineru.net
- 🤗 HuggingFace:https://huggingface.co/opendatalab/MinerU2.5-Pro-2604-1.2B
