当前位置: 首页 > news >正文

MinerU2.5 Pro技术解析:1.2B参数SOTA PDF解析模型,完整部署教程(Transformers/vLLM/SGLang/Docker)

一、简介

MinerU2.5 Pro(opendatalab/MinerU2.5-Pro-2604-1.2B)是 OpenDataLab 发布的最新文档解析模型,专注于PDF → Markdown的高精度转换任务。

  • 📄 论文:arxiv:2604.04771

该模型基于 Qwen2-VL 1.2B 架构,通过大规模高质量数据工程,在 OmniDocBench v1.6 上超越 GPT-4o、Gemini 等商业模型,创下开源文档解析新基准。


二、核心能力

能力说明
文本识别多语言、多字体,保留段落逻辑顺序
表格解析复杂合并单元格,标准 Markdown 输出
公式识别内联与块级 LaTeX,识别率行业领先
布局分析多栏布局正确排序,图文分离
段落合并跨页/跨栏截断文本自动合并

三、环境准备

# Python >= 3.9pipinstallmagic-pdf"transformers>=4.52.0"torch accelerate

四、快速使用(Transformers)

fromtransformersimportAutoProcessor,AutoModelForImageTextToTextimporttorch model_id="opendatalab/MinerU2.5-Pro-2604-1.2B"# 加载模型和处理器processor=AutoProcessor.from_pretrained(model_id)model=AutoModelForImageTextToText.from_pretrained(model_id,torch_dtype=torch.bfloat16,device_map="auto")# 构建输入(以图片形式传入PDF页面)messages=[{"role":"user","content":[{"type":"image","url":"https://your-pdf-page-image.png"},{"type":"text","text":"Parse this document page to structured Markdown."}]}]# 推理inputs=processor.apply_chat_template(messages,add_generation_prompt=True,tokenize=True,return_dict=True,return_tensors="pt",).to(model.device)outputs=model.generate(**inputs,max_new_tokens=2048,do_sample=False)result=processor.decode(outputs[0][inputs["input_ids"].shape[-1]:],skip_special_tokens=True)print(result)

五、vLLM 生产部署

pipinstallvllm# 启动服务(OpenAI 兼容 API)vllm serve"opendatalab/MinerU2.5-Pro-2604-1.2B"\--host0.0.0.0\--port8000\--dtypebfloat16\--max-model-len8192

Python 客户端调用:

fromopenaiimportOpenAIimportbase64 client=OpenAI(base_url="http://localhost:8000/v1",api_key="dummy")withopen("page.png","rb")asf:img_b64=base64.b64encode(f.read()).decode()response=client.chat.completions.create(model="opendatalab/MinerU2.5-Pro-2604-1.2B",messages=[{"role":"user","content":[{"type":"text","text":"Parse this PDF page to Markdown. Preserve all tables, formulas, and structure."},{"type":"image_url","image_url":{"url":f"data:image/png;base64,{img_b64}"}}]}],max_tokens=2048)print(response.choices[0].message.content)

六、SGLang 高性能部署

pipinstallsglang python3-msglang.launch_server\--model-path"opendatalab/MinerU2.5-Pro-2604-1.2B"\--host0.0.0.0\--port30000

七、Docker 容器化部署

dockerrun--gpusall\--shm-size 32g\-p30000:30000\-v~/.cache/huggingface:/root/.cache/huggingface\--env"HF_TOKEN=your_token_here"\--ipc=host\lmsysorg/sglang:latest\python3-msglang.launch_server\--model-path"opendatalab/MinerU2.5-Pro-2604-1.2B"\--host0.0.0.0\--port30000

八、总结

MinerU2.5 Pro 证明了:数据工程 > 参数规模。在 PDF 解析这个垂直任务上,1.2B 参数的专精模型完全可以超越通用大模型。

适合集成到:RAG 知识库、学术文献管道、企业文档数字化、法律/财务文档处理等场景。

  • 🌐 官网:https://mineru.net
  • 🤗 HuggingFace:https://huggingface.co/opendatalab/MinerU2.5-Pro-2604-1.2B
http://www.rkmt.cn/news/1465987.html

相关文章:

  • 给Jetson Nano B01换颗‘中国心’:手把手教你配置清华源并安装Python全家桶
  • C#上位机开发笔记:封装一个稳定可靠的欧姆龙NX PLC通信类库(附源码)
  • 用NodeMCU和Blinker自制万能红外遥控器,手把手教你让旧家电秒变智能(附完整代码)
  • Anaconda安装后必做的三件事:验证、配环境变量、创建你的第一个Python 3.8虚拟空间
  • 别再死磕D-H参数了!用Matlab Robotic Toolbox 10.4快速复现一个四轴机械臂(附完整代码)
  • LLM投毒:大模型数据层精准攻击与七道防御体系
  • 保姆级教程:用ROS和MAVROS搞定PX4 Offboard模式(附避坑指南)
  • 正统传承视角下的汕头高端私房菜核心技术标准拆解 - 奔跑123
  • 从漏洞原理到安全加固:手把手带你分析并修复ActiveMQ 5.x的Fileserver漏洞
  • 从自动驾驶到商品推荐:聊聊Smooth L1 Loss为何成了YOLO、Faster R-CNN的‘心头好’
  • MCP会成为AI时代的新中间件吗?
  • 挑选好用的固体饮料贴牌公司可以参考哪些参考依据?
  • 2026上海浦东可长短租的服务公寓!商务家庭租住全能适配 - 资讯速览
  • 真空脱泡搅拌机常见问题解答(2026最新专家版) - 资讯速览
  • 2026贵阳近郊烧烤山庄与团建聚餐一站式服务深度指南 - 企业名录优选推荐
  • HFSS新手避坑指南:手把手教你搞定威尔金森功分器仿真(附参数文件)
  • 从云端到边缘:基于土星云SE110S的智能视频分析轻量化部署方案(下)
  • 2026杭州室内游玩乐园新地标TOP5|室内浪漫避雨避晒,城市秘境成热门首选 - 资讯速览
  • HR系统选型第一步不是看产品,是做这件事|90%的人顺序搞反了
  • 2026年宜宾高县水上赛事完全选购指南 - 企业名录优选推荐
  • 提升学历,为什么一定要选正规函授站?本部、中介、函授站到底差在哪? - 奔跑123
  • 从0到1:打造99.99%高可用在线CRM系统的技术架构与实践
  • Web渗透之SQL注入-文件读写-木马植入
  • 告别百度地图API!用JTS+GeoTools搞定Java空间几何计算(含坐标系转换避坑)
  • MuleSoft+LLM企业级AI编排实战:语义集成与生产级防护
  • 3步搞定B站视频转文字:免费工具让知识提取更简单
  • 告别光猫拨号!用R2S软路由做主路由,搭配OpenWrt实现全屋网络自由(附AP模式设置)
  • 微软 Rayfin:改善开发流程,助力企业 AI 治理与运营!
  • HsMod:如何通过55项功能彻底优化你的炉石传说游戏体验
  • 百考通助手:AI精准赋能文献综述,让学术梳理高效又专业