MinerU — 把 PDF 变成 LLM 能吃的结构化数据
上篇写了 MarkItDown,微软出的通用文件转Markdown 工具。今天这篇聊 MinerU——一个更专注、更狠的文档解析引擎。
如果说 MarkItDown 是"瑞士军刀",什么格式都能转;那 MinerU 就是"手术刀",专门对付最难啃的 PDF——扫描件、多栏排版、跨页表格、数学公式、手写体,这些让普通解析器哭出来的场景。
MinerU 是什么?
MinerU 由 OpenDataLab(上海人工智能实验室)开源,最初是在 InternLM 大模型预训练过程中为了解决科学文献中的符号转换问题而开发的。
一句话:把 PDF、图片、Word、PPT、Excel 转成结构化的 Markdown 和 JSON,专门给 LLM、RAG、Agent 工作流用。
当前最新版本 3.1.0(2026年4月),主要变化:
- 许可证从 AGPLv3 改为基于 Apache 2.0 的 MinerU 开源许可证,商用门槛大幅降低
- VLM 主模型升级到 MinerU2.5-Pro-2604-1.2B,解析精度达到 SOTA
- 新增 PPTX 和 XLSX 原生解析支持
GitHub 地址:https://github.com/opendatalab/MinerU
核心能力
支持哪些输入?
| 格式 | 说明 |
|---|---|
| 原生 PDF + 扫描件 + 乱码 PDF | |
| 图片 | 各种图片格式,支持 OCR |
| Word (.docx) | 原生解析,不需要先转 PDF |
| PowerPoint (.pptx) | 3.0 起原生支持 |
| Excel (.xlsx) | 3.0 起原生支持 |
输出什么?
- Markdown:保留标题层级、列表、表格结构,适合 LLM 直接消费
- JSON:按阅读顺序排序的结构化数据
- LaTeX:文档中的数学公式自动转 LaTeX
- HTML:表格自动转 HTML 表格,保留行列结构
- 中间格式:富中间格式,包含版面分析结果
具体能做什么?
- 自动去除页眉、页脚、脚注、页码,保证语义连贯
- 按人类阅读顺序输出文本(单栏、多栏、复杂排版都支持)
- 跨页表格自动合并
- 扫描件/乱码 PDF 自动检测并启用 OCR
- OCR 支持 109 种语言识别
- 表格内的图片和公式也能识别
- 竖排文字、印章文字识别
- 行间公式编号识别
三种解析引擎
MinerU 提供三种后端,根据需求选:
| 引擎 | 精度 | 硬件要求 | 特点 |
|---|---|---|---|
| pipeline | 85+ | CPU 可跑,4GB 显存即可 | 快速稳定,不产生幻觉,适合大批量生产 |
| vlm-engine | 95+ | 8GB+ 显存 | 高精度,支持 vLLM/LMDeploy/MLX |
| hybrid-engine | 95+ | 8GB+ 显存 | 高精度 + 原生文本提取,低幻觉 |
精度数据来自 OmniDocBench (v1.6) 的 End-to-End Evaluation Overall 分数。
pipeline 引擎是生产环境的首选——纯 CPU 就能跑,资源占用极低,精度 85+ 分已经够用。需要更高精度时再上 VLM 引擎。
快速上手
安装
pip install --upgrade pip
pip install uv
uv pip install -U "mineru[all]"
命令行
# GPU 环境(自动选择最优引擎)
mineru -p document.pdf -o output/
# 纯 CPU 环境
mineru -p document.pdf -o output/ -b pipeline
就这么简单。-p 指定输入文件或目录,-o 指定输出目录。
Python API
from mineru import MinerU
mineru = MinerU()
result = mineru.parse("document.pdf")
print(result.markdown)
Docker
# 官方提供 Docker 部署方案,Linux/WSL2 可用
# macOS 用户建议用 pip 安装
在线体验
不想装?先试试在线版:
- 官方 Web 应用:https://mineru.net
- HuggingFace Demo:https://huggingface.co/spaces/opendatalab/MinerU
- ModelScope Demo:https://www.modelscope.cn/studios/OpenDataLab/MinerU
与 RAG 框架集成
MinerU 原生支持主流 RAG 框架:
| 集成方式 | 支持 |
|---|---|
| LangChain | ✅ |
| LlamaIndex | ✅ |
| RAGFlow | ✅ |
| Dify | ✅ |
| FastGPT | ✅ |
| MCP Server | ✅(Cursor/Claude Desktop/Windsurf) |
MCP Server 是个亮点——直接在 Cursor 或 Claude Desktop 里调用 MinerU 解析文档,AI 编码工具也能处理 PDF 了。
工程化能力
3.0 版本做了大量工程优化,不是一个小玩具了:
长文档支持:滑动窗口机制 + 流式写入磁盘,几万页的文档不需要手动拆分。
并发能力:线程安全优化,支持多线程并发推理。配合 mineru-router 可以一键部署多 GPU 服务,自动负载均衡。
API 架构:mineru 现在是基于 mineru-api 的编排客户端。提供异步任务接口(POST /tasks)和同步解析接口(POST /file_parse),还有 mineru-router 做多服务统一入口。
国产化支持:支持昇腾、寒武纪、壁仞、海光等 10+ 国产 AI 芯片。
跟 MarkItDown 怎么选?
| MinerU | MarkItDown | |
|---|---|---|
| 定位 | 高精度 PDF 解析专用 | 通用文件格式转换 |
| 公式 | 自动转 LaTeX | 不支持 |
| 表格 | 自动转 HTML,跨页合并 | 转 Markdown 表格 |
| 扫描件 | 自动 OCR,109 语言 | 基础 OCR |
| 多栏排版 | 按阅读顺序重建 | 基本支持 |
| 硬件需求 | GPU 推荐,CPU 也可 | 纯 CPU |
| 集成 | RAG 框架 + MCP Server | Python API + CLI |
| 适合场景 | 学术论文、合同、报表等复杂文档 | 日常办公文件批量转换 |
简单说:处理复杂 PDF(论文、报表、合同)用 MinerU;批量转 Office 文件用 MarkItDown。两者不冲突,可以组合使用。
实际工作流示例
一个典型的 RAG 预处理管道:
用户上传 PDF/Word/Excel/PPT
↓
MinerU 解析
├── PDF → 版面分析 → OCR → 公式/LaTeX + 表格/HTML + 文本
├── Word → 原生解析 → 保留结构
├── PPT → 逐页提取
└── Excel → 表格转 HTML
↓
输出 Markdown/JSON
↓
分块 → 向量化 → 存入向量数据库
↓
RAG 检索增强
许可证变化
2026年4月的 3.1.0 版本把许可证从 AGPLv3 改成了基于 Apache 2.0 的自定义开源许可证。AGPLv3 的传染性很强,任何使用 MinerU 的服务都需要开源,这对商业部署是很大的障碍。新许可证大幅降低了集成门槛,商用友好得多。
总结
MinerU 是 PDF 解析领域的"重武器"。如果你在做 RAG 系统、知识库、或者需要处理大量复杂文档(论文、合同、报表),MinerU 的公式识别、表格提取、多栏排版重建能力是其他工具很难替代的。
项目地址:https://github.com/opendatalab/MinerU
安装:uv pip install -U "mineru[all]"
在线体验:https://mineru.net
一句话:把最难啃的 PDF 变成 LLM 能吃的结构化数据。
