MinerU — 把 PDF 变成 LLM 能吃的结构化数据

2026年6月1日 · 阅读需 6 分钟

一介布衣

全栈开发者

上篇写了 MarkItDown，微软出的通用文件转Markdown 工具。今天这篇聊 MinerU——一个更专注、更狠的文档解析引擎。

如果说 MarkItDown 是"瑞士军刀"，什么格式都能转；那 MinerU 就是"手术刀"，专门对付最难啃的 PDF——扫描件、多栏排版、跨页表格、数学公式、手写体，这些让普通解析器哭出来的场景。

MinerU 是什么？

MinerU 由 OpenDataLab（上海人工智能实验室）开源，最初是在 InternLM 大模型预训练过程中为了解决科学文献中的符号转换问题而开发的。

一句话：把 PDF、图片、Word、PPT、Excel 转成结构化的 Markdown 和 JSON，专门给 LLM、RAG、Agent 工作流用。

当前最新版本 3.1.0（2026年4月），主要变化：

许可证从 AGPLv3 改为基于 Apache 2.0 的 MinerU 开源许可证，商用门槛大幅降低
VLM 主模型升级到 MinerU2.5-Pro-2604-1.2B，解析精度达到 SOTA
新增 PPTX 和 XLSX 原生解析支持

GitHub 地址：https://github.com/opendatalab/MinerU

核心能力

支持哪些输入？

格式	说明
PDF	原生 PDF + 扫描件 + 乱码 PDF
图片	各种图片格式，支持 OCR
Word (.docx)	原生解析，不需要先转 PDF
PowerPoint (.pptx)	3.0 起原生支持
Excel (.xlsx)	3.0 起原生支持

输出什么？

Markdown：保留标题层级、列表、表格结构，适合 LLM 直接消费
JSON：按阅读顺序排序的结构化数据
LaTeX：文档中的数学公式自动转 LaTeX
HTML：表格自动转 HTML 表格，保留行列结构
中间格式：富中间格式，包含版面分析结果

具体能做什么？

自动去除页眉、页脚、脚注、页码，保证语义连贯
按人类阅读顺序输出文本（单栏、多栏、复杂排版都支持）
跨页表格自动合并
扫描件/乱码 PDF 自动检测并启用 OCR
OCR 支持 109 种语言识别
表格内的图片和公式也能识别
竖排文字、印章文字识别
行间公式编号识别

三种解析引擎

MinerU 提供三种后端，根据需求选：

引擎	精度	硬件要求	特点
pipeline	85+	CPU 可跑，4GB 显存即可	快速稳定，不产生幻觉，适合大批量生产
vlm-engine	95+	8GB+ 显存	高精度，支持 vLLM/LMDeploy/MLX
hybrid-engine	95+	8GB+ 显存	高精度 + 原生文本提取，低幻觉

精度数据来自 OmniDocBench (v1.6) 的 End-to-End Evaluation Overall 分数。

pipeline 引擎是生产环境的首选——纯 CPU 就能跑，资源占用极低，精度 85+ 分已经够用。需要更高精度时再上 VLM 引擎。

快速上手

安装

pip install --upgrade pip
pip install uv
uv pip install -U "mineru[all]"

命令行

# GPU 环境（自动选择最优引擎）
mineru -p document.pdf -o output/

# 纯 CPU 环境
mineru -p document.pdf -o output/ -b pipeline

就这么简单。-p 指定输入文件或目录，-o 指定输出目录。

Python API

from mineru import MinerU

mineru = MinerU()
result = mineru.parse("document.pdf")
print(result.markdown)

Docker

# 官方提供 Docker 部署方案，Linux/WSL2 可用
# macOS 用户建议用 pip 安装

在线体验

不想装？先试试在线版：

官方 Web 应用：https://mineru.net
HuggingFace Demo：https://huggingface.co/spaces/opendatalab/MinerU
ModelScope Demo：https://www.modelscope.cn/studios/OpenDataLab/MinerU

与 RAG 框架集成

MinerU 原生支持主流 RAG 框架：

集成方式	支持
LangChain	✅
LlamaIndex	✅
RAGFlow	✅
Dify	✅
FastGPT	✅
MCP Server	✅（Cursor/Claude Desktop/Windsurf）

MCP Server 是个亮点——直接在 Cursor 或 Claude Desktop 里调用 MinerU 解析文档，AI 编码工具也能处理 PDF 了。

工程化能力

3.0 版本做了大量工程优化，不是一个小玩具了：

长文档支持：滑动窗口机制 + 流式写入磁盘，几万页的文档不需要手动拆分。

并发能力：线程安全优化，支持多线程并发推理。配合 mineru-router 可以一键部署多 GPU 服务，自动负载均衡。

API 架构：mineru 现在是基于 mineru-api 的编排客户端。提供异步任务接口（POST /tasks）和同步解析接口（POST /file_parse），还有 mineru-router 做多服务统一入口。

国产化支持：支持昇腾、寒武纪、壁仞、海光等 10+ 国产 AI 芯片。

跟 MarkItDown 怎么选？

	MinerU	MarkItDown
定位	高精度 PDF 解析专用	通用文件格式转换
公式	自动转 LaTeX	不支持
表格	自动转 HTML，跨页合并	转 Markdown 表格
扫描件	自动 OCR，109 语言	基础 OCR
多栏排版	按阅读顺序重建	基本支持
硬件需求	GPU 推荐，CPU 也可	纯 CPU
集成	RAG 框架 + MCP Server	Python API + CLI
适合场景	学术论文、合同、报表等复杂文档	日常办公文件批量转换

简单说：处理复杂 PDF（论文、报表、合同）用 MinerU；批量转 Office 文件用 MarkItDown。两者不冲突，可以组合使用。

实际工作流示例

一个典型的 RAG 预处理管道：

用户上传 PDF/Word/Excel/PPT
        ↓
    MinerU 解析
    ├── PDF → 版面分析 → OCR → 公式/LaTeX + 表格/HTML + 文本
    ├── Word → 原生解析 → 保留结构
    ├── PPT → 逐页提取
    └── Excel → 表格转 HTML
        ↓
    输出 Markdown/JSON
        ↓
    分块 → 向量化 → 存入向量数据库
        ↓
    RAG 检索增强

许可证变化

2026年4月的 3.1.0 版本把许可证从 AGPLv3 改成了基于 Apache 2.0 的自定义开源许可证。AGPLv3 的传染性很强，任何使用 MinerU 的服务都需要开源，这对商业部署是很大的障碍。新许可证大幅降低了集成门槛，商用友好得多。

总结

MinerU 是 PDF 解析领域的"重武器"。如果你在做 RAG 系统、知识库、或者需要处理大量复杂文档（论文、合同、报表），MinerU 的公式识别、表格提取、多栏排版重建能力是其他工具很难替代的。

项目地址：https://github.com/opendatalab/MinerU 安装：uv pip install -U "mineru[all]" 在线体验：https://mineru.net

一句话：把最难啃的 PDF 变成 LLM 能吃的结构化数据。

MinerU 是什么？​

核心能力​

支持哪些输入？​

输出什么？​

具体能做什么？​

三种解析引擎​

快速上手​

安装​

命令行​

Python API​

Docker​

在线体验​

与 RAG 框架集成​

工程化能力​

跟 MarkItDown 怎么选？​

实际工作流示例​

许可证变化​

总结​