跳到主要内容

MinerU — 把 PDF 变成 LLM 能吃的结构化数据

· 阅读需 6 分钟
一介布衣
全栈开发者

上篇写了 MarkItDown,微软出的通用文件转Markdown 工具。今天这篇聊 MinerU——一个更专注、更狠的文档解析引擎。

如果说 MarkItDown 是"瑞士军刀",什么格式都能转;那 MinerU 就是"手术刀",专门对付最难啃的 PDF——扫描件、多栏排版、跨页表格、数学公式、手写体,这些让普通解析器哭出来的场景。

MinerU 是什么?

MinerU 由 OpenDataLab(上海人工智能实验室)开源,最初是在 InternLM 大模型预训练过程中为了解决科学文献中的符号转换问题而开发的。

一句话:把 PDF、图片、Word、PPT、Excel 转成结构化的 Markdown 和 JSON,专门给 LLM、RAG、Agent 工作流用。

当前最新版本 3.1.0(2026年4月),主要变化:

  • 许可证从 AGPLv3 改为基于 Apache 2.0 的 MinerU 开源许可证,商用门槛大幅降低
  • VLM 主模型升级到 MinerU2.5-Pro-2604-1.2B,解析精度达到 SOTA
  • 新增 PPTX 和 XLSX 原生解析支持

GitHub 地址:https://github.com/opendatalab/MinerU

核心能力

支持哪些输入?

格式说明
PDF原生 PDF + 扫描件 + 乱码 PDF
图片各种图片格式,支持 OCR
Word (.docx)原生解析,不需要先转 PDF
PowerPoint (.pptx)3.0 起原生支持
Excel (.xlsx)3.0 起原生支持

输出什么?

  • Markdown:保留标题层级、列表、表格结构,适合 LLM 直接消费
  • JSON:按阅读顺序排序的结构化数据
  • LaTeX:文档中的数学公式自动转 LaTeX
  • HTML:表格自动转 HTML 表格,保留行列结构
  • 中间格式:富中间格式,包含版面分析结果

具体能做什么?

  • 自动去除页眉、页脚、脚注、页码,保证语义连贯
  • 按人类阅读顺序输出文本(单栏、多栏、复杂排版都支持)
  • 跨页表格自动合并
  • 扫描件/乱码 PDF 自动检测并启用 OCR
  • OCR 支持 109 种语言识别
  • 表格内的图片和公式也能识别
  • 竖排文字、印章文字识别
  • 行间公式编号识别

三种解析引擎

MinerU 提供三种后端,根据需求选:

引擎精度硬件要求特点
pipeline85+CPU 可跑,4GB 显存即可快速稳定,不产生幻觉,适合大批量生产
vlm-engine95+8GB+ 显存高精度,支持 vLLM/LMDeploy/MLX
hybrid-engine95+8GB+ 显存高精度 + 原生文本提取,低幻觉

精度数据来自 OmniDocBench (v1.6) 的 End-to-End Evaluation Overall 分数。

pipeline 引擎是生产环境的首选——纯 CPU 就能跑,资源占用极低,精度 85+ 分已经够用。需要更高精度时再上 VLM 引擎。

快速上手

安装

pip install --upgrade pip
pip install uv
uv pip install -U "mineru[all]"

命令行

# GPU 环境(自动选择最优引擎)
mineru -p document.pdf -o output/

# 纯 CPU 环境
mineru -p document.pdf -o output/ -b pipeline

就这么简单。-p 指定输入文件或目录,-o 指定输出目录。

Python API

from mineru import MinerU

mineru = MinerU()
result = mineru.parse("document.pdf")
print(result.markdown)

Docker

# 官方提供 Docker 部署方案,Linux/WSL2 可用
# macOS 用户建议用 pip 安装

在线体验

不想装?先试试在线版:

与 RAG 框架集成

MinerU 原生支持主流 RAG 框架:

集成方式支持
LangChain
LlamaIndex
RAGFlow
Dify
FastGPT
MCP Server✅(Cursor/Claude Desktop/Windsurf)

MCP Server 是个亮点——直接在 Cursor 或 Claude Desktop 里调用 MinerU 解析文档,AI 编码工具也能处理 PDF 了。

工程化能力

3.0 版本做了大量工程优化,不是一个小玩具了:

长文档支持:滑动窗口机制 + 流式写入磁盘,几万页的文档不需要手动拆分。

并发能力:线程安全优化,支持多线程并发推理。配合 mineru-router 可以一键部署多 GPU 服务,自动负载均衡。

API 架构mineru 现在是基于 mineru-api 的编排客户端。提供异步任务接口(POST /tasks)和同步解析接口(POST /file_parse),还有 mineru-router 做多服务统一入口。

国产化支持:支持昇腾、寒武纪、壁仞、海光等 10+ 国产 AI 芯片。

跟 MarkItDown 怎么选?

MinerUMarkItDown
定位高精度 PDF 解析专用通用文件格式转换
公式自动转 LaTeX不支持
表格自动转 HTML,跨页合并转 Markdown 表格
扫描件自动 OCR,109 语言基础 OCR
多栏排版按阅读顺序重建基本支持
硬件需求GPU 推荐,CPU 也可纯 CPU
集成RAG 框架 + MCP ServerPython API + CLI
适合场景学术论文、合同、报表等复杂文档日常办公文件批量转换

简单说:处理复杂 PDF(论文、报表、合同)用 MinerU;批量转 Office 文件用 MarkItDown。两者不冲突,可以组合使用。

实际工作流示例

一个典型的 RAG 预处理管道:

用户上传 PDF/Word/Excel/PPT

MinerU 解析
├── PDF → 版面分析 → OCR → 公式/LaTeX + 表格/HTML + 文本
├── Word → 原生解析 → 保留结构
├── PPT → 逐页提取
└── Excel → 表格转 HTML

输出 Markdown/JSON

分块 → 向量化 → 存入向量数据库

RAG 检索增强

许可证变化

2026年4月的 3.1.0 版本把许可证从 AGPLv3 改成了基于 Apache 2.0 的自定义开源许可证。AGPLv3 的传染性很强,任何使用 MinerU 的服务都需要开源,这对商业部署是很大的障碍。新许可证大幅降低了集成门槛,商用友好得多。

总结

MinerU 是 PDF 解析领域的"重武器"。如果你在做 RAG 系统、知识库、或者需要处理大量复杂文档(论文、合同、报表),MinerU 的公式识别、表格提取、多栏排版重建能力是其他工具很难替代的。

项目地址https://github.com/opendatalab/MinerU 安装uv pip install -U "mineru[all]" 在线体验https://mineru.net

一句话:把最难啃的 PDF 变成 LLM 能吃的结构化数据。