跳到主要内容

1 篇博文 含有标签「MinerU」

查看所有标签

MinerU — 把 PDF 变成 LLM 能吃的结构化数据

· 阅读需 6 分钟
一介布衣
全栈开发者

上篇写了 MarkItDown,微软出的通用文件转Markdown 工具。今天这篇聊 MinerU——一个更专注、更狠的文档解析引擎。

如果说 MarkItDown 是"瑞士军刀",什么格式都能转;那 MinerU 就是"手术刀",专门对付最难啃的 PDF——扫描件、多栏排版、跨页表格、数学公式、手写体,这些让普通解析器哭出来的场景。