跳到主要内容

2 篇博文 含有标签「文档处理」

查看所有标签

MarkItDown — 微软开源的文件转 Markdown 利器

· 阅读需 5 分钟
一介布衣
全栈开发者

做 LLM 应用的人大概都遇到过同一个头疼问题:用户丢过来一个 PDF、一个 Word、一张截图、一段录音,然后问你"能不能帮我总结一下?"

每种格式都要找对应的解析库,PDF 用 PyMuPDF、Word 用 python-docx、Excel 用 openpyxl、图片还得上 Tesseract OCR……写完一堆胶水代码,发现提取出来的文本结构全丢了——标题变普通段落、表格变乱码、链接直接蒸发。

微软开源的 MarkItDown 就是来解决这个问题的。

MinerU — 把 PDF 变成 LLM 能吃的结构化数据

· 阅读需 6 分钟
一介布衣
全栈开发者

上篇写了 MarkItDown,微软出的通用文件转Markdown 工具。今天这篇聊 MinerU——一个更专注、更狠的文档解析引擎。

如果说 MarkItDown 是"瑞士军刀",什么格式都能转;那 MinerU 就是"手术刀",专门对付最难啃的 PDF——扫描件、多栏排版、跨页表格、数学公式、手写体,这些让普通解析器哭出来的场景。