MarkItDown — 微软开源的文件转 Markdown 利器
· 阅读需 5 分钟
做 LLM 应用的人大概都遇到过同一个头疼问题:用户丢过来一个 PDF、一个 Word、一张截图、一段录音,然后问你"能不能帮我总结一下?"
每种格式都要找对应的解析库,PDF 用 PyMuPDF、Word 用 python-docx、Excel 用 openpyxl、图片还得上 Tesseract OCR……写完一堆胶水代码,发现提取出来的文本结构全丢了——标题变普通段落、表格变乱码、链接直接蒸发。
微软开源的 MarkItDown 就是来解决这个问题的。
