跳到主要内容

4 篇博文 含有标签「开源」

查看所有标签

MarkItDown — 微软开源的文件转 Markdown 利器

· 阅读需 5 分钟
一介布衣
全栈开发者

做 LLM 应用的人大概都遇到过同一个头疼问题:用户丢过来一个 PDF、一个 Word、一张截图、一段录音,然后问你"能不能帮我总结一下?"

每种格式都要找对应的解析库,PDF 用 PyMuPDF、Word 用 python-docx、Excel 用 openpyxl、图片还得上 Tesseract OCR……写完一堆胶水代码,发现提取出来的文本结构全丢了——标题变普通段落、表格变乱码、链接直接蒸发。

微软开源的 MarkItDown 就是来解决这个问题的。

MinerU — 把 PDF 变成 LLM 能吃的结构化数据

· 阅读需 6 分钟
一介布衣
全栈开发者

上篇写了 MarkItDown,微软出的通用文件转Markdown 工具。今天这篇聊 MinerU——一个更专注、更狠的文档解析引擎。

如果说 MarkItDown 是"瑞士军刀",什么格式都能转;那 MinerU 就是"手术刀",专门对付最难啃的 PDF——扫描件、多栏排版、跨页表格、数学公式、手写体,这些让普通解析器哭出来的场景。

小米 MiMo V2.5 — 全球开源第一的大模型,值得一试

· 阅读需 4 分钟
一介布衣
全栈开发者

最近大模型圈有个值得关注的事:小米的 MiMo V2.5 系列开放公测了,而且在 Artificial Analysis 榜单上拿下了全球开源大模型综合智能指数第一。

一个做手机和智能家居的公司,AI 模型做到开源第一?我一开始也觉得有点意外,试了一圈之后,确实有点东西。