17 篇博文含有标签「RAG」

查看所有标签

MinerU — 把 PDF 变成 LLM 能吃的结构化数据

2026年6月1日 · 阅读需 6 分钟

一介布衣

全栈开发者

上篇写了 MarkItDown，微软出的通用文件转Markdown 工具。今天这篇聊 MinerU——一个更专注、更狠的文档解析引擎。

如果说 MarkItDown 是"瑞士军刀"，什么格式都能转；那 MinerU 就是"手术刀"，专门对付最难啃的 PDF——扫描件、多栏排版、跨页表格、数学公式、手写体，这些让普通解析器哭出来的场景。

2025 年最容易被高估的 5 个 AI 方案：全自动 Agent、超长上下文和纯 Prompt 工作流怎么取舍

2025年11月23日 · 阅读需 2 分钟

一介布衣

全栈开发者

很多被高估的 AI 话题之所以显得迷人，是因为大家只看到了 demo 的上限，没有认真算集成成本、维护成本和失败代价。

一次向量库参数调整带来的召回变化

2025年10月22日 · 阅读需 4 分钟

一介布衣

全栈开发者

补档说明：本文属于「AI 工程落地周记」系列，计划发布时间为 2025-10-22 09:10。当前先保留为草稿，后续补充真实案例、代码片段和复盘细节后再发布。

有一次我们为了把检索时延压下来，动了向量库的一组参数。改动本身不大，甚至可以说很“合理”：

降一点搜索深度
控一点候选数
让查询更快一点

结果上线后最先变化的不是延迟，而是答案味道。
用户不会告诉你“召回率下降了”，他们只会说：

怎么最近更容易答偏了
怎么有些问题又像没看文档一样

后来追回去才发现，这次参数调整表面上节省了一点查询成本，实际上悄悄改掉了检索质量的下限。

一次 RAG 检索命中率异常排查

2025年3月8日 · 阅读需 3 分钟

一介布衣

全栈开发者

这次排查很典型：业务方反馈“最近知识库回答突然变差”，但表面上看系统并没有报错，模型也没换，接口响应时间甚至还是正常的。真正的问题出在一个很容易被忽略的指标上，检索命中率突然掉了一截。

一开始大家本能地怀疑 Prompt、怀疑模型、怀疑重排，但继续查下去才发现，问题不是最后生成阶段，而是索引更新后，一部分文档的元数据缺失，导致相关片段虽然被召回了，却没有排进最终候选。

Chunk、召回、重排，RAG 最容易被忽略的顺序问题

2025年2月7日 · 阅读需 7 分钟

一介布衣

全栈开发者

补档说明：本文属于「AI 工程落地周记」系列，计划发布时间为 2025-02-07 10:20。当前先保留为草稿，后续补充真实案例、代码片段和复盘细节后再发布。

很多团队在做 RAG 优化时，容易把问题切成几个独立模块来看：Chunk 怎么切、检索怎么召回、重排怎么加、最后模型怎么答。表面上看这很合理，因为技术栈确实也是这么拆开的。但真正调过一轮系统之后就会发现，这几个环节并不是并列关系，它们是串联关系，而且前一个环节的决策会强烈限制后一个环节的上限。

也就是说，很多 RAG 项目效果不好，不是某一个组件单独弱，而是顺序没想清楚：一开始切分就把信息结构破坏了，后面再怎么改召回和重排，都只能在一堆不完整片段里做“最优选择”。

所以我现在更在意的是这条链路的顺序：先怎么切，再怎么召，再怎么排，最后才轮到模型组织答案。

做企业知识库前，我先回答这 7 个问题

2025年2月3日 · 阅读需 6 分钟

一介布衣

全栈开发者

补档说明：本文属于「AI 工程落地周记」系列，计划发布时间为 2025-02-03 20:15。当前先保留为草稿，后续补充真实案例、代码片段和复盘细节后再发布。

企业知识库是过去一年我见过最多的 AI 落地入口之一。几乎每个团队在讨论 AI 能做什么的时候，都会很快想到它：把文档喂进去、把制度接进去、把 FAQ 接进去，然后做一个“问什么答什么”的系统。这个方向当然成立，但也正因为看起来太成立了，大家很容易低估它背后的难度。

我现在一听到“我们想做一个企业知识库”，脑子里不会先出现模型，也不会先出现向量库，而是先出现七个问题。只要其中有几项答不清楚，我就不会建议直接开工。因为很多知识库项目，不是死在技术实现上，而是死在一开始的问题定义就不清楚。

RAG 不是银弹：哪些场景我宁可不用检索增强

2025年1月16日 · 阅读需 7 分钟

一介布衣

全栈开发者

补档说明：本文属于「AI 工程落地周记」系列，计划发布时间为 2025-01-16 14:30。当前先保留为草稿，后续补充真实案例、代码片段和复盘细节后再发布。

过去一年，RAG 几乎成了大模型落地的标准答案。只要有人问“模型回答不准怎么办”，大家第一反应往往就是“上 RAG”。这条路线当然没有错，很多知识型场景确实该这么做。但我越来越警惕另一种倾向：把 RAG 变成条件反射，仿佛只要做 AI 问答，前面就必须先接一个向量库。

现实没有这么简单。RAG 不是一个按钮，而是一整套系统：文档清洗、切分、索引、召回、重排、上下文拼装、引用展示、评估和回放。只要其中一个环节没做好，最后用户看到的就不是“更智能”，而是“更复杂且更不稳定”。

所以我现在会先问：这件事真的需要检索增强吗？如果不需要，硬上 RAG 不仅没有收益，反而会把系统搞重。

RAG 观测指标先看命中率和上下文链路

2023年11月25日 · 阅读需 3 分钟

一介布衣

全栈开发者

RAG 观测体系这件事在 2023 年开始越来越频繁地进入真实项目，但很多团队一开始只看到表面收益，没有先把边界收住。只要系统效果波动时，只能靠人工体感猜是哪一环出了问题，问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

RAG 流水线设计笔记

2023年11月21日 · 阅读需 2 分钟

一介布衣

全栈开发者

RAG 在 2023 年越来越热，但真正落地后就会发现，它从来不是“把文档丢进向量库”这么简单。一个像样的 RAG 系统，本质上是一条检索与生成协同的流水线。

高频问题的 RAG 缓存层怎么放

2023年11月21日 · 阅读需 3 分钟

一介布衣

全栈开发者

RAG 缓存层这件事在 2023 年开始越来越频繁地进入真实项目，但很多团队一开始只看到表面收益，没有先把边界收住。只要每次都全链路重跑检索和生成，高频场景的成本和延迟会持续被放大，问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。