跳到主要内容

RAG 里的 chunk overlap 不该凭感觉定

· 阅读需 3 分钟
一介布衣
全栈开发者

chunk overlap 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 重叠太少时语义会断,重叠太多时索引体积和噪音一起膨胀,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

Few-shot 示例挑选比示例数量更重要

· 阅读需 2 分钟
一介布衣
全栈开发者

Few-shot 示例筛选 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 为了追求“多给点参考”,把重复且同质的示例不断堆进上下文,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。