跳到主要内容

27 篇博文 含有标签「AI」

查看所有标签

检索前做 query rewrite 什么时候值得

· 阅读需 2 分钟
一介布衣
全栈开发者

query rewrite 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 原始问题太口语或太短,检索阶段根本抓不到真正意图,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

离线评测要先于在线 A/B

· 阅读需 3 分钟
一介布衣
全栈开发者

离线评测优先级 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 线上实验承担了本该在离线阶段就拦住的问题,影响真实用户体验,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

LLM 评测数据集的标注规则先写清楚

· 阅读需 2 分钟
一介布衣
全栈开发者

评测标注规则 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 不同人按不同理解给样本打分,最后得出的结论只会越来越混乱,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

向量检索里的 metadata 过滤先设计再扩字段

· 阅读需 2 分钟
一介布衣
全栈开发者

metadata 过滤设计 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 字段命名和过滤粒度不一致,导致向量召回只能靠全文语义硬扛,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

RAG 里的 chunk overlap 不该凭感觉定

· 阅读需 3 分钟
一介布衣
全栈开发者

chunk overlap 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 重叠太少时语义会断,重叠太多时索引体积和噪音一起膨胀,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

Few-shot 示例挑选比示例数量更重要

· 阅读需 2 分钟
一介布衣
全栈开发者

Few-shot 示例筛选 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 为了追求“多给点参考”,把重复且同质的示例不断堆进上下文,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

内部工具也要防 Prompt Injection

· 阅读需 3 分钟
一介布衣
全栈开发者

内部工具的注入防护 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 把内部场景默认视为可信,结果模型一旦读到带诱导内容的文档就开始偏航,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。