检索前做 query rewrite 什么时候值得
· 阅读需 2 分钟
query rewrite 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 原始问题太口语或太短,检索阶段根本抓不到真正意图,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。
我现在更倾向的做法,是先把这类能力当成正式工程问题来看,而不是把它当成一个临时技巧。对我来说,最关键的一步通常是 把 rewrite 当成检索预处理,而不是生成层自由发挥,因为只有边界先明确,后面的优化、扩展和排查才不会一直漂。
真正容易被忽略的,往往不是功能能不能做出来,而是以下这些细节:
- rewrite 后的问题要可审计,方便判断是不是改坏了原意
- 不是所有场景都需要 rewrite,结构化查询可能反而会被改差
- rewrite 效果要看召回质量,而不是只看改写句子是否更顺
这些细节看起来都不大,但它们决定了系统是在 demo 阶段“能跑”,还是进入业务以后依然稳定。越是和 AI、工作流、构建链路这类复杂能力相关,越不能靠感觉把事情糊过去。
小结
query rewrite 值不值得加,关键看它能不能稳定提升检索输入质量。把它放在对的位置,RAG 效果会更稳。
