向量检索里的 metadata 过滤先设计再扩字段
· 阅读需 2 分钟
metadata 过滤设计 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 字段命名和过滤粒度不一致,导致向量召回只能靠全文语义硬扛,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。
metadata 过滤设计 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 字段命名和过滤粒度不一致,导致向量召回只能靠全文语义硬扛,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。
当 2023 年大家真正把大模型往业务里接时,很快就会撞上一堵墙:模型很强,但它并不知道你公司的资料、文档、规则和业务上下文。