Few-shot 示例挑选比示例数量更重要
· 阅读需 2 分钟
Few-shot 示例筛选 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 为了追求“多给点参考”,把重复且同质的示例不断堆进上下文,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。
Few-shot 示例筛选 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 为了追求“多给点参考”,把重复且同质的示例不断堆进上下文,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。
内部工具的注入防护 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 把内部场景默认视为可信,结果模型一旦读到带诱导内容的文档就开始偏航,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。
Prompt 评估 rubric 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 每个人都在说“这个版本好像更好”,但没有任何一致的判分基线,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。
System Prompt 角色边界 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 把目标、语气、权限和约束全混在一句提示词里,结果谁都说不清模型到底该做什么,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。
Prompt 版本管理 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 线上模板调整没有记录,效果回退时根本不知道哪次修改导致结果变化,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。