数据闭环不是口号:收集 → 标注 → 回放 → 训练/提示迭代 → 上线验证。
🎯 文章目标
- 设计反馈采集与数据治理流程
- 建立“失败样本池”与回放机制
- 提供最小标注规范
📚 背景/前置
- 反馈来源:用户显式(👍👎)、隐式(跳出/复问)、人工复核
- 数据治理:去重/脱敏/分类/优先级
🔧 核心内容
1) 采集与优先级
- 分类:正确/格式错误/事实不符/越权/不可执行
- 优先修复:高频/高价值/高风险样本
2) 回放与修复
- 回放:固定模型/提示,重现问题;记录差异
- 修复:模板/检索/重排/路由/工具/数据……逐一定位
3) 标注规范
- 元数据:任务类型、失败原因、是否可重试、建议修复项
- 示例:正例/反例/边界例,供 few-shot 与单测
💡 实战示例:失败样本登记
json
{
"task":"refund_answer",
"input":"如何退款?",
"output":"请拨打电话...",
"error":"事实不符",
"suggest":"引用知识库"
}
📊 对比/取舍(速查)
- 快速修复 vs 系统治理:稳定期优先系统治理
- 人工标注 vs 自动归类:结合使用提高效率
🧪 踩坑与经验
- 无“失败样本池”,问题重复出现
- 未脱敏与权限隔离,造成隐私风险
📎 参考与延伸
- 数据治理与标注平台实践
- 模型/模板回放与单测
💭 总结
- 用“采集-回放-修复-验证”的闭环降低问题复发,持续提升质量