评测的目标是“上线可用”,而不是“分数漂亮”。
🎯 文章目标
- 从指标体系到实施方法的全链路建议
- 业务指标映射与灰度策略
📚 背景/前置
- 离线:真实任务集 + 结构化校验
- 在线:A/B + 观察核心业务指标
🔧 核心内容
1) 指标体系
- 可执行性:结构化校验通过率
- 质量:正确率/引用一致率/拒答率
- 性能:延迟 P95/P99、成本
2) 实施
- 离线:小集 + 回放对比
- 在线:阈值 + 回滚预案
💡 实战示例:离线小集
markdown
- 指令:输出 JSON 含 {title, bullets}
- QA:引用上下文并返回出处
📊 对比/取舍(速查)
- 离线快/在线准,按“快→准”节奏推进
🧪 踩坑与经验
- 指标不贴业务,优化无效
- 无回放与阈值,灰度失控
📎 参考与延伸
- HELM、Dynabench、内部评测平台
💭 总结
- 用“可执行性 + 质量 + 性能 + 业务指标”统一评测与上线决策