Skip to content

评测的目标是“上线可用”,而不是“分数漂亮”。

🎯 文章目标

  • 从指标体系到实施方法的全链路建议
  • 业务指标映射与灰度策略

📚 背景/前置

  • 离线:真实任务集 + 结构化校验
  • 在线:A/B + 观察核心业务指标

🔧 核心内容

1) 指标体系

  • 可执行性:结构化校验通过率
  • 质量:正确率/引用一致率/拒答率
  • 性能:延迟 P95/P99、成本

2) 实施

  • 离线:小集 + 回放对比
  • 在线:阈值 + 回滚预案

💡 实战示例:离线小集

markdown
- 指令:输出 JSON 含 {title, bullets}
- QA:引用上下文并返回出处

📊 对比/取舍(速查)

  • 离线快/在线准,按“快→准”节奏推进

🧪 踩坑与经验

  • 指标不贴业务,优化无效
  • 无回放与阈值,灰度失控

📎 参考与延伸

  • HELM、Dynabench、内部评测平台

💭 总结

  • 用“可执行性 + 质量 + 性能 + 业务指标”统一评测与上线决策