让评估贴近上线:离线小集快速验证,在线 A/B 看业务指标。
🎯 文章目标
- 设计离线/在线评估流程与数据
- 给出最小 A/B 组织方式
- 指标解读与取舍
📚 背景/前置
- 离线:稳定环境 + 固定 prompt 与模型版本
- 在线:小流量灰度 + 业务指标(转化/留存/耗时/人工复核)
🔧 核心内容
1) 离线评估
- 数据:主路径/边界/噪声/反事实
- 校验:JSON Schema/正则/单测
- 结果:通过率/可执行性/延迟/成本
2) 在线 A/B
- 实验单元:用户/会话/请求级
- 统计:分桶对比 + 显著性检验
- 回滚:异常突增时即时回退
3) 指标看板
- 模型/任务/版本维度分层
- P95/P99 延迟、拒答率、失败率、最慢 5%
💡 实战示例:离线校验
python
import jsonschema
# 读取样本,调用模型,校验 JSON 结果与分数
📊 对比/取舍(速查)
- 离线快:便宜且可控;但与业务弱相关
- 在线准:最贴近真实;但成本高、风险需控制
🧪 踩坑与经验
- 离线/在线割裂:建议“离线通过再上线上灰度”
- 无回放:问题难复现;必须记录上下文/版本/模板
📎 参考与延伸
- HELM、Dynabench 等评测平台
- 在线实验平台与灰度发布
💭 总结
- 以“离线快速 → 在线灰度 → 全量上线”的节奏构建评估闭环