Skip to content

让评估贴近上线:离线小集快速验证,在线 A/B 看业务指标。

🎯 文章目标

  • 设计离线/在线评估流程与数据
  • 给出最小 A/B 组织方式
  • 指标解读与取舍

📚 背景/前置

  • 离线:稳定环境 + 固定 prompt 与模型版本
  • 在线:小流量灰度 + 业务指标(转化/留存/耗时/人工复核)

🔧 核心内容

1) 离线评估

  • 数据:主路径/边界/噪声/反事实
  • 校验:JSON Schema/正则/单测
  • 结果:通过率/可执行性/延迟/成本

2) 在线 A/B

  • 实验单元:用户/会话/请求级
  • 统计:分桶对比 + 显著性检验
  • 回滚:异常突增时即时回退

3) 指标看板

  • 模型/任务/版本维度分层
  • P95/P99 延迟、拒答率、失败率、最慢 5%

💡 实战示例:离线校验

python
import jsonschema
# 读取样本,调用模型,校验 JSON 结果与分数

📊 对比/取舍(速查)

  • 离线快:便宜且可控;但与业务弱相关
  • 在线准:最贴近真实;但成本高、风险需控制

🧪 踩坑与经验

  • 离线/在线割裂:建议“离线通过再上线上灰度”
  • 无回放:问题难复现;必须记录上下文/版本/模板

📎 参考与延伸

  • HELM、Dynabench 等评测平台
  • 在线实验平台与灰度发布

💭 总结

  • 以“离线快速 → 在线灰度 → 全量上线”的节奏构建评估闭环