离线评测、在线评测、A/B,什么时候该用哪一种
补档说明:本文属于「AI 工程落地周记」系列,计划发布时间为 2025-08-31 09:10。当前先保留为草稿,后续补充真实案例、代码片段和复盘细节后再发布。
很多团队一提到“评测”,脑子里其实混着三件完全不同的事:
- 用历史样本离线跑分
- 在真实流量里观察效果
- 把两个版本同时放给用户做 A/B
它们都叫评测,但解决的问题并不一样。
如果边界没分清,团队就很容易出现两种典型混乱:
- 明明还没离线证明安全,就急着上 A/B
- 明明用户体验已经变了,还只拿离线分数说话
所以我现在会先把这三种方法当成不同阶段的不同工具,而不是互相替代的同一种东西。
