只盯准确率会让你错过真正的业务问题
补档说明:本文属于「AI 工程落地周记」系列,计划发布时间为 2025-09-06 16:10。当前先保留为草稿,后续补充真实案例、代码片段和复盘细节后再发布。
很多 AI 项目一旦进入评测阶段,最容易被一个数字绑架:准确率。
准确率当然重要,但我后来越来越少单独看它。因为在线上系统里,准确率高并不自动等于业务效果好。有时候它甚至会掩盖真正的问题。
一个最典型的例子,就是某类客服分流功能。离线看分类准确率挺高,团队一开始很满意。但上线后业务同学还是不买账,因为真正痛的地方并没有被解决:
- 高价值工单还是会漏
- 低价值工单却被过度升级
- 人工审核量没有降多少
- 平均处理时长也没明显改善
也就是说,模型在“答题”这件事上可能不错,但业务在“运转”这件事上并没有变更好。
为什么准确率会误导人
因为准确率默认把每个样本看得一样重。
但真实业务里,不同错误的代价往往完全不一样。
举个很简单的例子:
- 把一个普通咨询误判成高风险,也许只是多一轮人工处理
- 把一个真正高风险请求误判成普通咨询,后果可能完全不同
这两个错误在准确率里都只算“一次错”,但在业务里根本不是同一个级别。
我现在更愿意先问“错在哪里、代价是什么”
只要是 AI 功能上线前评估,我现在都会先把问题拆成两层:
第一层:模型层面有没有更会做题
例如:
- 字段抽取是否更准
- 分类是否更稳
- 结构化输出是否更合规
第二层:业务层面有没有更会做事
例如:
- 人工工作量有没有下降
- 用户等待时间有没有缩短
- 错误升级/漏升级有没有减少
- 单次成功处理成本有没有优化
很多项目只盯第一层,所以会错过第二层的真实信号。
一个更贴近业务的例子
假设你在做一个“是否转人工”的决策功能。
离线准确率从 86% 提到 91%,听起来很好。
但如果进一步拆开看,可能是这样的:
低风险请求判断更准了
高风险请求召回没有提升
人工转接比例从 22% 涨到 36%
平均处理成本上升
这时候你就会发现,这个 91% 不是无效,而是不够。
它没有回答业务最关心的问题:系统到底是不是更划算、更稳、更能接住关键风险。
我现在至少会补看的 5 类指标
1. 分桶准确度
不要只看总准确率,而要看:
- 高风险桶
- 长尾桶
- 模糊边界桶
- 明确拒答桶
2. 人工介入相关指标
例如:
- 转人工比例
- 人工纠正率
- 人工二次改写率
3. 时延和吞吐
如果一个更“准”的版本要多花一倍时间,很多产品场景里根本接不住。
4. 成本
尤其是:
- 单次成功请求成本
- 高质量版本的 fallback 成本
- 为了追求更高准确率多花出去的模型费用
5. 真实结果指标
例如:
- 工单关闭时间
- 用户二次追问率
- 内容审核返工率
- 任务完成率
这些才更接近业务视角的“有没有变好”。
一个我越来越认同的判断
AI 系统不是在参加考试,而是在参与业务流程。
所以评估它时,不能只问“答得对不对”,还要问:
- 值不值得这样答
- 代价能不能接受
- 风险有没有被控制
- 人到底有没有因此少做一些无效工作
这也是为什么我现在会把准确率当成入口指标,而不是终局指标。
什么场景尤其不能只看准确率
我会特别提醒下面这些场景:
决策类场景
比如转人工、风控、审核,这类场景错误代价很不均衡。
交互类场景
比如对话助手、写作助手,用户是否继续用、是否信任,比单次“答对率”更关键。
成本敏感场景
如果为了多几个点准确率,把强模型调用、重试、长上下文全堆上去,最后产品可能并不划算。
总结
只盯准确率会让你错过真正的业务问题,因为准确率只告诉你模型在样本上答题的表现,不告诉你系统在业务里运转的代价和收益。
对 AI 工程来说,更重要的问题从来不是“分数涨了没有”,而是“这次变化有没有让真实流程更稳、更快、更省、更可控”。只要这层没看见,分数再漂亮,也可能只是局部优化的幻觉。
