跳到主要内容

只盯准确率会让你错过真正的业务问题

· 阅读需 5 分钟
一介布衣
全栈开发者 / 技术写作者

补档说明:本文属于「AI 工程落地周记」系列,计划发布时间为 2025-09-06 16:10。当前先保留为草稿,后续补充真实案例、代码片段和复盘细节后再发布。

很多 AI 项目一旦进入评测阶段,最容易被一个数字绑架:准确率。

准确率当然重要,但我后来越来越少单独看它。因为在线上系统里,准确率高并不自动等于业务效果好。有时候它甚至会掩盖真正的问题。

一个最典型的例子,就是某类客服分流功能。离线看分类准确率挺高,团队一开始很满意。但上线后业务同学还是不买账,因为真正痛的地方并没有被解决:

  • 高价值工单还是会漏
  • 低价值工单却被过度升级
  • 人工审核量没有降多少
  • 平均处理时长也没明显改善

也就是说,模型在“答题”这件事上可能不错,但业务在“运转”这件事上并没有变更好。

为什么准确率会误导人

因为准确率默认把每个样本看得一样重。
但真实业务里,不同错误的代价往往完全不一样。

举个很简单的例子:

  • 把一个普通咨询误判成高风险,也许只是多一轮人工处理
  • 把一个真正高风险请求误判成普通咨询,后果可能完全不同

这两个错误在准确率里都只算“一次错”,但在业务里根本不是同一个级别。

我现在更愿意先问“错在哪里、代价是什么”

只要是 AI 功能上线前评估,我现在都会先把问题拆成两层:

第一层:模型层面有没有更会做题

例如:

  • 字段抽取是否更准
  • 分类是否更稳
  • 结构化输出是否更合规

第二层:业务层面有没有更会做事

例如:

  • 人工工作量有没有下降
  • 用户等待时间有没有缩短
  • 错误升级/漏升级有没有减少
  • 单次成功处理成本有没有优化

很多项目只盯第一层,所以会错过第二层的真实信号。

一个更贴近业务的例子

假设你在做一个“是否转人工”的决策功能。
离线准确率从 86% 提到 91%,听起来很好。

但如果进一步拆开看,可能是这样的:

低风险请求判断更准了
高风险请求召回没有提升
人工转接比例从 22% 涨到 36%
平均处理成本上升

这时候你就会发现,这个 91% 不是无效,而是不够。
它没有回答业务最关心的问题:系统到底是不是更划算、更稳、更能接住关键风险。

我现在至少会补看的 5 类指标

1. 分桶准确度

不要只看总准确率,而要看:

  • 高风险桶
  • 长尾桶
  • 模糊边界桶
  • 明确拒答桶

2. 人工介入相关指标

例如:

  • 转人工比例
  • 人工纠正率
  • 人工二次改写率

3. 时延和吞吐

如果一个更“准”的版本要多花一倍时间,很多产品场景里根本接不住。

4. 成本

尤其是:

  • 单次成功请求成本
  • 高质量版本的 fallback 成本
  • 为了追求更高准确率多花出去的模型费用

5. 真实结果指标

例如:

  • 工单关闭时间
  • 用户二次追问率
  • 内容审核返工率
  • 任务完成率

这些才更接近业务视角的“有没有变好”。

一个我越来越认同的判断

AI 系统不是在参加考试,而是在参与业务流程。
所以评估它时,不能只问“答得对不对”,还要问:

  • 值不值得这样答
  • 代价能不能接受
  • 风险有没有被控制
  • 人到底有没有因此少做一些无效工作

这也是为什么我现在会把准确率当成入口指标,而不是终局指标。

什么场景尤其不能只看准确率

我会特别提醒下面这些场景:

决策类场景

比如转人工、风控、审核,这类场景错误代价很不均衡。

交互类场景

比如对话助手、写作助手,用户是否继续用、是否信任,比单次“答对率”更关键。

成本敏感场景

如果为了多几个点准确率,把强模型调用、重试、长上下文全堆上去,最后产品可能并不划算。

总结

只盯准确率会让你错过真正的业务问题,因为准确率只告诉你模型在样本上答题的表现,不告诉你系统在业务里运转的代价和收益。

对 AI 工程来说,更重要的问题从来不是“分数涨了没有”,而是“这次变化有没有让真实流程更稳、更快、更省、更可控”。只要这层没看见,分数再漂亮,也可能只是局部优化的幻觉。