只盯准确率会让你错过真正的业务问题

2025年9月6日 · 阅读需 5 分钟

一介布衣

全栈开发者

补档说明：本文属于「AI 工程落地周记」系列，计划发布时间为 2025-09-06 16:10。当前先保留为草稿，后续补充真实案例、代码片段和复盘细节后再发布。

很多 AI 项目一旦进入评测阶段，最容易被一个数字绑架：准确率。

准确率当然重要，但我后来越来越少单独看它。因为在线上系统里，准确率高并不自动等于业务效果好。有时候它甚至会掩盖真正的问题。

一个最典型的例子，就是某类客服分流功能。离线看分类准确率挺高，团队一开始很满意。但上线后业务同学还是不买账，因为真正痛的地方并没有被解决：

高价值工单还是会漏
低价值工单却被过度升级
人工审核量没有降多少
平均处理时长也没明显改善

也就是说，模型在“答题”这件事上可能不错，但业务在“运转”这件事上并没有变更好。

为什么准确率会误导人

因为准确率默认把每个样本看得一样重。
但真实业务里，不同错误的代价往往完全不一样。

举个很简单的例子：

把一个普通咨询误判成高风险，也许只是多一轮人工处理
把一个真正高风险请求误判成普通咨询，后果可能完全不同

这两个错误在准确率里都只算“一次错”，但在业务里根本不是同一个级别。

我现在更愿意先问“错在哪里、代价是什么”

只要是 AI 功能上线前评估，我现在都会先把问题拆成两层：

第一层：模型层面有没有更会做题

例如：

字段抽取是否更准
分类是否更稳
结构化输出是否更合规

第二层：业务层面有没有更会做事

例如：

人工工作量有没有下降
用户等待时间有没有缩短
错误升级/漏升级有没有减少
单次成功处理成本有没有优化

很多项目只盯第一层，所以会错过第二层的真实信号。

一个更贴近业务的例子

假设你在做一个“是否转人工”的决策功能。
离线准确率从 86% 提到 91%，听起来很好。

但如果进一步拆开看，可能是这样的：

低风险请求判断更准了
高风险请求召回没有提升
人工转接比例从 22% 涨到 36%
平均处理成本上升

这时候你就会发现，这个 91% 不是无效，而是不够。
它没有回答业务最关心的问题：系统到底是不是更划算、更稳、更能接住关键风险。

我现在至少会补看的 5 类指标

1. 分桶准确度

不要只看总准确率，而要看：

高风险桶
长尾桶
模糊边界桶
明确拒答桶

2. 人工介入相关指标

例如：

转人工比例
人工纠正率
人工二次改写率

3. 时延和吞吐

如果一个更“准”的版本要多花一倍时间，很多产品场景里根本接不住。

4. 成本

尤其是：

单次成功请求成本
高质量版本的 fallback 成本
为了追求更高准确率多花出去的模型费用

5. 真实结果指标

例如：

工单关闭时间
用户二次追问率
内容审核返工率
任务完成率

这些才更接近业务视角的“有没有变好”。

一个我越来越认同的判断

AI 系统不是在参加考试，而是在参与业务流程。
所以评估它时，不能只问“答得对不对”，还要问：

值不值得这样答
代价能不能接受
风险有没有被控制
人到底有没有因此少做一些无效工作

这也是为什么我现在会把准确率当成入口指标，而不是终局指标。

什么场景尤其不能只看准确率

我会特别提醒下面这些场景：

决策类场景

比如转人工、风控、审核，这类场景错误代价很不均衡。

交互类场景

比如对话助手、写作助手，用户是否继续用、是否信任，比单次“答对率”更关键。

成本敏感场景

如果为了多几个点准确率，把强模型调用、重试、长上下文全堆上去，最后产品可能并不划算。

总结

只盯准确率会让你错过真正的业务问题，因为准确率只告诉你模型在样本上答题的表现，不告诉你系统在业务里运转的代价和收益。

对 AI 工程来说，更重要的问题从来不是“分数涨了没有”，而是“这次变化有没有让真实流程更稳、更快、更省、更可控”。只要这层没看见，分数再漂亮，也可能只是局部优化的幻觉。

为什么准确率会误导人​

我现在更愿意先问“错在哪里、代价是什么”​

第一层：模型层面有没有更会做题​

第二层：业务层面有没有更会做事​

一个更贴近业务的例子​

我现在至少会补看的 5 类指标​

1. 分桶准确度​

2. 人工介入相关指标​

3. 时延和吞吐​

4. 成本​

5. 真实结果指标​

一个我越来越认同的判断​

什么场景尤其不能只看准确率​

决策类场景​

交互类场景​

成本敏感场景​

总结​