不是所有请求都要走最强模型
如果只选一个真实场景来解释这篇文章,我会选“客服混合链路”。
这个链路里同时存在三类请求:
- 很简单的分类,例如“这是退款还是咨询”。
- 中等复杂度问答,例如“这张券为什么不能用”。
- 少量高难样本,例如“多个订单、多个活动规则叠加后的争议场景”。
项目最初为了省事,几乎所有请求都默认走最强模型。早期流量小,大家只觉得“效果不错,就是稍微贵一点”。但一旦请求量上来,问题很快暴露:
- 成本并不是“稍微贵”,而是被大量简单请求一起抬上去了。
- 用户等待时间变长,前端体验开始变差。
- 团队失去了判断“哪些任务其实根本不需要强模型”的机会。
这也是我后来越来越笃定的一点:不是所有请求都要走最强模型。模型分层不是为了抠预算,而是为了让系统真正进入可运营状态。
