一次多模型路由策略的简化记录
补档说明:本文属于「AI 工程落地周记」系列,计划发布时间为 2025-10-05 16:10。当前先保留为草稿,后续补充真实案例、代码片段和复盘细节后再发布。
有一阵子我们把多模型路由做得越来越“聪明”:
- 先按任务类型分
- 再按风险等级分
- 再按上下文长度分
- 再按历史命中率分
- 失败后还有二级 fallback
纸面上看,这套策略非常精细。真正上线后,问题却越来越明显:
- 成本走势很难解释
- 某个请求为什么走了某个模型很难追
- 调一条规则,别的路径会不会被带偏不清楚
- 出现效果抖动时,排查几乎像在查一个“规则黑箱”
后来我们做了一次很克制的重构:不是继续加规则,而是把路由策略砍掉一大半。结果反而更稳了。
