线上 AI 服务的超时策略,我更推荐这三层
补档说明:本文属于「AI 工程落地周记」系列,计划发布时间为 2025-05-25 11:40。当前先保留为草稿,后续补充真实案例、代码片段和复盘细节后再发布。
如果只拿一个线上场景来说超时策略,我会选“知识问答 + 检索 + 工具调用”的组合请求。
这类请求最容易暴露一个错觉:团队经常以为“只要给 SDK 设一个 30 秒超时就够了”。但真实请求进来之后你会发现,30 秒这个数字根本没有回答任何关键问题:
- 用户愿意盯着这个页面等多久?
- 整条链路最多能烧掉多少预算时间?
- 单个检索或工具步骤慢到什么程度时就该放弃?
当这些问题没有分开,超时就不会是一个边界,而只是一个会随机爆炸的数字。
