一个 AI 功能上线后最先暴露的性能问题

2025年4月18日 · 阅读需 2 分钟

全栈开发者

补档说明：本文属于「AI 工程落地周记」系列，计划发布时间为 2025-04-18 16:10。当前先保留为草稿，后续补充真实案例、代码片段和复盘细节后再发布。

这次上线后最先暴露的问题，不是模型质量，而是尾部延迟。平均响应时间看着还行，但只要请求稍微复杂一点，P95 很快就拉长，用户体感会立刻变差。

这类问题最容易被忽视，因为在小样本测试里，大家通常盯的是“平均值”，可线上真正决定体验的，经常是那些最慢的一批请求。

现象

最直观的反馈是：普通问题还能接受，一旦问题需要检索、多步拼装或长一点的输出，界面就开始明显拖沓。用户未必会说“你的 P95 变高了”，但会直接觉得系统变卡、变慢、变不可靠。

这次问题让我再次确认，AI 功能上线后最早该盯的，不只是准确率和成功率，还有尾部延迟。因为用户真正感知到“这个系统能不能用”，很多时候不是靠平均值，而是靠最慢那一批请求决定。

我现在会优先把延迟拆开看：

只有拆开之后，优化才有方向。否则“整体变慢”这个结论几乎没有操作价值。

一个 AI 功能上线后，最先暴露的性能问题往往不是吞吐极限，而是尾部体验。越早把 P95、P99 和链路拆解看明白，越不容易在用户增长后被动救火。