跳到主要内容

一个 AI 功能上线后最先暴露的性能问题

· 阅读需 2 分钟
一介布衣
全栈开发者 / 技术写作者

补档说明:本文属于「AI 工程落地周记」系列,计划发布时间为 2025-04-18 16:10。当前先保留为草稿,后续补充真实案例、代码片段和复盘细节后再发布。

这次上线后最先暴露的问题,不是模型质量,而是尾部延迟。平均响应时间看着还行,但只要请求稍微复杂一点,P95 很快就拉长,用户体感会立刻变差。

这类问题最容易被忽视,因为在小样本测试里,大家通常盯的是“平均值”,可线上真正决定体验的,经常是那些最慢的一批请求。

现象

最直观的反馈是:普通问题还能接受,一旦问题需要检索、多步拼装或长一点的输出,界面就开始明显拖沓。用户未必会说“你的 P95 变高了”,但会直接觉得系统变卡、变慢、变不可靠。

判断

这次问题让我再次确认,AI 功能上线后最早该盯的,不只是准确率和成功率,还有尾部延迟。因为用户真正感知到“这个系统能不能用”,很多时候不是靠平均值,而是靠最慢那一批请求决定。

处理

我现在会优先把延迟拆开看:

  • 检索花了多久
  • 模型推理花了多久
  • 后处理和格式校验花了多久

只有拆开之后,优化才有方向。否则“整体变慢”这个结论几乎没有操作价值。

结论

一个 AI 功能上线后,最先暴露的性能问题往往不是吞吐极限,而是尾部体验。越早把 P95、P99 和链路拆解看明白,越不容易在用户增长后被动救火。

  • 读者:关注 AI 应用落地、全栈工程化、工作流自动化和技术内容系统的开发者。
  • 场景:补充 2025 年到 2026 年初这段时间里缺失的技术观察和工程复盘。
  • 目标:不写成新闻转述,而是写成可以复用到项目里的判断框架。