2025 到 2026 这段 AI 工程复盘:真正留下来的不是热点,而是控制机制
如果只看工具清单,2025 到 2026 这段时间变化确实很大。模型在换,供应商在换,RAG 方案在换,Agent 说法也几乎一季一变。可我回头看一圈,真正留下来的并不是那些当时最热的名词,而是几件特别“土”的事情:版本、评测、日志、回放、人工接管。
如果只看工具清单,2025 到 2026 这段时间变化确实很大。模型在换,供应商在换,RAG 方案在换,Agent 说法也几乎一季一变。可我回头看一圈,真正留下来的并不是那些当时最热的名词,而是几件特别“土”的事情:版本、评测、日志、回放、人工接管。
如果让我回头看这一年最值得保留下来的 AI 工程经验,我已经不太想再列那些听上去很大的词,比如“平台化”“智能体化”或者“工作流升级”。这些词当然都重要,但真正被我反复带进不同项目里的,往往是更朴素、更具体的一层:哪些字段必须有,哪些状态必须落盘,哪些样本必须先收起来,哪些动作必须能回滚。
补档说明:本文属于「AI 工程落地周记」系列,计划发布时间为 2025-10-24 20:15。当前先保留为草稿,后续补充真实案例、代码片段和复盘细节后再发布。
很多团队一开始做 AI 系统时,会把“人在回路”理解成一种过渡方案:
我以前也有点这样想。后来做的系统越来越多,反而越来越不这么看了。
我现在更倾向于认为:人在回路不是妥协,而是很多 AI 系统天然就该有的一层设计。
因为很多业务问题本来就不是“把人替掉”才算成功,而是“把人的注意力放到真正值得判断的地方”才算成功。
补档说明:本文属于「AI 工程落地周记」系列,计划发布时间为 2025-10-22 09:10。当前先保留为草稿,后续补充真实案例、代码片段和复盘细节后再发布。
有一次我们为了把检索时延压下来,动了向量库的一组参数。改动本身不大,甚至可以说很“合理”:
结果上线后最先变化的不是延迟,而是答案味道。
用户不会告诉你“召回率下降了”,他们只会说:
后来追回去才发现,这次参数调整表面上节省了一点查询成本,实际上悄悄改掉了检索质量的下限。
补档说明:本文属于「AI 工程落地周记」系列,计划发布时间为 2025-10-20 16:10。当前先保留为草稿,后续补充真实案例、代码片段和复盘细节后再发布。
很多 AI 系统前期都把预算优先给了模型、Prompt、工作流和界面,等到线上开始出问题,团队才发现真正缺的是另外三样东西:
这三件事听起来像“运维附属项”,但我现在越来越把它们看成 AI 系统的基础设施。因为没有它们,系统一旦出错,你几乎无法回答最关键的几个问题:
普通系统没有日志很痛苦,AI 系统没有这三层则会很快失去可治理性。
补档说明:本文属于「AI 工程落地周记」系列,计划发布时间为 2025-10-12 10:20。当前先保留为草稿,后续补充真实案例、代码片段和复盘细节后再发布。
很多 AI 项目都有一个相似的阶段:Demo 已经能跑了,效果也看上去不错,于是团队会产生一种很危险的错觉,好像离“可上线服务”已经不远了。
但真正做过线上系统之后就会知道,能跑起来和能稳定提供服务,中间隔着的不是一点优化,而是一整套工程责任。
Demo 证明的是“这条链路在理想条件下成立”;
稳定服务要求的是“这条链路在真实条件下长期成立”。
真实条件包括:
能接住这些,才叫服务。
补档说明:本文属于「AI 工程落地周记」系列,计划发布时间为 2025-10-05 16:10。当前先保留为草稿,后续补充真实案例、代码片段和复盘细节后再发布。
有一阵子我们把多模型路由做得越来越“聪明”:
纸面上看,这套策略非常精细。真正上线后,问题却越来越明显:
后来我们做了一次很克制的重构:不是继续加规则,而是把路由策略砍掉一大半。结果反而更稳了。
补档说明:本文属于「AI 工程落地周记」系列,计划发布时间为 2025-10-04 16:10。当前先保留为草稿,后续补充真实案例、代码片段和复盘细节后再发布。
很多人在算大模型私有化或自托管成本时,最容易先盯住的是两件事:
这两个数字当然重要,但如果只看到这里,最后经常会算出一张很“理论正确、线上失真”的成本表。
因为真实成本不是由单一硬件价格决定的,而是由推理引擎、显存占用、并发效率和服务稳定性一起决定的有效产能。
也就是说,真正该问的问题不是“这张卡贵不贵”,而是“这套栈每小时到底能稳定完成多少个有效请求”。
补档说明:本文属于「AI 工程落地周记」系列,计划发布时间为 2025-09-29 09:10。当前先保留为草稿,后续补充真实案例、代码片段和复盘细节后再发布。
关于开源模型和商业模型,过去很长一段时间讨论都容易变成“立场题”:
这些话都各有一部分对,但真做项目时,它们都不够。因为真正的取舍不是价值观问题,而是你愿意把复杂度放在哪一层。
我现在越来越少问“哪个阵营更好”,而是更实际地问:
这些问题一回答,很多所谓“阵营之争”其实就没那么悬了。
补档说明:本文属于「AI 工程落地周记」系列,计划发布时间为 2025-09-22 09:10。当前先保留为草稿,后续补充真实案例、代码片段和复盘细节后再发布。
很多时候,团队会天然相信“整体分数”比单个样本更重要。这个判断通常没错,但我后来有过一次很深的体会:一个样本也可能比一百个平均分更能暴露产品问题。
那次我在看一套评测结果时,大盘分数其实不难看。可其中有一条样本让我停了很久,最后直接改了我对产品形态的判断。