90 篇博文含有标签「工程实践」

2025 到 2026 这段 AI 工程复盘：真正留下来的不是热点，而是控制机制

2026年3月4日 · 阅读需 5 分钟

全栈开发者

如果只看工具清单，2025 到 2026 这段时间变化确实很大。模型在换，供应商在换，RAG 方案在换，Agent 说法也几乎一季一变。可我回头看一圈，真正留下来的并不是那些当时最热的名词，而是几件特别“土”的事情：版本、评测、日志、回放、人工接管。

2025 年最值得复用的 10 个 AI 工程机制：评测集、幂等键和回放链路怎么落

2025年11月19日 · 阅读需 4 分钟

一介布衣

全栈开发者

如果让我回头看这一年最值得保留下来的 AI 工程经验，我已经不太想再列那些听上去很大的词，比如“平台化”“智能体化”或者“工作流升级”。这些词当然都重要，但真正被我反复带进不同项目里的，往往是更朴素、更具体的一层：哪些字段必须有，哪些状态必须落盘，哪些样本必须先收起来，哪些动作必须能回滚。

人在回路不是妥协，而是系统设计的一部分

2025年10月24日 · 阅读需 4 分钟

一介布衣

全栈开发者

补档说明：本文属于「AI 工程落地周记」系列，计划发布时间为 2025-10-24 20:15。当前先保留为草稿，后续补充真实案例、代码片段和复盘细节后再发布。

很多团队一开始做 AI 系统时，会把“人在回路”理解成一种过渡方案：

现在模型还不够好，所以先让人兜着
等以后模型更强，就把人拿掉

我以前也有点这样想。后来做的系统越来越多，反而越来越不这么看了。
我现在更倾向于认为：人在回路不是妥协，而是很多 AI 系统天然就该有的一层设计。

因为很多业务问题本来就不是“把人替掉”才算成功，而是“把人的注意力放到真正值得判断的地方”才算成功。

一次向量库参数调整带来的召回变化

2025年10月22日 · 阅读需 4 分钟

一介布衣

全栈开发者

补档说明：本文属于「AI 工程落地周记」系列，计划发布时间为 2025-10-22 09:10。当前先保留为草稿，后续补充真实案例、代码片段和复盘细节后再发布。

有一次我们为了把检索时延压下来，动了向量库的一组参数。改动本身不大，甚至可以说很“合理”：

降一点搜索深度
控一点候选数
让查询更快一点

结果上线后最先变化的不是延迟，而是答案味道。
用户不会告诉你“召回率下降了”，他们只会说：

怎么最近更容易答偏了
怎么有些问题又像没看文档一样

后来追回去才发现，这次参数调整表面上节省了一点查询成本，实际上悄悄改掉了检索质量的下限。

观测、审计、回放，为什么是 AI 系统的基础设施

2025年10月20日 · 阅读需 4 分钟

一介布衣

全栈开发者

补档说明：本文属于「AI 工程落地周记」系列，计划发布时间为 2025-10-20 16:10。当前先保留为草稿，后续补充真实案例、代码片段和复盘细节后再发布。

很多 AI 系统前期都把预算优先给了模型、Prompt、工作流和界面，等到线上开始出问题，团队才发现真正缺的是另外三样东西：

观测
审计
回放

这三件事听起来像“运维附属项”，但我现在越来越把它们看成 AI 系统的基础设施。因为没有它们，系统一旦出错，你几乎无法回答最关键的几个问题：

这次到底发生了什么
为什么会发生
影响了哪些请求
新版本和旧版本比，差异到底在哪

普通系统没有日志很痛苦，AI 系统没有这三层则会很快失去可治理性。

能跑起来和能稳定提供服务之间隔着什么

2025年10月12日 · 阅读需 4 分钟

一介布衣

全栈开发者

补档说明：本文属于「AI 工程落地周记」系列，计划发布时间为 2025-10-12 10:20。当前先保留为草稿，后续补充真实案例、代码片段和复盘细节后再发布。

很多 AI 项目都有一个相似的阶段：Demo 已经能跑了，效果也看上去不错，于是团队会产生一种很危险的错觉，好像离“可上线服务”已经不远了。

但真正做过线上系统之后就会知道，能跑起来和能稳定提供服务，中间隔着的不是一点优化，而是一整套工程责任。

Demo 证明的是“这条链路在理想条件下成立”；
稳定服务要求的是“这条链路在真实条件下长期成立”。

真实条件包括：

用户输入不受控
上下游系统会抖
依赖会超时
流量会波动
模型行为会漂

能接住这些，才叫服务。

一次多模型路由策略的简化记录

2025年10月5日 · 阅读需 4 分钟

一介布衣

全栈开发者

补档说明：本文属于「AI 工程落地周记」系列，计划发布时间为 2025-10-05 16:10。当前先保留为草稿，后续补充真实案例、代码片段和复盘细节后再发布。

有一阵子我们把多模型路由做得越来越“聪明”：

先按任务类型分
再按风险等级分
再按上下文长度分
再按历史命中率分
失败后还有二级 fallback

纸面上看，这套策略非常精细。真正上线后，问题却越来越明显：

成本走势很难解释
某个请求为什么走了某个模型很难追
调一条规则，别的路径会不会被带偏不清楚
出现效果抖动时，排查几乎像在查一个“规则黑箱”

后来我们做了一次很克制的重构：不是继续加规则，而是把路由策略砍掉一大半。结果反而更稳了。

推理引擎、显存、并发，这些指标怎么影响真实成本

2025年10月4日 · 阅读需 5 分钟

一介布衣

全栈开发者

补档说明：本文属于「AI 工程落地周记」系列，计划发布时间为 2025-10-04 16:10。当前先保留为草稿，后续补充真实案例、代码片段和复盘细节后再发布。

很多人在算大模型私有化或自托管成本时，最容易先盯住的是两件事：

一张卡多少钱
模型需要多少显存

这两个数字当然重要，但如果只看到这里，最后经常会算出一张很“理论正确、线上失真”的成本表。
因为真实成本不是由单一硬件价格决定的，而是由推理引擎、显存占用、并发效率和服务稳定性一起决定的有效产能。

也就是说，真正该问的问题不是“这张卡贵不贵”，而是“这套栈每小时到底能稳定完成多少个有效请求”。

开源模型和商业模型，我现在更实际的取舍方法

2025年9月29日 · 阅读需 5 分钟

一介布衣

全栈开发者

补档说明：本文属于「AI 工程落地周记」系列，计划发布时间为 2025-09-29 09:10。当前先保留为草稿，后续补充真实案例、代码片段和复盘细节后再发布。

关于开源模型和商业模型，过去很长一段时间讨论都容易变成“立场题”：

开源更可控
商业更强
开源更便宜
商业更省事

这些话都各有一部分对，但真做项目时，它们都不够。因为真正的取舍不是价值观问题，而是你愿意把复杂度放在哪一层。

我现在越来越少问“哪个阵营更好”，而是更实际地问：

当前业务的不确定性大不大
团队有没有能力接住模型基础设施
成本压力到底发生在调用费，还是发生在人力和运维
数据和合规边界到底有多硬

这些问题一回答，很多所谓“阵营之争”其实就没那么悬了。

一个评测样本为什么改了我的产品判断

2025年9月22日 · 阅读需 4 分钟

一介布衣

全栈开发者

补档说明：本文属于「AI 工程落地周记」系列，计划发布时间为 2025-09-22 09:10。当前先保留为草稿，后续补充真实案例、代码片段和复盘细节后再发布。

很多时候，团队会天然相信“整体分数”比单个样本更重要。这个判断通常没错，但我后来有过一次很深的体会：一个样本也可能比一百个平均分更能暴露产品问题。

那次我在看一套评测结果时，大盘分数其实不难看。可其中有一条样本让我停了很久，最后直接改了我对产品形态的判断。