37 篇博文含有标签「工程化」

Google Agent Skills — 用工程纪律驯服 AI 编程

2026年4月26日 · 阅读需 4 分钟

一介布衣

全栈开发者

AI 编程工具的能力迭代很快，但用过一段时间你会发现一个共性问题：模型越强，越喜欢走捷径。拿到任务就往前冲，不考虑项目长期稳定性，也不管后续迭代维护——这恰好是初级开发者和资深工程师之间最大的差距。

Function calling 的工具 schema 要像 API 一样设计

2023年12月7日 · 阅读需 2 分钟

一介布衣

全栈开发者

工具 schema 设计这件事在 2023 年开始越来越频繁地进入真实项目，但很多团队一开始只看到表面收益，没有先把边界收住。只要字段定义模糊、可选项太多，模型会频繁给出半对半错的调用参数，问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

RAG 观测指标先看命中率和上下文链路

2023年11月25日 · 阅读需 3 分钟

一介布衣

全栈开发者

RAG 观测体系这件事在 2023 年开始越来越频繁地进入真实项目，但很多团队一开始只看到表面收益，没有先把边界收住。只要系统效果波动时，只能靠人工体感猜是哪一环出了问题，问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

切换 embedding 模型前先算切换成本

2023年11月12日 · 阅读需 3 分钟

一介布衣

全栈开发者

embedding 模型切换成本这件事在 2023 年开始越来越频繁地进入真实项目，但很多团队一开始只看到表面收益，没有先把边界收住。只要只盯着单点评测结果，忽略了索引重建和线上切换的系统代价，问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

检索前做 query rewrite 什么时候值得

2023年11月4日 · 阅读需 2 分钟

一介布衣

全栈开发者

query rewrite 这件事在 2023 年开始越来越频繁地进入真实项目，但很多团队一开始只看到表面收益，没有先把边界收住。只要原始问题太口语或太短，检索阶段根本抓不到真正意图，问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

离线评测要先于在线 A/B

2023年10月20日 · 阅读需 3 分钟

一介布衣

全栈开发者

离线评测优先级这件事在 2023 年开始越来越频繁地进入真实项目，但很多团队一开始只看到表面收益，没有先把边界收住。只要线上实验承担了本该在离线阶段就拦住的问题，影响真实用户体验，问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

LLM 评测数据集的标注规则先写清楚

2023年10月10日 · 阅读需 2 分钟

一介布衣

全栈开发者

评测标注规则这件事在 2023 年开始越来越频繁地进入真实项目，但很多团队一开始只看到表面收益，没有先把边界收住。只要不同人按不同理解给样本打分，最后得出的结论只会越来越混乱，问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

Electron Updater 的签名和产物细节

2023年9月12日 · 阅读需 3 分钟

一介布衣

全栈开发者

签名与产物细节这件事在 2023 年开始越来越频繁地进入真实项目，但很多团队一开始只看到表面收益，没有先把边界收住。只要构建出来的应用没问题，但更新元数据和签名链路一断，用户就永远升不上去，问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

Bun 进入 CI 前先想清楚采用边界

2023年8月23日 · 阅读需 3 分钟

一介布衣

全栈开发者

CI 采用边界这件事在 2023 年开始越来越频繁地进入真实项目，但很多团队一开始只看到表面收益，没有先把边界收住。只要本地替代很顺利，但 CI 管线一旦失败，团队没有现成经验兜底，问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

Bun 运行时值不值得尝试

2023年8月22日 · 阅读需 2 分钟

一介布衣

全栈开发者

2023 年很多前端和 Node.js 开发者都会听到 Bun。它最大的吸引力很直接：启动快、安装快、测试快，看起来像是在重新挑战我们已经习惯的 Node.js 工具体系。