一年 AI 实验怎么沉淀成方法库：实验卡片、评测标签和复盘索引缺一不可

2026年4月7日 · 阅读需 6 分钟

一介布衣

全栈开发者

我现在已经不太相信“多做实验，自然会长出方法论”这件事了。AI 项目里最常见的情况，反而是实验做得很勤，群聊消息也很多，表格也不是没有，可半年后回头看，大家只记得一句很模糊的话：我们当时好像试过这个。

这句话最要命的地方就在于，“试过”几乎等于没留下来。

我后来慢慢接受了一件不太浪漫的事：方法论不是从灵感里长出来的，它更像仓库里的一个目录。里面有记录卡片，有标签，有索引，也有那些当时看着很失败、但后来特别有用的坏样本。如果这些东西没有留下来，所谓方法论往往只能活到下一次团队开会。

为什么很多复盘最后只剩一句空话

我见过很多实验复盘，写到最后都很像这样：

长上下文不一定更好
某模型在这个场景更稳
Prompt 分层以后效果提升了

这些话单看都可能没错，但你只要继续问几个问题，它们马上就会变虚：

当时的问题定义是什么
比较的是哪几个变量
用的是什么样本集
结果是偶然提升，还是可重复提升
失败样本后来有没有进入评测集

一条结论只要不能被追溯，过一段时间就会重新退化成印象。印象当然也有价值，但它不是方法库。

我现在最依赖的，不是总结会，而是一张张实验卡片

我现在更喜欢把每次实验先写成一张很老实的卡片。不是为了写得漂亮，而是为了逼自己把这次尝试到底在回答什么问题说清楚。

experiment_id: exp_2026_0407_01
scene: content-review
question: 先做规则预判再调模型，是否能降低人工接管率
hypothesis: 规则先过滤明显样本后，模型输出波动会更小
variables:
  - prompt_version: review-v3
  - rule_profile: strict
  - model: gpt-4.1
sample_set: review_set_2026_q2_a
metrics:
  - human_handoff_rate
  - false_positive_rate
result: partial_win

这种记录最值钱的地方不是整齐，而是半年后你还能一眼知道：这次实验到底在测什么，当时拿什么比，最后为什么算部分成功。

我现在越来越觉得，实验卡片其实跟写代码时的小函数有点像。它不会直接给你答案，但它会把问题切得清楚一点。问题一旦切清楚，后面的复盘就没那么容易漂。

标签这件小事，决定后来还能不能把经验串起来

只留实验卡片还不够。因为实验做多了以后，新的麻烦会很快出现：每次都能找到一条记录，但很难横向把相似问题捞出来。

我现在更愿意给实验结果补两类标签：

机制标签：例如 prompt-layering、tool-routing、human-handoff
失败标签：例如 hallucination、over-refusal、format-drift

这样后面复盘就不只是按时间翻记录，而是能按问题类型找：

哪些实验都在解决格式漂移
哪些实验都跟人工接管率有关
哪些实验对某个业务场景一直无效

标签体系一旦稳定，方法库才开始像个“可查的系统”，而不只是一个“放了很多文件的抽屉”。

有时候最该保留的，不是好结果，而是翻车样本

这件事我以前也做得不好。实验跑完，最想保存的是那几张“这次效果不错”的截图，最容易顺手丢掉的是失败样本。可回头看，真正让系统后来变稳的，反而恰恰是那些当时不太想看的坏结果。

因为它们决定了：

下一轮评测集是不是更完整
回归测试能不能覆盖旧问题
团队会不会在三个月后重复踩同一个坑

像一次 RAG 检索命中率异常排查和一次向量库参数调整带来的召回变化这种经验，最后真正有价值的，并不是“我们修好了”，而是那批让问题暴露出来的样本后来有没有留下来。没留下来，下次大概率还会再来一遍。

复盘索引这层，看起来最无聊，但其实最像方法库的骨架

我不太喜欢那种“每周写一篇复盘，发完就沉底”的节奏。复盘如果不能继续被找到，最后还是很容易只剩当时的情绪价值。

所以我更愿意给方法库再补一层索引，按这几类路径去串：

按场景：聊天、审核、内容生产、RAG。
按机制：Prompt、规则、路由、日志、人工兜底。
按结果：有效、无效、部分有效、待复验。

索引的价值不在于好看，而在于下一次有人遇到类似问题时，不需要从零翻聊天记录，而能直接定位到：这个问题我们以前在哪几次实验里碰到过，最后留下了什么判断。

所以我现在对“方法论”的理解特别朴素

它其实就是三层东西叠出来的：

实验卡片：记录单次尝试。
评测标签：支持横向比较。
复盘索引：支持后续调用。

少任何一层，经验都很难稳定留下来。

只有卡片，没有标签，记录很多但不好查。
只有标签，没有卡片，索引很整齐但细节找不到。
只有复盘，没有原始记录，最后只剩观点。

这三层里，任何一层单独看都不够“酷”。但很奇怪，真正能把一年实验沉淀下来的，偏偏就是这种一点都不浪漫的东西。

我最后真正想留下来的，不是一句结论，而是一套能复用的记录法

方法论不是在总结会上突然写出来的，也不是在 PPT 上被命名出来的。它更像一套慢慢长出来的记录系统：每次实验留下问题、变量、结果和失败样本；每次复盘再把这些对象重新串起来。

一年 AI 实验能不能沉淀成方法库，关键不在做过多少实验，而在于你有没有把那些真的值得复用的尝试，认真地记录成后来的人还能继续接着用的结构。否则再多实验，最后也只会剩一句：“我们当时好像试过。”

为什么很多复盘最后只剩一句空话​

我现在最依赖的，不是总结会，而是一张张实验卡片​

标签这件小事，决定后来还能不能把经验串起来​

有时候最该保留的，不是好结果，而是翻车样本​

复盘索引这层，看起来最无聊，但其实最像方法库的骨架​

所以我现在对“方法论”的理解特别朴素​

我最后真正想留下来的，不是一句结论，而是一套能复用的记录法​