一年 AI 实验怎么沉淀成方法库:实验卡片、评测标签和复盘索引缺一不可
我现在已经不太相信“多做实验,自然会长出方法论”这件事了。AI 项目里最常见的情况,反而是实验做得很勤,群聊消息也很多,表格也不是没有,可半年后回头看,大家只记得一句很模糊的话:我们当时好像试过这个。
这句话最要命的地方就在于,“试过”几乎等于没留下来。
我后来慢慢接受了一件不太浪漫的事:方法论不是从灵感里长出来的,它更像仓库里的一个目录。里面有记录卡片,有标签,有索引,也有那些当时看着很失败、但后来特别有用的坏样本。如果这些东西没有留下来,所谓方法论往往只能活到下一次团队开会。
为什么很多复盘最后只剩一句空话
我见过很多实验复盘,写到最后都很像这样:
- 长上下文不一定更好
- 某模型在这个场景更稳
- Prompt 分层以后效果提升了
这些话单看都可能没错,但你只要继续问几个问题,它们马上就会变虚:
- 当时的问题定义是什么
- 比较的是哪几个变量
- 用的是什么样本集
- 结果是偶然提升,还是可重复提升
- 失败样本后来有没有进入评测集
一条结论只要不能被追溯,过一段时间就会重新退化成印象。印象当然也有价值,但它不是方法库。
我现在最依赖的,不是总结会,而是一张张实验卡片
我现在更喜欢把每次实验先写成一张很老实的卡片。不是为了写得漂亮,而是为了逼自己把这次尝试到底在回答什么问题说清楚。
experiment_id: exp_2026_0407_01
scene: content-review
question: 先做规则预判再调模型,是否能降低人工接管率
hypothesis: 规则先过滤明显样本后,模型输出波动会更小
variables:
- prompt_version: review-v3
- rule_profile: strict
- model: gpt-4.1
sample_set: review_set_2026_q2_a
metrics:
- human_handoff_rate
- false_positive_rate
result: partial_win
这种记录最值钱的地方不是整齐,而是半年后你还能一眼知道:这次实验到底在测什么,当时拿什么比,最后为什么算部分成功。
我现在越来越觉得,实验卡片其实跟写代码时的小函数有点像。它不会直接给你答案,但它会把问题切得清楚一点。问题一旦切清楚,后面的复盘就没那么容易漂。
标签这件小事,决定后来还能不能把经验串起来
只留实验卡片还不够。因为实验做多了以后,新的麻烦会很快出现:每次都能找到一条记录,但很难横向把相似问题捞出来。
我现在更愿意给实验结果补两类标签:
- 机制标签:例如
prompt-layering、tool-routing、human-handoff - 失败标签:例如
hallucination、over-refusal、format-drift
这样后面复盘就不只是按时间翻记录,而是能按问题类型找:
- 哪些实验都在解决格式漂移
- 哪些实验都跟人工接管率有关
- 哪些实验对某个业务场景一直无效
标签体系一旦稳定,方法库才开始像个“可查的系统”,而不只是一个“放了很多文件的抽屉”。
有时候最该保留的,不是好结果,而是翻车样本
这件事我以前也做得不好。实验跑完,最想保存的是那几张“这次效果不错”的截图,最容易顺手丢掉的是失败样本。可回头看,真正让系统后来变稳的,反而恰恰是那些当时不太想看的坏结果。
因为它们决定了:
- 下一轮评测集是不是更完整
- 回归测试能不能覆盖旧问题
- 团队会不会在三个月后重复踩同一个坑
像 一次 RAG 检索命中率异常排查 和 一次向量库参数调整带来的召回变化 这种经验,最后真正有价值的,并不是“我们修好了”,而是那批让问题暴露出来的样本后来有没有留下来。没留下来,下次大概率还会再来一遍。
复盘索引这层,看起来最无聊,但其实最像方法库的骨架
我不太喜欢那种“每周写一篇复盘,发完就沉底”的节奏。复盘如果不能继续被找到,最后还是很容易只剩当时的情绪价值。
所以我更愿意给方法库再补一层索引,按这几类路径去串:
- 按场景:聊天、审核、内容生产、RAG。
- 按机制:Prompt、规则、路由、日志、人工兜底。
- 按结果:有效、无效、部分有效、待复验。
索引的价值不在于好看,而在于下一次有人遇到类似问题时,不需要从零翻聊天记录,而能直接定位到:这个问题我们以前在哪几次实验里碰到过,最后留下了什么判断。
所以我现在对“方法论”的理解特别朴素
它其实就是三层东西叠出来的:
- 实验卡片:记录单次尝试。
- 评测标签:支持横向比较。
- 复盘索引:支持后续调用。
少任何一层,经验都很难稳定留下来。
- 只有卡片,没有标签,记录很多但不好查。
- 只有标签,没有卡片,索引很整齐但细节找不到。
- 只有复盘,没有原始记录,最后只剩观点。
这三层里,任何一层单独看都不够“酷”。但很奇怪,真正能把一年实验沉淀下来的,偏偏就是这种一点都不浪漫的东西。
我最后真正想留下来的,不是一句结论,而是一套能复用的记录法
方法论不是在总结会上突然写出来的,也不是在 PPT 上被命名出来的。它更像一套慢慢长出来的记录系统:每次实验留下问题、变量、结果和失败样本;每次复盘再把这些对象重新串起来。
一年 AI 实验能不能沉淀成方法库,关键不在做过多少实验,而在于你有没有把那些真的值得复用的尝试,认真地记录成后来的人还能继续接着用的结构。否则再多实验,最后也只会剩一句:“我们当时好像试过。”
