跳到主要内容

12 篇博文 含有标签「评测」

查看所有标签

一年 AI 实验怎么沉淀成方法库:实验卡片、评测标签和复盘索引缺一不可

· 阅读需 6 分钟
一介布衣
全栈开发者

我现在已经不太相信“多做实验,自然会长出方法论”这件事了。AI 项目里最常见的情况,反而是实验做得很勤,群聊消息也很多,表格也不是没有,可半年后回头看,大家只记得一句很模糊的话:我们当时好像试过这个。

什么样的 AI 功能值得继续投:别只看 demo 效果,要看评测、成本和治理

· 阅读需 4 分钟
一介布衣
全栈开发者

我现在判断一个 AI 功能值不值得继续投,已经不会先看它演示时有多惊艳了。因为真正烧掉团队时间和预算的,往往不是“它第一次看上去效果不错”,而是上线以后才发现评测起伏大、人工兜底很重、转化不稳,最后整条链都在为一个看起来聪明但不太划算的能力让路。

Prompt 版本回滚不要只靠 Git:灰度桶、样本对照和回退条件怎么落地

· 阅读需 6 分钟
一介布衣
全栈开发者

有一次标题生成的新 Prompt 只放了 15% 流量,运营同学半小时后就在群里贴了几条结果:标题没报错,但明显比旧版更宽、更空,像是把具体主题又抹回成了通用话术。按直觉做当然也能处理,直接把 Git 里的旧模板找出来改回去就行。可真到操作那一步,问题立刻冒出来了:到底哪些内容已经吃到了新版本?是模板变了,还是变量结构、模型路由或者上下文拼装一起变了?如果这些都说不清,所谓“回滚”其实只是盲切。

如果 2026 还继续做 AI,先补这三块基础设施:Trace、评测集和回放系统

· 阅读需 6 分钟
一介布衣
全栈开发者

如果让我给还打算继续做 AI 的团队只留三项投资建议,我不会先选更复杂的 Agent 框架,也不会先选更花哨的工作台。我会先问三个很现实的问题:线上某次异常到底发生了什么,最近一次改动到底是变好了还是变差了,三周前那次事故今天还能不能重放出来。如果这三个问题答不上来,后面所有“持续迭代”都很容易变成盲飞。

2025 年最值得复用的 10 个 AI 工程机制:评测集、幂等键和回放链路怎么落

· 阅读需 4 分钟
一介布衣
全栈开发者

如果让我回头看这一年最值得保留下来的 AI 工程经验,我已经不太想再列那些听上去很大的词,比如“平台化”“智能体化”或者“工作流升级”。这些词当然都重要,但真正被我反复带进不同项目里的,往往是更朴素、更具体的一层:哪些字段必须有,哪些状态必须落盘,哪些样本必须先收起来,哪些动作必须能回滚。

离线评测要先于在线 A/B

· 阅读需 3 分钟
一介布衣
全栈开发者

离线评测优先级 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 线上实验承担了本该在离线阶段就拦住的问题,影响真实用户体验,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。