跳到主要内容

12 篇博文含有标签「评测」

查看所有标签

一年 AI 实验怎么沉淀成方法库：实验卡片、评测标签和复盘索引缺一不可

2026年4月7日 · 阅读需 6 分钟

全栈开发者

我现在已经不太相信“多做实验，自然会长出方法论”这件事了。AI 项目里最常见的情况，反而是实验做得很勤，群聊消息也很多，表格也不是没有，可半年后回头看，大家只记得一句很模糊的话：我们当时好像试过这个。

什么样的 AI 功能值得继续投：别只看 demo 效果，要看评测、成本和治理

2026年3月12日 · 阅读需 4 分钟

全栈开发者

我现在判断一个 AI 功能值不值得继续投，已经不会先看它演示时有多惊艳了。因为真正烧掉团队时间和预算的，往往不是“它第一次看上去效果不错”，而是上线以后才发现评测起伏大、人工兜底很重、转化不稳，最后整条链都在为一个看起来聪明但不太划算的能力让路。

Prompt 版本回滚不要只靠 Git：灰度桶、样本对照和回退条件怎么落地

2026年2月16日 · 阅读需 6 分钟

全栈开发者

有一次标题生成的新 Prompt 只放了 15% 流量，运营同学半小时后就在群里贴了几条结果：标题没报错，但明显比旧版更宽、更空，像是把具体主题又抹回成了通用话术。按直觉做当然也能处理，直接把 Git 里的旧模板找出来改回去就行。可真到操作那一步，问题立刻冒出来了：到底哪些内容已经吃到了新版本？是模板变了，还是变量结构、模型路由或者上下文拼装一起变了？如果这些都说不清，所谓“回滚”其实只是盲切。

AI 团队统一 Prompt、工具、知识和评测：版本号、发布流和回滚点怎么设计

2025年12月28日 · 阅读需 2 分钟

全栈开发者

组织真正开始提效，通常不是因为又接了一个新模型，而是 Prompt、工具、知识和评测终于共享了一套版本和发布语言。

从零搭一个内部 AI 平台：模型网关、Prompt Registry 和评测流水线的最小实现

2025年12月11日 · 阅读需 2 分钟

全栈开发者

从零搭内部 AI 平台时，最重要的不是一次性把能力做全，而是先收出一个最小可治理的底座。

如果 2026 还继续做 AI，先补这三块基础设施：Trace、评测集和回放系统

2025年12月8日 · 阅读需 6 分钟

全栈开发者

如果让我给还打算继续做 AI 的团队只留三项投资建议，我不会先选更复杂的 Agent 框架，也不会先选更花哨的工作台。我会先问三个很现实的问题：线上某次异常到底发生了什么，最近一次改动到底是变好了还是变差了，三周前那次事故今天还能不能重放出来。如果这三个问题答不上来，后面所有“持续迭代”都很容易变成盲飞。

把单点 AI 功能做成系统能力：模型路由、评测回放和成本看板要怎么接

2025年11月28日 · 阅读需 2 分钟

全栈开发者

把单点 AI 功能做成系统能力，关键变化不在模型更强，而在团队开始补模型路由、评测回放和成本视图这些控制面。

2025 年最值得复用的 10 个 AI 工程机制：评测集、幂等键和回放链路怎么落

2025年11月19日 · 阅读需 4 分钟

全栈开发者

如果让我回头看这一年最值得保留下来的 AI 工程经验，我已经不太想再列那些听上去很大的词，比如“平台化”“智能体化”或者“工作流升级”。这些词当然都重要，但真正被我反复带进不同项目里的，往往是更朴素、更具体的一层：哪些字段必须有，哪些状态必须落盘，哪些样本必须先收起来，哪些动作必须能回滚。

离线评测要先于在线 A/B

2023年10月20日 · 阅读需 3 分钟

全栈开发者

离线评测优先级这件事在 2023 年开始越来越频繁地进入真实项目，但很多团队一开始只看到表面收益，没有先把边界收住。只要线上实验承担了本该在离线阶段就拦住的问题，影响真实用户体验，问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

大模型应用的第一版评测集怎么搭

2023年10月17日 · 阅读需 3 分钟

全栈开发者

2023 年很多 AI 项目都会经历一个阶段：最初几天大家都被 Demo 效果鼓舞，但很快就会遇到一个更现实的问题，模型今天看起来好，明天为什么又不稳定了？