离线评测要先于在线 A/B2023年10月20日 · 阅读需 3 分钟一介布衣全栈开发者离线评测优先级 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 线上实验承担了本该在离线阶段就拦住的问题,影响真实用户体验,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。
大模型应用的第一版评测集怎么搭2023年10月17日 · 阅读需 3 分钟一介布衣全栈开发者2023 年很多 AI 项目都会经历一个阶段:最初几天大家都被 Demo 效果鼓舞,但很快就会遇到一个更现实的问题,模型今天看起来好,明天为什么又不稳定了?