跳到主要内容

12 篇博文 含有标签「评测」

查看所有标签

LLM 评测数据集的标注规则先写清楚

· 阅读需 2 分钟
一介布衣
全栈开发者

评测标注规则 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 不同人按不同理解给样本打分,最后得出的结论只会越来越混乱,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

业务 Prompt 评估要先有 rubric 再看感觉

· 阅读需 2 分钟
一介布衣
全栈开发者

Prompt 评估 rubric 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 每个人都在说“这个版本好像更好”,但没有任何一致的判分基线,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。