从“文本生成/指令跟随/知识问答”三个维度做中文能力对比与评测。
🎯 文章目标
- 构建最小中文评测集(含 few-shot/结构化校验)
- 给出三维度的提示模板与指标
- 输出对比与上线建议
📚 背景/前置
- 文本生成:自然/流畅/不编造
- 指令跟随:遵循格式/约束条件/不可编造
- 知识问答:引用一致、拒答合规
🔧 核心内容
1) 提示模板
- 生成:要求长度/风格/禁用词
- 指令:JSON Schema/字段约束
- QA:引用上下文,必须引用“出处”
2) 评测指标
- 生成:流畅度/重复率/禁用词违规
- 指令:结构化校验通过率
- QA:引用一致率/正确率/拒答率
💡 实战示例:指令跟随校验
python
# pip install jsonschema openai
from jsonschema import validate
schema = {"type":"object","properties":{"title":{"type":"string"}},"required":["title"]}
# 调用模型后,对返回 JSON 校验 schema
📊 对比/取舍(速查)
- 模型 A 文本更自然,模型 B 指令更稳定;可“按场景路由”
- 对 QA:引用一致性优先于“写得好看”
🧪 踩坑与经验
- 只看“主观感觉”不做结构化校验
- 不区分三维度评测,结论模糊
📎 参考与延伸
- 中文生成评测方法、结构化输出实践
- 引用一致性与拒答规范
💭 总结
- 用“模板 + 指标 + 校验 + 路由”做中文能力对比,保证上线可用性