Skip to content

从“文本生成/指令跟随/知识问答”三个维度做中文能力对比与评测。

🎯 文章目标

  • 构建最小中文评测集(含 few-shot/结构化校验)
  • 给出三维度的提示模板与指标
  • 输出对比与上线建议

📚 背景/前置

  • 文本生成:自然/流畅/不编造
  • 指令跟随:遵循格式/约束条件/不可编造
  • 知识问答:引用一致、拒答合规

🔧 核心内容

1) 提示模板

  • 生成:要求长度/风格/禁用词
  • 指令:JSON Schema/字段约束
  • QA:引用上下文,必须引用“出处”

2) 评测指标

  • 生成:流畅度/重复率/禁用词违规
  • 指令:结构化校验通过率
  • QA:引用一致率/正确率/拒答率

💡 实战示例:指令跟随校验

python
# pip install jsonschema openai
from jsonschema import validate
schema = {"type":"object","properties":{"title":{"type":"string"}},"required":["title"]}
# 调用模型后,对返回 JSON 校验 schema

📊 对比/取舍(速查)

  • 模型 A 文本更自然,模型 B 指令更稳定;可“按场景路由”
  • 对 QA:引用一致性优先于“写得好看”

🧪 踩坑与经验

  • 只看“主观感觉”不做结构化校验
  • 不区分三维度评测,结论模糊

📎 参考与延伸

  • 中文生成评测方法、结构化输出实践
  • 引用一致性与拒答规范

💭 总结

  • 用“模板 + 指标 + 校验 + 路由”做中文能力对比,保证上线可用性