中文能力对比：文本生成/指令跟随/知识问答

从“文本生成/指令跟随/知识问答”三个维度做中文能力对比与评测。

🎯 文章目标

构建最小中文评测集（含 few-shot/结构化校验）
给出三维度的提示模板与指标
输出对比与上线建议

📚 背景/前置

文本生成：自然/流畅/不编造
指令跟随：遵循格式/约束条件/不可编造
知识问答：引用一致、拒答合规

🔧 核心内容

1) 提示模板

生成：要求长度/风格/禁用词
指令：JSON Schema/字段约束
QA：引用上下文，必须引用“出处”

2) 评测指标

生成：流畅度/重复率/禁用词违规
指令：结构化校验通过率
QA：引用一致率/正确率/拒答率

💡 实战示例：指令跟随校验

python

# pip install jsonschema openai
from jsonschema import validate
schema = {"type":"object","properties":{"title":{"type":"string"}},"required":["title"]}
# 调用模型后，对返回 JSON 校验 schema

📊 对比/取舍（速查）

模型 A 文本更自然，模型 B 指令更稳定；可“按场景路由”
对 QA：引用一致性优先于“写得好看”

🧪 踩坑与经验

只看“主观感觉”不做结构化校验
不区分三维度评测，结论模糊

📎 参考与延伸

中文生成评测方法、结构化输出实践
引用一致性与拒答规范

💭 总结

用“模板 + 指标 + 校验 + 路由”做中文能力对比，保证上线可用性

🧭 快速导航

🎯 文章目标 ​

📚 背景/前置 ​

🔧 核心内容 ​

1) 提示模板 ​

2) 评测指标 ​

💡 实战示例：指令跟随校验 ​

📊 对比/取舍（速查） ​

🧪 踩坑与经验 ​

📎 参考与延伸 ​

💭 总结 ​

🎯 文章目标

📚 背景/前置

🔧 核心内容

1) 提示模板

2) 评测指标

💡 实战示例：指令跟随校验

📊 对比/取舍（速查）

🧪 踩坑与经验

📎 参考与延伸

💭 总结