Skip to content

对齐不只是“更安全”,还是“更可用”;防护涵盖提示注入与对抗样本。

🎯 文章目标

  • 给出对齐/安全的工程抓手
  • 提供红队/防护与审计策略

📚 背景/前置

  • 对齐:SFT/RLHF/DPO 等;
  • 安全:提示注入/越狱、敏感信息输出等

🔧 核心内容

1) 对齐抓手

  • 模板与少样本:更稳定的遵循
  • 数据治理:负例/反事实、去重与脱敏
  • 在线反馈:失败样本池与回放

2) 安全防护

  • 规则:拒答模板、上下文引用约束
  • 审计:敏感字段脱敏、出口审计
  • 红队:越狱样本库、攻击面清单、定期演练

💡 实战示例:拒答模板

markdown
若问题涉及隐私/财务/越权等敏感内容,请拒答,并提示用户走合规流程。

📊 对比/取舍(速查)

  • 效果 vs 安全:必要时通过路由分流(高风险 → 安全更强模型)

🧪 踩坑与经验

  • 只做“内容安全”不做“对齐治理”,上线依旧不稳

📎 参考与延伸

  • 对齐方法综述、安全红队实践

💭 总结

  • 用“对齐 + 安全 + 审计 + 红队”四件套,提升可用与可控