对齐不只是“更安全”,还是“更可用”;防护涵盖提示注入与对抗样本。
🎯 文章目标
- 给出对齐/安全的工程抓手
- 提供红队/防护与审计策略
📚 背景/前置
- 对齐:SFT/RLHF/DPO 等;
- 安全:提示注入/越狱、敏感信息输出等
🔧 核心内容
1) 对齐抓手
- 模板与少样本:更稳定的遵循
- 数据治理:负例/反事实、去重与脱敏
- 在线反馈:失败样本池与回放
2) 安全防护
- 规则:拒答模板、上下文引用约束
- 审计:敏感字段脱敏、出口审计
- 红队:越狱样本库、攻击面清单、定期演练
💡 实战示例:拒答模板
markdown
若问题涉及隐私/财务/越权等敏感内容,请拒答,并提示用户走合规流程。
📊 对比/取舍(速查)
- 效果 vs 安全:必要时通过路由分流(高风险 → 安全更强模型)
🧪 踩坑与经验
- 只做“内容安全”不做“对齐治理”,上线依旧不稳
📎 参考与延伸
- 对齐方法综述、安全红队实践
💭 总结
- 用“对齐 + 安全 + 审计 + 红队”四件套,提升可用与可控