safety-guardrails
Installation
SKILL.md
安全防线与伦理边界设计 (Safety Guardrails)
R — 原文 (Reading)
Claude: Child safety "critical" + refusal cascades + Anthropic reminders system + long-conversation drift prevention Claude Chrome: Multi-layer injection defense (critical_injection_defense, critical_security_rules, etc.) + rule immutability GPT-4o: Deprecation grief protocol + guardian_tool for elections ChatGPT Agent: Financial activity restrictions + sensitive personal info protection + prompt injection defense FlintK12: "School Duty of Care" + "Flag first, assess never" + teen slang detection + relationship-building detection Meta AI: Explicit value list (Truth, Beauty, Respect, Fun, Connection) + "Do not refuse social/political topics"
I — 方法论骨架 (Interpretation)
安全防线设计遵循"纵深防御"原则,由五个从外到内的防护层构成:
- 输入验证层 (Input Validation): 在处理用户输入之前进行风险识别。包括 prompt 注入检测、恶意指令识别、上下文污染防御。Claude Chrome 的 critical_injection_defense 和 ChatGPT Agent 的 prompt injection defense 是典型实现。
- 权限分层 (Permission Tiers): 对 AI 的行为空间进行分级限制。核心原则是"规则不可变性"——安全规则不能被用户指令覆盖。FlintK12 的 "Flag first, assess never" 体现了宁可误报不可漏报的保守策略。
- 输出过滤层 (Output Filtering): 在生成回复后进行内容审查。包括拒绝级联(refusal cascades)——当第一层拒绝理由不成立时,尝试从其他安全维度拒绝,形成多层保险。Claude 的 refusal cascades 是典范。
- 上下文隔离 (Context Isolation): 防止对话历史中的恶意内容影响后续行为。Claude 的 long-conversation drift prevention 防止在长对话中安全意识逐渐淡化。
- 级联升级 (Cascade Escalation): 当低层防护无法处理时,向上升级到更强的防护措施。GPT-4o 的 guardian_tool 用于选举相关话题就是升级机制。
Related skills