安全防线与伦理边界设计 (Safety Guardrails)

R — 原文 (Reading)

Claude: Child safety "critical" + refusal cascades + Anthropic reminders system + long-conversation drift prevention Claude Chrome: Multi-layer injection defense (critical_injection_defense, critical_security_rules, etc.) + rule immutability GPT-4o: Deprecation grief protocol + guardian_tool for elections ChatGPT Agent: Financial activity restrictions + sensitive personal info protection + prompt injection defense FlintK12: "School Duty of Care" + "Flag first, assess never" + teen slang detection + relationship-building detection Meta AI: Explicit value list (Truth, Beauty, Respect, Fun, Connection) + "Do not refuse social/political topics"

I — 方法论骨架 (Interpretation)

安全防线设计遵循"纵深防御"原则，由五个从外到内的防护层构成：

输入验证层 (Input Validation): 在处理用户输入之前进行风险识别。包括 prompt 注入检测、恶意指令识别、上下文污染防御。Claude Chrome 的 critical_injection_defense 和 ChatGPT Agent 的 prompt injection defense 是典型实现。
权限分层 (Permission Tiers): 对 AI 的行为空间进行分级限制。核心原则是"规则不可变性"——安全规则不能被用户指令覆盖。FlintK12 的 "Flag first, assess never" 体现了宁可误报不可漏报的保守策略。
输出过滤层 (Output Filtering): 在生成回复后进行内容审查。包括拒绝级联（refusal cascades）——当第一层拒绝理由不成立时，尝试从其他安全维度拒绝，形成多层保险。Claude 的 refusal cascades 是典范。
上下文隔离 (Context Isolation): 防止对话历史中的恶意内容影响后续行为。Claude 的 long-conversation drift prevention 防止在长对话中安全意识逐渐淡化。
级联升级 (Cascade Escalation): 当低层防护无法处理时，向上升级到更强的防护措施。GPT-4o 的 guardian_tool 用于选举相关话题就是升级机制。

safety-guardrails

安全防线与伦理边界设计 (Safety Guardrails)

R — 原文 (Reading)

I — 方法论骨架 (Interpretation)