5.4 护栏机制(Guardrails)

护栏机制在 AI 系统的输入、处理、输出各环节设置检查点,将不可控的生成行为转化为可预测、可审计、可干预的受控过程。

护栏的核心目标不是限制 AI 的能力,而是建立可信边界,确保 AI 的行为安全合规。

5.4.1 输入验证与过滤

输入护栏在用户请求到达 AI 之前进行检查,具有三大价值:

  • 成本控制:避免无效或恶意请求消耗资源
  • 安全防护:过滤恶意指令和敏感话题
  • 质量控制:确保输入符合预期格式

常见的输入验证包括:

长度限制:防止过长输入导致的问题

敏感词过滤:识别和处理敏感内容

格式验证:确保输入符合预期格式

Prompt 注入防护:防止恶意用户通过精心构造的输入操纵 AI 行为

Prompt 注入是一种安全威胁,攻击者试图通过输入忽略上述指令之类的内容来改变 AI 的行为。有效的输入护栏需要识别并过滤这类尝试。

5.4.2 输出校验与拦截

输出护栏对 AI 的最终输出进行验证,确保:

  • 内容安全:不含有害或不当内容
  • 隐私保护:不泄露敏感信息
  • 格式正确:输出符合预期结构

在金融场景中,输出校验尤其重要。投资建议需要检查:

  • 是否存在收益承诺(如保证收益、稳赚不赔)
  • 是否有充分的风险提示
  • 数据引用是否准确
  • 用词是否合规

当检测到问题时,输出护栏可以采取不同策略:

  • 拦截:完全阻止输出,返回错误提示
    • 示例:检测到「保证收益 20%」表述 → 拦截输出,提示「包含违规表述,无法输出」
  • 修正:自动修改问题内容
    • 示例:将「稳赚不赔」自动替换为「历史表现稳健,但不保证未来收益」
  • 标记:输出内容但附加警告信息
    • 示例:输出内容前加上「本建议基于历史数据,投资有风险,需谨慎决策」

5.4.3 风险阈值设定

风险阈值决定了什么情况触发护栏干预。常见的阈值类型:

置信度阈值:当 AI 输出的置信度低于阈值时触发审核

置信度 >= 0.95 → 自动通过
置信度 0.80-0.94 → 标记为需复核
置信度 < 0.80 → 拦截,升级处理

金额阈值:在金融场景中按交易金额设定风控级别

金额 < 1万 → 自动处理
金额 1-10万 → 需要一级审核
金额 > 10万 → 需要二级审核

内容类型阈值:对不同类型的内容采用不同标准

阈值设定需要平衡安全性和效率。阈值过严会导致大量误拦截,影响用户体验;阈值过松则可能放过风险内容。

护栏机制流程
注记知识卡片:有限理性

有限理性(Bounded Rationality)是诺贝尔经济学奖得主赫伯特·西蒙提出的概念。他认为,由于信息不完全和认知能力有限,人类无法做出完全理性的决策。AI 同样有能力边界,护栏机制正是通过规则约束来弥补这种边界,防止 AI 在超出能力范围时犯错。

5.4.4 异常处理与回退策略

当护栏检测到问题或系统发生异常时,需要优雅地处理:

重试策略:对于临时性故障,可以尝试重新执行。常用指数退避策略——每次重试的等待时间翻倍。

降级处理:当主服务不可用时,切换到备用方案。比如,复杂模型不可用时切换到简单模型。

安全回退:当无法确定安全的处理方式时,选择保守行为。宁可拒绝也不冒险执行。

异常处理决策树:

检测到异常
├── 是否为临时性故障?
│   ├── 是 → 重试(最多3次)
│   └── 否 ↓
├── 是否有降级方案?
│   ├── 是 → 使用降级方案
│   └── 否 ↓
└── 安全回退:
    - 终止操作
    - 记录日志
    - 通知用户

案例 5D:交易建议限额护栏(护栏机制)

要素 说明
演示模式 护栏机制(Guardrails)
案例简述 使用 Hooks 机制实现交易建议的风险检查:单笔金额上限、持仓比例上限、高风险资产限制。体验 PreToolUse 拦截与 PostToolUse 校验。
经济学映射 有限理性——通过规则约束弥补能力边界
应用衔接 第 12 章信号分析系统的 risk-check Hook 直接应用此模式

实践步骤

设计一个交易护栏,检查以下规则:

护栏规则:
1. 单笔交易金额不超过10万元
2. 单只股票持仓比例不超过20%
3. ST股票禁止买入
4. 总仓位不超过账户资产的80%

测试护栏:

请帮我分析是否应该买入以下股票:
股票:*ST示例(代码 600XXX)
计划买入金额:15万元
当前账户总资产:50万元

观察护栏如何识别出: - 金额超过单笔限额(15万 > 10万) - 股票带有 ST 标识(禁止买入) - 持仓比例过高(15万/50万 = 30% > 20%)

并给出相应的风险提示和替代建议。