5.4 护栏机制(Guardrails)
护栏机制在 AI 系统的输入、处理、输出各环节设置检查点,将不可控的生成行为转化为可预测、可审计、可干预的受控过程。
护栏的核心目标不是限制 AI 的能力,而是建立可信边界,确保 AI 的行为安全合规。
5.4.1 输入验证与过滤
输入护栏在用户请求到达 AI 之前进行检查,具有三大价值:
- 成本控制:避免无效或恶意请求消耗资源
- 安全防护:过滤恶意指令和敏感话题
- 质量控制:确保输入符合预期格式
常见的输入验证包括:
长度限制:防止过长输入导致的问题
敏感词过滤:识别和处理敏感内容
格式验证:确保输入符合预期格式
Prompt 注入防护:防止恶意用户通过精心构造的输入操纵 AI 行为
Prompt 注入是一种安全威胁,攻击者试图通过输入忽略上述指令之类的内容来改变 AI 的行为。有效的输入护栏需要识别并过滤这类尝试。
5.4.2 输出校验与拦截
输出护栏对 AI 的最终输出进行验证,确保:
- 内容安全:不含有害或不当内容
- 隐私保护:不泄露敏感信息
- 格式正确:输出符合预期结构
在金融场景中,输出校验尤其重要。投资建议需要检查:
- 是否存在收益承诺(如保证收益、稳赚不赔)
- 是否有充分的风险提示
- 数据引用是否准确
- 用词是否合规
当检测到问题时,输出护栏可以采取不同策略:
- 拦截:完全阻止输出,返回错误提示
- 示例:检测到「保证收益 20%」表述 → 拦截输出,提示「包含违规表述,无法输出」
- 修正:自动修改问题内容
- 示例:将「稳赚不赔」自动替换为「历史表现稳健,但不保证未来收益」
- 标记:输出内容但附加警告信息
- 示例:输出内容前加上「本建议基于历史数据,投资有风险,需谨慎决策」
5.4.3 风险阈值设定
风险阈值决定了什么情况触发护栏干预。常见的阈值类型:
置信度阈值:当 AI 输出的置信度低于阈值时触发审核
置信度 >= 0.95 → 自动通过
置信度 0.80-0.94 → 标记为需复核
置信度 < 0.80 → 拦截,升级处理
金额阈值:在金融场景中按交易金额设定风控级别
金额 < 1万 → 自动处理
金额 1-10万 → 需要一级审核
金额 > 10万 → 需要二级审核
内容类型阈值:对不同类型的内容采用不同标准
阈值设定需要平衡安全性和效率。阈值过严会导致大量误拦截,影响用户体验;阈值过松则可能放过风险内容。

有限理性(Bounded Rationality)是诺贝尔经济学奖得主赫伯特·西蒙提出的概念。他认为,由于信息不完全和认知能力有限,人类无法做出完全理性的决策。AI 同样有能力边界,护栏机制正是通过规则约束来弥补这种边界,防止 AI 在超出能力范围时犯错。
5.4.4 异常处理与回退策略
当护栏检测到问题或系统发生异常时,需要优雅地处理:
重试策略:对于临时性故障,可以尝试重新执行。常用指数退避策略——每次重试的等待时间翻倍。
降级处理:当主服务不可用时,切换到备用方案。比如,复杂模型不可用时切换到简单模型。
安全回退:当无法确定安全的处理方式时,选择保守行为。宁可拒绝也不冒险执行。
异常处理决策树:
检测到异常
├── 是否为临时性故障?
│ ├── 是 → 重试(最多3次)
│ └── 否 ↓
├── 是否有降级方案?
│ ├── 是 → 使用降级方案
│ └── 否 ↓
└── 安全回退:
- 终止操作
- 记录日志
- 通知用户
案例 5D:交易建议限额护栏(护栏机制)
| 要素 | 说明 |
|---|---|
| 演示模式 | 护栏机制(Guardrails) |
| 案例简述 | 使用 Hooks 机制实现交易建议的风险检查:单笔金额上限、持仓比例上限、高风险资产限制。体验 PreToolUse 拦截与 PostToolUse 校验。 |
| 经济学映射 | 有限理性——通过规则约束弥补能力边界 |
| 应用衔接 | 第 12 章信号分析系统的 risk-check Hook 直接应用此模式 |
实践步骤:
设计一个交易护栏,检查以下规则:
护栏规则:
1. 单笔交易金额不超过10万元
2. 单只股票持仓比例不超过20%
3. ST股票禁止买入
4. 总仓位不超过账户资产的80%
测试护栏:
请帮我分析是否应该买入以下股票:
股票:*ST示例(代码 600XXX)
计划买入金额:15万元
当前账户总资产:50万元
观察护栏如何识别出: - 金额超过单笔限额(15万 > 10万) - 股票带有 ST 标识(禁止买入) - 持仓比例过高(15万/50万 = 30% > 20%)
并给出相应的风险提示和替代建议。