5.4 护栏机制（Guardrails）

护栏机制在 AI 系统的输入、处理、输出各环节设置检查点，将不可控的生成行为转化为可预测、可审计、可干预的受控过程。

护栏的核心目标不是限制 AI 的能力，而是建立可信边界，确保 AI 的行为安全合规。

5.4.1 输入验证与过滤

输入护栏在用户请求到达 AI 之前进行检查，具有三大价值：

成本控制：避免无效或恶意请求消耗资源
安全防护：过滤恶意指令和敏感话题
质量控制：确保输入符合预期格式

常见的输入验证包括：

长度限制：防止过长输入导致的问题

敏感词过滤：识别和处理敏感内容

格式验证：确保输入符合预期格式

Prompt 注入防护：防止恶意用户通过精心构造的输入操纵 AI 行为

Prompt 注入是一种安全威胁，攻击者试图通过输入忽略上述指令之类的内容来改变 AI 的行为。有效的输入护栏需要识别并过滤这类尝试。

5.4.2 输出校验与拦截

输出护栏对 AI 的最终输出进行验证，确保：

内容安全：不含有害或不当内容
隐私保护：不泄露敏感信息
格式正确：输出符合预期结构

在金融场景中，输出校验尤其重要。投资建议需要检查：

是否存在收益承诺（如保证收益、稳赚不赔）
是否有充分的风险提示
数据引用是否准确
用词是否合规

当检测到问题时，输出护栏可以采取不同策略：

拦截：完全阻止输出，返回错误提示
- 示例：检测到「保证收益 20%」表述 → 拦截输出，提示「包含违规表述，无法输出」
修正：自动修改问题内容
- 示例：将「稳赚不赔」自动替换为「历史表现稳健，但不保证未来收益」
标记：输出内容但附加警告信息
- 示例：输出内容前加上「本建议基于历史数据，投资有风险，需谨慎决策」

5.4.3 风险阈值设定

风险阈值决定了什么情况触发护栏干预。常见的阈值类型：

置信度阈值：当 AI 输出的置信度低于阈值时触发审核

置信度 >= 0.95 → 自动通过
置信度 0.80-0.94 → 标记为需复核
置信度 < 0.80 → 拦截，升级处理

金额阈值：在金融场景中按交易金额设定风控级别

金额 < 1万 → 自动处理
金额 1-10万 → 需要一级审核
金额 > 10万 → 需要二级审核

内容类型阈值：对不同类型的内容采用不同标准

阈值设定需要平衡安全性和效率。阈值过严会导致大量误拦截，影响用户体验；阈值过松则可能放过风险内容。

知识卡片：有限理性

有限理性（Bounded Rationality）是诺贝尔经济学奖得主赫伯特·西蒙提出的概念。他认为，由于信息不完全和认知能力有限，人类无法做出完全理性的决策。AI 同样有能力边界，护栏机制正是通过规则约束来弥补这种边界，防止 AI 在超出能力范围时犯错。

5.4.4 异常处理与回退策略

当护栏检测到问题或系统发生异常时，需要优雅地处理：

重试策略：对于临时性故障，可以尝试重新执行。常用指数退避策略——每次重试的等待时间翻倍。

降级处理：当主服务不可用时，切换到备用方案。比如，复杂模型不可用时切换到简单模型。

安全回退：当无法确定安全的处理方式时，选择保守行为。宁可拒绝也不冒险执行。

异常处理决策树：

检测到异常
├── 是否为临时性故障？
│   ├── 是 → 重试（最多3次）
│   └── 否 ↓
├── 是否有降级方案？
│   ├── 是 → 使用降级方案
│   └── 否 ↓
└── 安全回退：
    - 终止操作
    - 记录日志
    - 通知用户

案例 5D：交易建议限额护栏（护栏机制）

要素	说明
演示模式	护栏机制（Guardrails）
案例简述	使用 Hooks 机制实现交易建议的风险检查：单笔金额上限、持仓比例上限、高风险资产限制。体验 PreToolUse 拦截与 PostToolUse 校验。
经济学映射	有限理性——通过规则约束弥补能力边界
应用衔接	第 12 章信号分析系统的 risk-check Hook 直接应用此模式

实践步骤：

设计一个交易护栏，检查以下规则：

护栏规则：
1. 单笔交易金额不超过10万元
2. 单只股票持仓比例不超过20%
3. ST股票禁止买入
4. 总仓位不超过账户资产的80%

测试护栏：

请帮我分析是否应该买入以下股票：
股票：*ST示例（代码 600XXX）
计划买入金额：15万元
当前账户总资产：50万元

观察护栏如何识别出： - 金额超过单笔限额（15万 > 10万） - 股票带有 ST 标识（禁止买入） - 持仓比例过高（15万/50万 = 30% > 20%）

并给出相应的风险提示和替代建议。

--- title: "5.4 护栏机制（Guardrails）" --- 护栏机制在 AI 系统的输入、处理、输出各环节设置检查点，将不可控的生成行为转化为可预测、可审计、可干预的受控过程。护栏的核心目标不是限制 AI 的能力，而是建立可信边界，确保 AI 的行为安全合规。 ### 5.4.1 输入验证与过滤输入护栏在用户请求到达 AI 之前进行检查，具有三大价值： - **成本控制**：避免无效或恶意请求消耗资源 - **安全防护**：过滤恶意指令和敏感话题 - **质量控制**：确保输入符合预期格式常见的输入验证包括： **长度限制**：防止过长输入导致的问题 **敏感词过滤**：识别和处理敏感内容 **格式验证**：确保输入符合预期格式 **Prompt 注入防护**：防止恶意用户通过精心构造的输入操纵 AI 行为 Prompt 注入是一种安全威胁，攻击者试图通过输入忽略上述指令之类的内容来改变 AI 的行为。有效的输入护栏需要识别并过滤这类尝试。 ### 5.4.2 输出校验与拦截输出护栏对 AI 的最终输出进行验证，确保： - **内容安全**：不含有害或不当内容 - **隐私保护**：不泄露敏感信息 - **格式正确**：输出符合预期结构在金融场景中，输出校验尤其重要。投资建议需要检查： - 是否存在收益承诺（如保证收益、稳赚不赔） - 是否有充分的风险提示 - 数据引用是否准确 - 用词是否合规当检测到问题时，输出护栏可以采取不同策略： - **拦截**：完全阻止输出，返回错误提示 - 示例：检测到「保证收益 20%」表述 → 拦截输出，提示「包含违规表述，无法输出」 - **修正**：自动修改问题内容 - 示例：将「稳赚不赔」自动替换为「历史表现稳健，但不保证未来收益」 - **标记**：输出内容但附加警告信息 - 示例：输出内容前加上「本建议基于历史数据，投资有风险，需谨慎决策」 ### 5.4.3 风险阈值设定风险阈值决定了什么情况触发护栏干预。常见的阈值类型： **置信度阈值**：当 AI 输出的置信度低于阈值时触发审核 ``` 置信度 >= 0.95 → 自动通过置信度 0.80-0.94 → 标记为需复核置信度 < 0.80 → 拦截，升级处理 ``` **金额阈值**：在金融场景中按交易金额设定风控级别 ``` 金额 < 1万 → 自动处理金额 1-10万 → 需要一级审核金额 > 10万 → 需要二级审核 ``` **内容类型阈值**：对不同类型的内容采用不同标准阈值设定需要平衡安全性和效率。阈值过严会导致大量误拦截，影响用户体验；阈值过松则可能放过风险内容。 ![护栏机制流程](images/img_05_护栏机制流程.png) ::: {.callout-note} ## 知识卡片：有限理性有限理性（Bounded Rationality）是诺贝尔经济学奖得主赫伯特·西蒙提出的概念。他认为，由于信息不完全和认知能力有限，人类无法做出完全理性的决策。AI 同样有能力边界，护栏机制正是通过规则约束来弥补这种边界，防止 AI 在超出能力范围时犯错。 ::: ### 5.4.4 异常处理与回退策略当护栏检测到问题或系统发生异常时，需要优雅地处理： **重试策略**：对于临时性故障，可以尝试重新执行。常用指数退避策略——每次重试的等待时间翻倍。 **降级处理**：当主服务不可用时，切换到备用方案。比如，复杂模型不可用时切换到简单模型。 **安全回退**：当无法确定安全的处理方式时，选择保守行为。宁可拒绝也不冒险执行。 ``` 异常处理决策树：检测到异常 ├── 是否为临时性故障？ │ ├── 是 → 重试（最多3次） │ └── 否 ↓ ├── 是否有降级方案？ │ ├── 是 → 使用降级方案 │ └── 否 ↓ └── 安全回退： - 终止操作 - 记录日志 - 通知用户 ``` **案例 5D：交易建议限额护栏（护栏机制）** | 要素 | 说明 | |------|------| | 演示模式 | 护栏机制（Guardrails） | | 案例简述 | 使用 Hooks 机制实现交易建议的风险检查：单笔金额上限、持仓比例上限、高风险资产限制。体验 PreToolUse 拦截与 PostToolUse 校验。 | | 经济学映射 | 有限理性——通过规则约束弥补能力边界 | | 应用衔接 | 第 12 章信号分析系统的 risk-check Hook 直接应用此模式 | **实践步骤**：设计一个交易护栏，检查以下规则： ``` 护栏规则： 1. 单笔交易金额不超过10万元 2. 单只股票持仓比例不超过20% 3. ST股票禁止买入 4. 总仓位不超过账户资产的80% ``` 测试护栏： ``` 请帮我分析是否应该买入以下股票：股票：*ST示例（代码 600XXX）计划买入金额：15万元当前账户总资产：50万元 ``` 观察护栏如何识别出： - 金额超过单笔限额（15万 > 10万） - 股票带有 ST 标识（禁止买入） - 持仓比例过高（15万/50万 = 30% > 20%）并给出相应的风险提示和替代建议。