5.1 反思（Reflection）

反思模式让智能体具备自我审视和改进的能力——生成内容后自动检查数据是否准确、逻辑是否严密、风险提示是否充分，发现问题则自行修正。

5.1.1 生产者-批评者架构

反思模式最经典的实现是生产者-批评者架构（Producer-Critic Architecture）。这个设计将内容生成和内容评估分离开来，用两个不同的角色来完成任务。

生产者负责根据用户需求生成内容；批评者则站在审核专家的角度，评估内容质量并提出改进意见。两者交替工作，直到输出达到质量要求。

这种架构的核心价值在于引入客观性。同一个人既写又审，容易陷入确认偏误——觉得自己写的都对。分离生产和评估角色后，评估者更容易发现问题。

在实际实现中，生产者和批评者可以是同一个 AI 模型的不同提示，也可以是两个独立的模型。关键是要让批评者有清晰的评估标准和批判性思维。

知识卡片：确认偏误

确认偏误（Confirmation Bias）是一种常见的认知偏差，指人们倾向于寻找支持自己观点的证据，而忽视反面证据。在投资分析中，分析师可能因为看好某只股票，就只关注利好消息而忽视风险因素。生产者-批评者架构通过角色分离来对抗这种偏误。

5.1.2 四步反思流程

一个完整的反思循环包含四个步骤：生成、审查、修订、验证。

第一步：生成（Generate）

根据用户需求产出初始内容。这一步不做质量假设，专注于完成任务。比如，分析某公司的财务状况，先生成一份包含杜邦分析的初稿。

第二步：审查（Review）

从多个维度评估生成内容的质量。常见的评估维度包括：

逻辑连贯性：推理过程是否合理？
数据准确性：引用的数据是否正确、是否最新？
完整性：是否遗漏了重要方面？
表达清晰度：是否容易理解？

审查结果需要结构化输出，包括质量评分、发现的问题列表、具体改进建议。

第三步：修订（Revise）

根据审查结果进行针对性修改。修订不是重写，而是精准解决审查中发现的问题。比如，审查发现风险提示不足，修订时就补充相应内容。

第四步：验证（Verify）

确认修订是否解决了发现的问题，判断是否达到质量阈值。如果通过验证，输出最终结果；如果仍有问题，返回第二步继续迭代。

这个循环通常重复 1-3 次。研究表明，经过反思迭代的输出质量平均提升 20%。但迭代次数超过 3 次后，边际收益明显递减。

5.1.3 自我批评提示设计

让 AI 进行有效的自我批评，关键在于提示词的设计。好的批评提示应该：

明确评估维度。不要只说检查一下有没有问题，而要列出具体的检查要点。例如，在金融分析场景中：

请从以下维度审核这份投资建议：

数据准确性：
- 财务数据是否来自最新财报？
- 市场数据是否为近期数据？
- 计算过程是否正确？

风险披露：
- 是否说明了可能的亏损？
- 是否提及了市场波动风险？
- 是否考虑了流动性风险？

合规检查：
- 是否避免了收益承诺表述？
- 是否有充分的风险提示？

请列出发现的所有问题，并按严重程度排序。

鼓励批判性思维。提示词应该引导 AI 寻找问题，而不是确认正确性。可以使用这样的表述：假设这份分析存在问题，请找出可能的漏洞。

要求结构化输出。让批评结果便于后续处理。可以要求按问题类型分类，给出严重程度评级，并提供具体的修改建议。

教学提示

对于经济金融专业学生来说，设计自我批评提示可以借鉴论文审稿的经验：好的审稿意见总是具体指出问题所在，而不是笼统地说需要改进。同样，好的批评提示需要明确告诉 AI 要检查什么、如何判断好坏。

5.1.4 反思深度与成本权衡

反思模式提升质量的同时也增加了成本。每一轮反思都意味着额外的 API 调用、更长的响应时间、更多的 token 消耗。

成本与质量的关系大致如下：

迭代次数	质量提升	Token 成本	响应时间	使用建议
1 次	+15-20%	2x	2x	推荐用于常规任务
2-3 次	+20-25%	3-4x	3-4x	推荐用于重要任务
4-5 次	+5-10%	5-6x	5-6x	视任务重要性决定
5 次以上	<5%	7x+	7x+	不推荐

最佳实践是根据任务重要性选择反思深度：

高风险任务（如投资建议、合规审查）：使用 2-3 轮反思
中等任务（如数据分析、报告初稿）：使用 1-2 轮反思
低风险任务（如信息查询、格式转换）：可以跳过反思

还有一种条件触发策略：只有当初始输出的置信度低于阈值时才启动反思。这样既保证了质量，又避免了对简单任务的过度处理。

案例 5A：投资建议自我审核（反思）

要素	说明
演示模式	反思（Reflection）
案例简述	生成投资建议后，触发批评者角色审视风险披露是否充分、论据是否可靠。体验生产者-批评者架构的自我修正机制。
应用衔接	第 11 章舆情分析的情感判断复核、第 13 章研报的 Writer-Reviewer 迭代均采用反思模式

实践步骤：

第一步，请求生成投资建议：

请分析以下公司的投资价值并给出建议：
- 公司：示例科技股份有限公司
- 营业收入：50亿元，同比增长15%
- 净利润：5亿元，同比增长20%
- 市盈率：25倍
- 行业：软件服务

第二步，触发自我批评：

请对上述投资建议进行严格自我审核：

1. 数据计算是否准确？
2. 结论是否有充分的数据支撑？
3. 是否遗漏了重要风险因素？
4. 用词是否避免了不当承诺？

列出发现的问题并给出改进版本。

通过这个过程，你会发现初始建议可能存在风险提示不足、结论过于绝对等问题，经过反思后的版本会更加严谨。

--- title: "5.1 反思（Reflection）" --- 反思模式让智能体具备自我审视和改进的能力——生成内容后自动检查数据是否准确、逻辑是否严密、风险提示是否充分，发现问题则自行修正。 ### 5.1.1 生产者-批评者架构反思模式最经典的实现是生产者-批评者架构（Producer-Critic Architecture）。这个设计将内容生成和内容评估分离开来，用两个不同的角色来完成任务。生产者负责根据用户需求生成内容；批评者则站在审核专家的角度，评估内容质量并提出改进意见。两者交替工作，直到输出达到质量要求。这种架构的核心价值在于引入客观性。同一个人既写又审，容易陷入确认偏误——觉得自己写的都对。分离生产和评估角色后，评估者更容易发现问题。在实际实现中，生产者和批评者可以是同一个 AI 模型的不同提示，也可以是两个独立的模型。关键是要让批评者有清晰的评估标准和批判性思维。 ![生产者-批评者架构](images/img_01_生产者批评者架构.png) ::: {.callout-note} ## 知识卡片：确认偏误确认偏误（Confirmation Bias）是一种常见的认知偏差，指人们倾向于寻找支持自己观点的证据，而忽视反面证据。在投资分析中，分析师可能因为看好某只股票，就只关注利好消息而忽视风险因素。生产者-批评者架构通过角色分离来对抗这种偏误。 ::: ### 5.1.2 四步反思流程一个完整的反思循环包含四个步骤：生成、审查、修订、验证。 **第一步：生成（Generate）** 根据用户需求产出初始内容。这一步不做质量假设，专注于完成任务。比如，分析某公司的财务状况，先生成一份包含杜邦分析的初稿。 **第二步：审查（Review）** 从多个维度评估生成内容的质量。常见的评估维度包括： - 逻辑连贯性：推理过程是否合理？ - 数据准确性：引用的数据是否正确、是否最新？ - 完整性：是否遗漏了重要方面？ - 表达清晰度：是否容易理解？审查结果需要结构化输出，包括质量评分、发现的问题列表、具体改进建议。 **第三步：修订（Revise）** 根据审查结果进行针对性修改。修订不是重写，而是精准解决审查中发现的问题。比如，审查发现风险提示不足，修订时就补充相应内容。 **第四步：验证（Verify）** 确认修订是否解决了发现的问题，判断是否达到质量阈值。如果通过验证，输出最终结果；如果仍有问题，返回第二步继续迭代。这个循环通常重复 1-3 次。研究表明，经过反思迭代的输出质量平均提升 20%。但迭代次数超过 3 次后，边际收益明显递减。 ![四步反思流程](images/img_02_四步反思流程.png) ### 5.1.3 自我批评提示设计让 AI 进行有效的自我批评，关键在于提示词的设计。好的批评提示应该： **明确评估维度**。不要只说检查一下有没有问题，而要列出具体的检查要点。例如，在金融分析场景中： ``` 请从以下维度审核这份投资建议：数据准确性： - 财务数据是否来自最新财报？ - 市场数据是否为近期数据？ - 计算过程是否正确？风险披露： - 是否说明了可能的亏损？ - 是否提及了市场波动风险？ - 是否考虑了流动性风险？合规检查： - 是否避免了收益承诺表述？ - 是否有充分的风险提示？请列出发现的所有问题，并按严重程度排序。 ``` **鼓励批判性思维**。提示词应该引导 AI 寻找问题，而不是确认正确性。可以使用这样的表述：假设这份分析存在问题，请找出可能的漏洞。 **要求结构化输出**。让批评结果便于后续处理。可以要求按问题类型分类，给出严重程度评级，并提供具体的修改建议。 ::: {.callout-tip} ## 教学提示对于经济金融专业学生来说，设计自我批评提示可以借鉴论文审稿的经验：好的审稿意见总是具体指出问题所在，而不是笼统地说需要改进。同样，好的批评提示需要明确告诉 AI 要检查什么、如何判断好坏。 ::: ### 5.1.4 反思深度与成本权衡反思模式提升质量的同时也增加了成本。每一轮反思都意味着额外的 API 调用、更长的响应时间、更多的 token 消耗。成本与质量的关系大致如下： | 迭代次数 | 质量提升 | Token 成本 | 响应时间 | 使用建议 | |:--------:|:--------:|:----------:|:--------:|:---------| | 1 次 | +15-20% | 2x | 2x | 推荐用于常规任务 | | 2-3 次 | +20-25% | 3-4x | 3-4x | 推荐用于重要任务 | | 4-5 次 | +5-10% | 5-6x | 5-6x | 视任务重要性决定 | | 5 次以上 | <5% | 7x+ | 7x+ | 不推荐 | 最佳实践是根据任务重要性选择反思深度： - **高风险任务**（如投资建议、合规审查）：使用 2-3 轮反思 - **中等任务**（如数据分析、报告初稿）：使用 1-2 轮反思 - **低风险任务**（如信息查询、格式转换）：可以跳过反思还有一种条件触发策略：只有当初始输出的置信度低于阈值时才启动反思。这样既保证了质量，又避免了对简单任务的过度处理。 **案例 5A：投资建议自我审核（反思）** | 要素 | 说明 | |------|------| | 演示模式 | 反思（Reflection） | | 案例简述 | 生成投资建议后，触发批评者角色审视风险披露是否充分、论据是否可靠。体验生产者-批评者架构的自我修正机制。 | | 应用衔接 | 第 11 章舆情分析的情感判断复核、第 13 章研报的 Writer-Reviewer 迭代均采用反思模式 | **实践步骤**：第一步，请求生成投资建议： ``` 请分析以下公司的投资价值并给出建议： - 公司：示例科技股份有限公司 - 营业收入：50亿元，同比增长15% - 净利润：5亿元，同比增长20% - 市盈率：25倍 - 行业：软件服务 ``` 第二步，触发自我批评： ``` 请对上述投资建议进行严格自我审核： 1. 数据计算是否准确？ 2. 结论是否有充分的数据支撑？ 3. 是否遗漏了重要风险因素？ 4. 用词是否避免了不当承诺？列出发现的问题并给出改进版本。 ``` 通过这个过程，你会发现初始建议可能存在风险提示不足、结论过于绝对等问题，经过反思后的版本会更加严谨。