5.1 反思(Reflection)
反思模式让智能体具备自我审视和改进的能力——生成内容后自动检查数据是否准确、逻辑是否严密、风险提示是否充分,发现问题则自行修正。
5.1.1 生产者-批评者架构
反思模式最经典的实现是生产者-批评者架构(Producer-Critic Architecture)。这个设计将内容生成和内容评估分离开来,用两个不同的角色来完成任务。
生产者负责根据用户需求生成内容;批评者则站在审核专家的角度,评估内容质量并提出改进意见。两者交替工作,直到输出达到质量要求。
这种架构的核心价值在于引入客观性。同一个人既写又审,容易陷入确认偏误——觉得自己写的都对。分离生产和评估角色后,评估者更容易发现问题。
在实际实现中,生产者和批评者可以是同一个 AI 模型的不同提示,也可以是两个独立的模型。关键是要让批评者有清晰的评估标准和批判性思维。

确认偏误(Confirmation Bias)是一种常见的认知偏差,指人们倾向于寻找支持自己观点的证据,而忽视反面证据。在投资分析中,分析师可能因为看好某只股票,就只关注利好消息而忽视风险因素。生产者-批评者架构通过角色分离来对抗这种偏误。
5.1.2 四步反思流程
一个完整的反思循环包含四个步骤:生成、审查、修订、验证。
第一步:生成(Generate)
根据用户需求产出初始内容。这一步不做质量假设,专注于完成任务。比如,分析某公司的财务状况,先生成一份包含杜邦分析的初稿。
第二步:审查(Review)
从多个维度评估生成内容的质量。常见的评估维度包括:
- 逻辑连贯性:推理过程是否合理?
- 数据准确性:引用的数据是否正确、是否最新?
- 完整性:是否遗漏了重要方面?
- 表达清晰度:是否容易理解?
审查结果需要结构化输出,包括质量评分、发现的问题列表、具体改进建议。
第三步:修订(Revise)
根据审查结果进行针对性修改。修订不是重写,而是精准解决审查中发现的问题。比如,审查发现风险提示不足,修订时就补充相应内容。
第四步:验证(Verify)
确认修订是否解决了发现的问题,判断是否达到质量阈值。如果通过验证,输出最终结果;如果仍有问题,返回第二步继续迭代。
这个循环通常重复 1-3 次。研究表明,经过反思迭代的输出质量平均提升 20%。但迭代次数超过 3 次后,边际收益明显递减。

5.1.3 自我批评提示设计
让 AI 进行有效的自我批评,关键在于提示词的设计。好的批评提示应该:
明确评估维度。不要只说检查一下有没有问题,而要列出具体的检查要点。例如,在金融分析场景中:
请从以下维度审核这份投资建议:
数据准确性:
- 财务数据是否来自最新财报?
- 市场数据是否为近期数据?
- 计算过程是否正确?
风险披露:
- 是否说明了可能的亏损?
- 是否提及了市场波动风险?
- 是否考虑了流动性风险?
合规检查:
- 是否避免了收益承诺表述?
- 是否有充分的风险提示?
请列出发现的所有问题,并按严重程度排序。
鼓励批判性思维。提示词应该引导 AI 寻找问题,而不是确认正确性。可以使用这样的表述:假设这份分析存在问题,请找出可能的漏洞。
要求结构化输出。让批评结果便于后续处理。可以要求按问题类型分类,给出严重程度评级,并提供具体的修改建议。
对于经济金融专业学生来说,设计自我批评提示可以借鉴论文审稿的经验:好的审稿意见总是具体指出问题所在,而不是笼统地说需要改进。同样,好的批评提示需要明确告诉 AI 要检查什么、如何判断好坏。
5.1.4 反思深度与成本权衡
反思模式提升质量的同时也增加了成本。每一轮反思都意味着额外的 API 调用、更长的响应时间、更多的 token 消耗。
成本与质量的关系大致如下:
| 迭代次数 | 质量提升 | Token 成本 | 响应时间 | 使用建议 |
|---|---|---|---|---|
| 1 次 | +15-20% | 2x | 2x | 推荐用于常规任务 |
| 2-3 次 | +20-25% | 3-4x | 3-4x | 推荐用于重要任务 |
| 4-5 次 | +5-10% | 5-6x | 5-6x | 视任务重要性决定 |
| 5 次以上 | <5% | 7x+ | 7x+ | 不推荐 |
最佳实践是根据任务重要性选择反思深度:
- 高风险任务(如投资建议、合规审查):使用 2-3 轮反思
- 中等任务(如数据分析、报告初稿):使用 1-2 轮反思
- 低风险任务(如信息查询、格式转换):可以跳过反思
还有一种条件触发策略:只有当初始输出的置信度低于阈值时才启动反思。这样既保证了质量,又避免了对简单任务的过度处理。
案例 5A:投资建议自我审核(反思)
| 要素 | 说明 |
|---|---|
| 演示模式 | 反思(Reflection) |
| 案例简述 | 生成投资建议后,触发批评者角色审视风险披露是否充分、论据是否可靠。体验生产者-批评者架构的自我修正机制。 |
| 应用衔接 | 第 11 章舆情分析的情感判断复核、第 13 章研报的 Writer-Reviewer 迭代均采用反思模式 |
实践步骤:
第一步,请求生成投资建议:
请分析以下公司的投资价值并给出建议:
- 公司:示例科技股份有限公司
- 营业收入:50亿元,同比增长15%
- 净利润:5亿元,同比增长20%
- 市盈率:25倍
- 行业:软件服务
第二步,触发自我批评:
请对上述投资建议进行严格自我审核:
1. 数据计算是否准确?
2. 结论是否有充分的数据支撑?
3. 是否遗漏了重要风险因素?
4. 用词是否避免了不当承诺?
列出发现的问题并给出改进版本。
通过这个过程,你会发现初始建议可能存在风险提示不足、结论过于绝对等问题,经过反思后的版本会更加严谨。