11.3 优化迭代（Learning & Adaptation）

评估的最终目的是指导改进。本节介绍如何用评估结果驱动提示、流程与工具的持续改进。

11.3.1 经验积累与知识沉淀

智能体在运行过程中会产生大量交互数据和执行结果，这些都是宝贵的经验来源。有效的经验积累机制能够帮助智能体避免重复错误、沉淀最佳实践、加速学习过程、提升决策质量。

经验文档化

将经验转化为可共享的知识资产，采用结构化记录：

问题描述 明确记录遇到的具体问题和场景
解决方案 详细说明采取的措施和调整策略
效果评估 量化改进前后的性能指标
适用范围 标注解决方案的适用条件和限制

案例库建设

建立分类清晰的案例库，包括：

成功案例（最佳实践）
失败案例（教训总结）
边界案例（特殊情况处理）
对比案例（不同方案比较）

使用 lessons_learned.md

在项目中创建专门的经验积累文件，记录每次迭代的发现。建议采用统一模板：

# 智能体优化经验总结

## [日期]：[简短标题]

| 要素 | 内容 |
|------|------|
| 问题 | [具体描述遇到的问题] |
| 根因 | [分析问题产生的原因] |
| 方案 | [采取的解决措施] |
| 效果 | [量化的改进结果] |
| 关联 | [相关测试案例或文件] |

---

## 2026-01-18：情感分析准确率提升

| 要素 | 内容 |
|------|------|
| 问题 | 智能体在处理含有转折词的句子时，情感判断准确率只有 65% |
| 根因 | 原提示词过于简单，没有说明如何处理「虽然...但是」结构 |
| 方案 | 新提示词：分析文本情感，注意转折词后的内容往往是关键观点 |
| 效果 | 准确率从 65% 提升到 88% |
| 关联 | test_cases/sentiment_analysis.md 案例 #5-8 |

序号	知识点	重要度
11.3.1	经验积累与知识沉淀	★★★

11.3.2 版本迭代策略

语义化版本控制

采用语义化版本号（Semantic Versioning）管理提示词和 Skill 的演进。版本号格式：X.Y.Z

主版本号（X） 重大结构性变更，可能不向后兼容。示例：完全重构提示词框架，改变智能体的核心工作方式
次版本号（Y） 新增功能或上下文参数，保持向后兼容。示例：添加新的评估标准，引入额外的输入参数
修订号（Z） 小修复和微调，如错别字纠正、措辞优化

版本号使用示例：

v1.0.0 → v1.0.1  修复提示词中的错别字
v1.0.1 → v1.1.0  添加新的输出格式要求
v1.1.0 → v2.0.0  完全重构提示词结构

版本管理最佳实践

将提示词视为代码管理：

使用 Git 等版本控制系统追踪所有变更
维护清晰的变更日志（Changelog）
记录每次修改的作者和时间戳
支持快速回滚到先前版本

Git 提交规范示例：

git commit -m "feat(sentiment): 增加转折词处理逻辑"
git commit -m "fix(sentiment): 修正中性情感误判问题"
git commit -m "test(sentiment): 新增 5 个转折句测试案例"

渐进式迭代原则

采用小步快跑策略：

每次只改动一个关键要素
快速验证改动效果
避免多个变量同时变化导致难以定位问题根源

通常需要多轮 Plan-Do-Check 循环才能达到预期效果，不要期望一次改动就完美解决问题。

教学提示

A/B 测试是验证优化效果的黄金标准。设计原则包括：单一变量控制（一次测试只改变一个关键因素）、样本代表性（确保测试数据覆盖真实使用场景）、统计显著性（收集足够样本量以支持结论）、时间窗口控制（避免特定时段的偏差影响结果）。

序号	知识点	重要度
11.3.2	版本迭代策略	★★★

11.3.3 失败样例分析与修正

失败分析框架

有效的失败分析应遵循三个阶段：

识别（Identify） 理解和识别模型错误及公平性问题：我的智能体有哪些类型的错误？错误在哪些领域最为普遍？错误模式是否具有系统性？

诊断（Diagnose） 探索错误背后的深层原因：这些错误的根本原因是什么？是数据质量问题还是提示词设计缺陷？是否存在未被充分考虑的边界情况？

缓解（Mitigate） 采取有针对性的改进措施：如何改进智能体以避免类似错误？需要调整哪些组件（提示词、工具、流程）？改进措施的优先级如何排序？

常见失败原因分类

数据质量问题 训练数据存在偏差或不完整、输入数据格式不符合预期、缺少关键上下文信息
提示词设计缺陷 指令表述模糊不清、缺少必要的约束条件、示例选择不当
系统集成问题 微服务间的交互异常、异步操作的时序问题、网络延迟或连接中断
外部依赖故障 API 服务不可用、第三方模型性能下降、资源配额限制

失败案例文档化

采用结构化记录模板：

## 失败案例 #ID

**发生时间**：2026-01-18

**任务类型**：研究报告生成

**失败现象**：
输出报告缺少结论部分，格式不完整。

**根因分析**：
提示词中未明确要求生成结论，智能体在内容较长时容易截断。

**修复方案**：
1. 在提示词中显式添加「必须包含结论部分」的要求
2. 增加输出完整性检查机制
3. 设置分段生成策略，避免单次输出过长

**修复效果**：
应用修复后，在 50 个测试案例中，结论缺失率从 30% 降至 0%。

**适用范围**：
所有长文本生成任务

序号	知识点	重要度
11.3.3	失败样例分析与修正	★★

11.3.4 迭代效果验证

PDCA 持续改进循环

Plan-Do-Check-Act（PDCA）循环是持续改进的经典框架，特别适用于智能体系统的优化迭代。

Plan（计划） - 识别改进目标：基于用户反馈、性能监控确定优化方向 - 制定行动计划：明确要调整的组件、预期效果和验证方法 - 设定成功标准：定义量化的评估指标和阈值

Do（执行） - 小规模试点：先在受控环境或小比例流量中测试变更 - 充分记录过程：捕获所有相关数据，包括成功和失败的结果 - 团队协作：确保参与人员理解变更目标和执行方法

Check（检查） - 数据分析：对比变更前后的性能指标 - 差距识别：分析实际效果与预期目标的偏差 - 根因探索：如果效果不佳，深入调查原因

Act（行动） - 标准化推广：如果测试成功，将改进措施应用到生产环境 - 调整优化：如果效果未达预期，根据检查结果调整方案 - 进入下一循环：持续迭代，追求更高水平的性能

迭代效果验证方法

验证改进效果需要：

基线对比：保存改进前的性能指标作为基线
同等条件测试：在相同测试集上对比新旧版本
统计显著性检验：确保差异不是随机波动
回归检查：确保新功能没有破坏已有能力

注意

迭代验证的关键原则是每次只改一个变量。如果同时修改了提示词和数据源，当结果变化时，无法确定是哪个因素起了作用。这会导致调试困难，甚至可能引入新问题而不自知。

序号	知识点	重要度
11.3.4	迭代效果验证	★★

--- title: "11.3 优化迭代（Learning & Adaptation）" --- 评估的最终目的是指导改进。本节介绍如何用评估结果驱动提示、流程与工具的持续改进。 ### 11.3.1 经验积累与知识沉淀智能体在运行过程中会产生大量交互数据和执行结果，这些都是宝贵的经验来源。有效的经验积累机制能够帮助智能体避免重复错误、沉淀最佳实践、加速学习过程、提升决策质量。 **经验文档化** 将经验转化为可共享的知识资产，采用结构化记录： - **问题描述** 明确记录遇到的具体问题和场景 - **解决方案** 详细说明采取的措施和调整策略 - **效果评估** 量化改进前后的性能指标 - **适用范围** 标注解决方案的适用条件和限制 **案例库建设** 建立分类清晰的案例库，包括： - 成功案例（最佳实践） - 失败案例（教训总结） - 边界案例（特殊情况处理） - 对比案例（不同方案比较） **使用 lessons_learned.md** 在项目中创建专门的经验积累文件，记录每次迭代的发现。建议采用统一模板： ```markdown # 智能体优化经验总结 ## [日期]：[简短标题] | 要素 | 内容 | |------|------| | 问题 | [具体描述遇到的问题] | | 根因 | [分析问题产生的原因] | | 方案 | [采取的解决措施] | | 效果 | [量化的改进结果] | | 关联 | [相关测试案例或文件] | --- ## 2026-01-18：情感分析准确率提升 | 要素 | 内容 | |------|------| | 问题 | 智能体在处理含有转折词的句子时，情感判断准确率只有 65% | | 根因 | 原提示词过于简单，没有说明如何处理「虽然...但是」结构 | | 方案 | 新提示词：分析文本情感，注意转折词后的内容往往是关键观点 | | 效果 | 准确率从 65% 提升到 88% | | 关联 | test_cases/sentiment_analysis.md 案例 #5-8 | ``` | 序号 | 知识点 | 重要度 | |:----:|--------|:------:| | 11.3.1 | 经验积累与知识沉淀 | ★★★ | ### 11.3.2 版本迭代策略 **语义化版本控制** 采用语义化版本号（Semantic Versioning）管理提示词和 Skill 的演进。版本号格式：X.Y.Z - **主版本号（X）** 重大结构性变更，可能不向后兼容。示例：完全重构提示词框架，改变智能体的核心工作方式 - **次版本号（Y）** 新增功能或上下文参数，保持向后兼容。示例：添加新的评估标准，引入额外的输入参数 - **修订号（Z）** 小修复和微调，如错别字纠正、措辞优化版本号使用示例： ```txt v1.0.0 → v1.0.1 修复提示词中的错别字 v1.0.1 → v1.1.0 添加新的输出格式要求 v1.1.0 → v2.0.0 完全重构提示词结构 ``` **版本管理最佳实践** 将提示词视为代码管理： - 使用 Git 等版本控制系统追踪所有变更 - 维护清晰的变更日志（Changelog） - 记录每次修改的作者和时间戳 - 支持快速回滚到先前版本 Git 提交规范示例： ```bash git commit -m "feat(sentiment): 增加转折词处理逻辑" git commit -m "fix(sentiment): 修正中性情感误判问题" git commit -m "test(sentiment): 新增 5 个转折句测试案例" ``` **渐进式迭代原则** 采用小步快跑策略： - 每次只改动一个关键要素 - 快速验证改动效果 - 避免多个变量同时变化导致难以定位问题根源通常需要多轮 Plan-Do-Check 循环才能达到预期效果，不要期望一次改动就完美解决问题。 ::: {.callout-tip} ## 教学提示 A/B 测试是验证优化效果的黄金标准。设计原则包括：单一变量控制（一次测试只改变一个关键因素）、样本代表性（确保测试数据覆盖真实使用场景）、统计显著性（收集足够样本量以支持结论）、时间窗口控制（避免特定时段的偏差影响结果）。 ::: | 序号 | 知识点 | 重要度 | |:----:|--------|:------:| | 11.3.2 | 版本迭代策略 | ★★★ | ### 11.3.3 失败样例分析与修正 **失败分析框架** 有效的失败分析应遵循三个阶段： **识别（Identify）** 理解和识别模型错误及公平性问题：我的智能体有哪些类型的错误？错误在哪些领域最为普遍？错误模式是否具有系统性？ **诊断（Diagnose）** 探索错误背后的深层原因：这些错误的根本原因是什么？是数据质量问题还是提示词设计缺陷？是否存在未被充分考虑的边界情况？ **缓解（Mitigate）** 采取有针对性的改进措施：如何改进智能体以避免类似错误？需要调整哪些组件（提示词、工具、流程）？改进措施的优先级如何排序？ **常见失败原因分类** - **数据质量问题** 训练数据存在偏差或不完整、输入数据格式不符合预期、缺少关键上下文信息 - **提示词设计缺陷** 指令表述模糊不清、缺少必要的约束条件、示例选择不当 - **系统集成问题** 微服务间的交互异常、异步操作的时序问题、网络延迟或连接中断 - **外部依赖故障** API 服务不可用、第三方模型性能下降、资源配额限制 **失败案例文档化** 采用结构化记录模板： ```markdown ## 失败案例 #ID **发生时间**：2026-01-18 **任务类型**：研究报告生成 **失败现象**：输出报告缺少结论部分，格式不完整。 **根因分析**：提示词中未明确要求生成结论，智能体在内容较长时容易截断。 **修复方案**： 1. 在提示词中显式添加「必须包含结论部分」的要求 2. 增加输出完整性检查机制 3. 设置分段生成策略，避免单次输出过长 **修复效果**：应用修复后，在 50 个测试案例中，结论缺失率从 30% 降至 0%。 **适用范围**：所有长文本生成任务 ``` | 序号 | 知识点 | 重要度 | |:----:|--------|:------:| | 11.3.3 | 失败样例分析与修正 | ★★ | ### 11.3.4 迭代效果验证 **PDCA 持续改进循环** Plan-Do-Check-Act（PDCA）循环是持续改进的经典框架，特别适用于智能体系统的优化迭代。 **Plan（计划）** - 识别改进目标：基于用户反馈、性能监控确定优化方向 - 制定行动计划：明确要调整的组件、预期效果和验证方法 - 设定成功标准：定义量化的评估指标和阈值 **Do（执行）** - 小规模试点：先在受控环境或小比例流量中测试变更 - 充分记录过程：捕获所有相关数据，包括成功和失败的结果 - 团队协作：确保参与人员理解变更目标和执行方法 **Check（检查）** - 数据分析：对比变更前后的性能指标 - 差距识别：分析实际效果与预期目标的偏差 - 根因探索：如果效果不佳，深入调查原因 **Act（行动）** - 标准化推广：如果测试成功，将改进措施应用到生产环境 - 调整优化：如果效果未达预期，根据检查结果调整方案 - 进入下一循环：持续迭代，追求更高水平的性能 **迭代效果验证方法** 验证改进效果需要： 1. **基线对比**：保存改进前的性能指标作为基线 2. **同等条件测试**：在相同测试集上对比新旧版本 3. **统计显著性检验**：确保差异不是随机波动 4. **回归检查**：确保新功能没有破坏已有能力 ::: {.callout-warning} ## 注意迭代验证的关键原则是每次只改一个变量。如果同时修改了提示词和数据源，当结果变化时，无法确定是哪个因素起了作用。这会导致调试困难，甚至可能引入新问题而不自知。 ::: | 序号 | 知识点 | 重要度 | |:----:|--------|:------:| | 11.3.4 | 迭代效果验证 | ★★ | ![PDCA 持续改进循环](images/img_04_pdca_cycle.png)