11.3 优化迭代(Learning & Adaptation)

评估的最终目的是指导改进。本节介绍如何用评估结果驱动提示、流程与工具的持续改进。

11.3.1 经验积累与知识沉淀

智能体在运行过程中会产生大量交互数据和执行结果,这些都是宝贵的经验来源。有效的经验积累机制能够帮助智能体避免重复错误、沉淀最佳实践、加速学习过程、提升决策质量。

经验文档化

将经验转化为可共享的知识资产,采用结构化记录:

  • 问题描述 明确记录遇到的具体问题和场景
  • 解决方案 详细说明采取的措施和调整策略
  • 效果评估 量化改进前后的性能指标
  • 适用范围 标注解决方案的适用条件和限制

案例库建设

建立分类清晰的案例库,包括:

  • 成功案例(最佳实践)
  • 失败案例(教训总结)
  • 边界案例(特殊情况处理)
  • 对比案例(不同方案比较)

使用 lessons_learned.md

在项目中创建专门的经验积累文件,记录每次迭代的发现。建议采用统一模板:

# 智能体优化经验总结

## [日期]:[简短标题]

| 要素 | 内容 |
|------|------|
| 问题 | [具体描述遇到的问题] |
| 根因 | [分析问题产生的原因] |
| 方案 | [采取的解决措施] |
| 效果 | [量化的改进结果] |
| 关联 | [相关测试案例或文件] |

---

## 2026-01-18:情感分析准确率提升

| 要素 | 内容 |
|------|------|
| 问题 | 智能体在处理含有转折词的句子时,情感判断准确率只有 65% |
| 根因 | 原提示词过于简单,没有说明如何处理「虽然...但是」结构 |
| 方案 | 新提示词:分析文本情感,注意转折词后的内容往往是关键观点 |
| 效果 | 准确率从 65% 提升到 88% |
| 关联 | test_cases/sentiment_analysis.md 案例 #5-8 |
序号 知识点 重要度
11.3.1 经验积累与知识沉淀 ★★★

11.3.2 版本迭代策略

语义化版本控制

采用语义化版本号(Semantic Versioning)管理提示词和 Skill 的演进。版本号格式:X.Y.Z

  • 主版本号(X) 重大结构性变更,可能不向后兼容。示例:完全重构提示词框架,改变智能体的核心工作方式
  • 次版本号(Y) 新增功能或上下文参数,保持向后兼容。示例:添加新的评估标准,引入额外的输入参数
  • 修订号(Z) 小修复和微调,如错别字纠正、措辞优化

版本号使用示例:

v1.0.0 → v1.0.1  修复提示词中的错别字
v1.0.1 → v1.1.0  添加新的输出格式要求
v1.1.0 → v2.0.0  完全重构提示词结构

版本管理最佳实践

将提示词视为代码管理:

  • 使用 Git 等版本控制系统追踪所有变更
  • 维护清晰的变更日志(Changelog)
  • 记录每次修改的作者和时间戳
  • 支持快速回滚到先前版本

Git 提交规范示例:

git commit -m "feat(sentiment): 增加转折词处理逻辑"
git commit -m "fix(sentiment): 修正中性情感误判问题"
git commit -m "test(sentiment): 新增 5 个转折句测试案例"

渐进式迭代原则

采用小步快跑策略:

  • 每次只改动一个关键要素
  • 快速验证改动效果
  • 避免多个变量同时变化导致难以定位问题根源

通常需要多轮 Plan-Do-Check 循环才能达到预期效果,不要期望一次改动就完美解决问题。

提示教学提示

A/B 测试是验证优化效果的黄金标准。设计原则包括:单一变量控制(一次测试只改变一个关键因素)、样本代表性(确保测试数据覆盖真实使用场景)、统计显著性(收集足够样本量以支持结论)、时间窗口控制(避免特定时段的偏差影响结果)。

序号 知识点 重要度
11.3.2 版本迭代策略 ★★★

11.3.3 失败样例分析与修正

失败分析框架

有效的失败分析应遵循三个阶段:

识别(Identify) 理解和识别模型错误及公平性问题:我的智能体有哪些类型的错误?错误在哪些领域最为普遍?错误模式是否具有系统性?

诊断(Diagnose) 探索错误背后的深层原因:这些错误的根本原因是什么?是数据质量问题还是提示词设计缺陷?是否存在未被充分考虑的边界情况?

缓解(Mitigate) 采取有针对性的改进措施:如何改进智能体以避免类似错误?需要调整哪些组件(提示词、工具、流程)?改进措施的优先级如何排序?

常见失败原因分类

  • 数据质量问题 训练数据存在偏差或不完整、输入数据格式不符合预期、缺少关键上下文信息
  • 提示词设计缺陷 指令表述模糊不清、缺少必要的约束条件、示例选择不当
  • 系统集成问题 微服务间的交互异常、异步操作的时序问题、网络延迟或连接中断
  • 外部依赖故障 API 服务不可用、第三方模型性能下降、资源配额限制

失败案例文档化

采用结构化记录模板:

## 失败案例 #ID

**发生时间**:2026-01-18

**任务类型**:研究报告生成

**失败现象**:
输出报告缺少结论部分,格式不完整。

**根因分析**:
提示词中未明确要求生成结论,智能体在内容较长时容易截断。

**修复方案**:
1. 在提示词中显式添加「必须包含结论部分」的要求
2. 增加输出完整性检查机制
3. 设置分段生成策略,避免单次输出过长

**修复效果**:
应用修复后,在 50 个测试案例中,结论缺失率从 30% 降至 0%。

**适用范围**:
所有长文本生成任务
序号 知识点 重要度
11.3.3 失败样例分析与修正 ★★

11.3.4 迭代效果验证

PDCA 持续改进循环

Plan-Do-Check-Act(PDCA)循环是持续改进的经典框架,特别适用于智能体系统的优化迭代。

Plan(计划) - 识别改进目标:基于用户反馈、性能监控确定优化方向 - 制定行动计划:明确要调整的组件、预期效果和验证方法 - 设定成功标准:定义量化的评估指标和阈值

Do(执行) - 小规模试点:先在受控环境或小比例流量中测试变更 - 充分记录过程:捕获所有相关数据,包括成功和失败的结果 - 团队协作:确保参与人员理解变更目标和执行方法

Check(检查) - 数据分析:对比变更前后的性能指标 - 差距识别:分析实际效果与预期目标的偏差 - 根因探索:如果效果不佳,深入调查原因

Act(行动) - 标准化推广:如果测试成功,将改进措施应用到生产环境 - 调整优化:如果效果未达预期,根据检查结果调整方案 - 进入下一循环:持续迭代,追求更高水平的性能

迭代效果验证方法

验证改进效果需要:

  1. 基线对比:保存改进前的性能指标作为基线
  2. 同等条件测试:在相同测试集上对比新旧版本
  3. 统计显著性检验:确保差异不是随机波动
  4. 回归检查:确保新功能没有破坏已有能力
警告注意

迭代验证的关键原则是每次只改一个变量。如果同时修改了提示词和数据源,当结果变化时,无法确定是哪个因素起了作用。这会导致调试困难,甚至可能引入新问题而不自知。

序号 知识点 重要度
11.3.4 迭代效果验证 ★★

PDCA 持续改进循环