11.3 优化迭代(Learning & Adaptation)
评估的最终目的是指导改进。本节介绍如何用评估结果驱动提示、流程与工具的持续改进。
11.3.1 经验积累与知识沉淀
智能体在运行过程中会产生大量交互数据和执行结果,这些都是宝贵的经验来源。有效的经验积累机制能够帮助智能体避免重复错误、沉淀最佳实践、加速学习过程、提升决策质量。
经验文档化
将经验转化为可共享的知识资产,采用结构化记录:
- 问题描述 明确记录遇到的具体问题和场景
- 解决方案 详细说明采取的措施和调整策略
- 效果评估 量化改进前后的性能指标
- 适用范围 标注解决方案的适用条件和限制
案例库建设
建立分类清晰的案例库,包括:
- 成功案例(最佳实践)
- 失败案例(教训总结)
- 边界案例(特殊情况处理)
- 对比案例(不同方案比较)
使用 lessons_learned.md
在项目中创建专门的经验积累文件,记录每次迭代的发现。建议采用统一模板:
# 智能体优化经验总结
## [日期]:[简短标题]
| 要素 | 内容 |
|------|------|
| 问题 | [具体描述遇到的问题] |
| 根因 | [分析问题产生的原因] |
| 方案 | [采取的解决措施] |
| 效果 | [量化的改进结果] |
| 关联 | [相关测试案例或文件] |
---
## 2026-01-18:情感分析准确率提升
| 要素 | 内容 |
|------|------|
| 问题 | 智能体在处理含有转折词的句子时,情感判断准确率只有 65% |
| 根因 | 原提示词过于简单,没有说明如何处理「虽然...但是」结构 |
| 方案 | 新提示词:分析文本情感,注意转折词后的内容往往是关键观点 |
| 效果 | 准确率从 65% 提升到 88% |
| 关联 | test_cases/sentiment_analysis.md 案例 #5-8 || 序号 | 知识点 | 重要度 |
|---|---|---|
| 11.3.1 | 经验积累与知识沉淀 | ★★★ |
11.3.2 版本迭代策略
语义化版本控制
采用语义化版本号(Semantic Versioning)管理提示词和 Skill 的演进。版本号格式:X.Y.Z
- 主版本号(X) 重大结构性变更,可能不向后兼容。示例:完全重构提示词框架,改变智能体的核心工作方式
- 次版本号(Y) 新增功能或上下文参数,保持向后兼容。示例:添加新的评估标准,引入额外的输入参数
- 修订号(Z) 小修复和微调,如错别字纠正、措辞优化
版本号使用示例:
v1.0.0 → v1.0.1 修复提示词中的错别字
v1.0.1 → v1.1.0 添加新的输出格式要求
v1.1.0 → v2.0.0 完全重构提示词结构版本管理最佳实践
将提示词视为代码管理:
- 使用 Git 等版本控制系统追踪所有变更
- 维护清晰的变更日志(Changelog)
- 记录每次修改的作者和时间戳
- 支持快速回滚到先前版本
Git 提交规范示例:
git commit -m "feat(sentiment): 增加转折词处理逻辑"
git commit -m "fix(sentiment): 修正中性情感误判问题"
git commit -m "test(sentiment): 新增 5 个转折句测试案例"渐进式迭代原则
采用小步快跑策略:
- 每次只改动一个关键要素
- 快速验证改动效果
- 避免多个变量同时变化导致难以定位问题根源
通常需要多轮 Plan-Do-Check 循环才能达到预期效果,不要期望一次改动就完美解决问题。
A/B 测试是验证优化效果的黄金标准。设计原则包括:单一变量控制(一次测试只改变一个关键因素)、样本代表性(确保测试数据覆盖真实使用场景)、统计显著性(收集足够样本量以支持结论)、时间窗口控制(避免特定时段的偏差影响结果)。
| 序号 | 知识点 | 重要度 |
|---|---|---|
| 11.3.2 | 版本迭代策略 | ★★★ |
11.3.3 失败样例分析与修正
失败分析框架
有效的失败分析应遵循三个阶段:
识别(Identify) 理解和识别模型错误及公平性问题:我的智能体有哪些类型的错误?错误在哪些领域最为普遍?错误模式是否具有系统性?
诊断(Diagnose) 探索错误背后的深层原因:这些错误的根本原因是什么?是数据质量问题还是提示词设计缺陷?是否存在未被充分考虑的边界情况?
缓解(Mitigate) 采取有针对性的改进措施:如何改进智能体以避免类似错误?需要调整哪些组件(提示词、工具、流程)?改进措施的优先级如何排序?
常见失败原因分类
- 数据质量问题 训练数据存在偏差或不完整、输入数据格式不符合预期、缺少关键上下文信息
- 提示词设计缺陷 指令表述模糊不清、缺少必要的约束条件、示例选择不当
- 系统集成问题 微服务间的交互异常、异步操作的时序问题、网络延迟或连接中断
- 外部依赖故障 API 服务不可用、第三方模型性能下降、资源配额限制
失败案例文档化
采用结构化记录模板:
## 失败案例 #ID
**发生时间**:2026-01-18
**任务类型**:研究报告生成
**失败现象**:
输出报告缺少结论部分,格式不完整。
**根因分析**:
提示词中未明确要求生成结论,智能体在内容较长时容易截断。
**修复方案**:
1. 在提示词中显式添加「必须包含结论部分」的要求
2. 增加输出完整性检查机制
3. 设置分段生成策略,避免单次输出过长
**修复效果**:
应用修复后,在 50 个测试案例中,结论缺失率从 30% 降至 0%。
**适用范围**:
所有长文本生成任务| 序号 | 知识点 | 重要度 |
|---|---|---|
| 11.3.3 | 失败样例分析与修正 | ★★ |
11.3.4 迭代效果验证
PDCA 持续改进循环
Plan-Do-Check-Act(PDCA)循环是持续改进的经典框架,特别适用于智能体系统的优化迭代。
Plan(计划) - 识别改进目标:基于用户反馈、性能监控确定优化方向 - 制定行动计划:明确要调整的组件、预期效果和验证方法 - 设定成功标准:定义量化的评估指标和阈值
Do(执行) - 小规模试点:先在受控环境或小比例流量中测试变更 - 充分记录过程:捕获所有相关数据,包括成功和失败的结果 - 团队协作:确保参与人员理解变更目标和执行方法
Check(检查) - 数据分析:对比变更前后的性能指标 - 差距识别:分析实际效果与预期目标的偏差 - 根因探索:如果效果不佳,深入调查原因
Act(行动) - 标准化推广:如果测试成功,将改进措施应用到生产环境 - 调整优化:如果效果未达预期,根据检查结果调整方案 - 进入下一循环:持续迭代,追求更高水平的性能
迭代效果验证方法
验证改进效果需要:
- 基线对比:保存改进前的性能指标作为基线
- 同等条件测试:在相同测试集上对比新旧版本
- 统计显著性检验:确保差异不是随机波动
- 回归检查:确保新功能没有破坏已有能力
迭代验证的关键原则是每次只改一个变量。如果同时修改了提示词和数据源,当结果变化时,无法确定是哪个因素起了作用。这会导致调试困难,甚至可能引入新问题而不自知。
| 序号 | 知识点 | 重要度 |
|---|---|---|
| 11.3.4 | 迭代效果验证 | ★★ |
