第 11 章 智能体评估和优化迭代

重要学习目标
  1. 理解 智能体评估的目的与常见失效模式,掌握离线评估与在线评估的边界
  2. 理解 评估集、评分 Rubric 与基准线的构建方法,形成可重复的评估流程
  3. 应用 设计任务级评估方案,构建涵盖主任务与难例的评测集
  4. 应用 使用评估结果驱动提示与 Skill 的迭代优化,形成闭环改进
  5. 分析 评估结果中的偏差来源,区分模型问题与流程问题
  6. 评价 评测成本与质量收益的权衡,选择适合金融场景的评估强度

第 11 章知识结构思维导图

一个金融研报生成智能体,准确率 70% 和 90% 的差别是什么?70% 意味着每 10 份报告有 3 份需要人工重写,90% 才能真正节省人力。但智能体的表现不止看准确率——速度、成本、稳定性同样重要。如何建立一套科学的评估体系,让智能体从「能用」变成「好用」?

本章介绍智能体评估(Agent Evals)的完整框架,从评测集构建到评分标准设计,从优化迭代到监控回归,帮助你建立可重复、可量化的质量保障体系。