11.1 智能体评估(Agent Evals)
智能体评估是衡量 AI 系统性能、优化设计决策、确保可靠性的关键环节。评估不只是技术验证,更是业务价值实现的保障。
11.1.1 评估目的与常见失败模式
为什么要评估智能体
评估主要解决三个问题:
性能度量 量化智能体在特定任务上的表现,包括准确性、效率、成本等维度。比如金融研报生成任务,我们需要看报告的事实准确性、分析深度、生成速度以及 API 调用成本。
迭代优化 通过系统化评估发现瓶颈,指导改进方向。评估结果能直接回答:应该优化提示词、增加工具、调整流程编排,还是升级模型?
风险控制 在生产环境部署前发现潜在失效模式,建立护栏机制。金融场景尤其需要关注合规性、数据安全、输出一致性等风险点。
评估贯穿智能体开发全流程,形成「构建 → 评估 → 优化」的迭代闭环。成功的智能体系统并非依赖复杂框架,而是通过持续评估找到适合特定场景的简单方案。
智能体的常见失效模式
理解智能体如何失败,是设计有效评估的前提。失效模式可分为三大类:
规划失败
规划失败主要体现在两个方面:
工具使用错误:无效工具调用(尝试调用不存在或未授权的工具)、参数错误(工具存在但参数格式、类型或数量不正确)。
目标偏离:任务未完成(智能体声称完成任务,但实际遗漏关键要求)、违反约束(输出违反明确限制条件)。
金融场景中常见的例子:投资组合建议智能体在生成建议时忽略了用户明确要求的风险承受能力评估环节;为保守型投资者推荐了高风险衍生品;在生成财务预测时跳过了必要的假设说明。
工具失败
工具本身逻辑正确,但返回结果不符合预期:
- 数据源问题:API 返回过时数据、缺失字段、格式变化
- 计算错误:财务指标计算公式错误,导致 ROE、PE 等关键数据失真
- 权限限制:第三方服务限流、认证失效
评估时需要独立测试每个工具,确保调用过程可追溯。
效率问题
智能体虽然完成任务,但成本或时间不可接受:
- 步骤冗余:为查询一个简单数据调用 10 次 API
- 成本失控:频繁使用高成本模型处理简单任务
- 延迟过高:实时交易场景下,决策延迟超过市场窗口期
金融场景对效率格外敏感。一个股票推荐智能体,如果单次推荐耗时超过 30 秒或成本超过 5 元,即使推荐质量再高,也难以商业化。
| 序号 | 知识点 | 重要度 |
|---|---|---|
| 11.1.1 | 评估目的与常见失败模式 | ★★★ |
11.1.2 离线评估与在线评估边界
智能体评估分为离线评估和在线评估两种模式,需要根据开发阶段和风险承受能力选择合适方法。
离线评估
离线评估就是在测试环境中,用预先准备的测试集检验智能体。这和软件工程的单元测试和集成测试思路一样。
核心优势:
- 可控性强:测试环境隔离,不影响真实用户
- 可重复性:相同测试集可多次运行,便于对比不同版本
- 成本可控:可以限制测试规模,避免大规模 API 调用
典型应用场景:
- 新功能上线前验证:测试新增的财务分析工具是否正常工作
- 模型切换评估:对比不同模型在研报生成任务上的表现
- Prompt 优化实验:测试不同 System Prompt 对输出质量的影响
局限性:
- 测试集覆盖有限,无法穷尽真实场景
- 难以模拟复杂的用户交互和上下文依赖
- 可能存在过拟合:智能体在测试集上表现好,实际应用中失效
在线评估
在线评估是在生产环境中对真实用户交互进行评估,通过监控、日志分析、用户反馈收集数据。
核心优势:
- 真实性:反映实际使用场景和用户行为
- 全面性:捕获测试集未覆盖的边缘情况
- 持续性:长期监控性能变化,发现数据漂移
典型应用场景:
- A/B 测试:部分用户使用新版智能体,对比转化率、满意度
- 性能监控:跟踪响应时间、错误率、成本等运营指标
- 用户反馈分析:收集点赞、差评、改写请求等隐性评估信号
风险与挑战:
- 失败影响真实用户:可能导致客户流失、声誉损失
- 难以控制变量:用户行为、市场环境随时变化
- 评估成本高:需要投入监控系统、人工审核等资源
两种评估的对比
| 维度 | 离线评估 | 在线评估 |
|---|---|---|
| 环境 | 测试环境 | 生产环境 |
| 数据 | 预构建测试集 | 真实用户交互 |
| 优势 | 可控、可重复、成本低 | 真实、全面、持续 |
| 劣势 | 覆盖有限、可能过拟合 | 影响用户、难控变量 |
| 适用阶段 | 开发、迭代、上线前 | 灰度、生产、长期监控 |
两种评估的协同策略
最佳实践是将离线评估作为质量门禁,在线评估作为持续优化手段。具体采用三阶段推进:
- 离线验证:在测试集上达到性能阈值(如准确率 > 85%)才能进入下一阶段
- 小范围灰度:5%-10% 真实流量,密切监控关键指标
- 全量上线:离线和在线指标稳定后,逐步扩大覆盖范围
某券商开发智能投顾系统的评估策略:离线阶段构建 500 个历史咨询案例的黄金数据集,要求智能体在投资建议准确性、合规性检查上达到 95% 通过率;灰度阶段选择 100 位内部测试用户,每天人工审核所有对话,发现 3 个高频失效模式并修复;全量上线后部署实时监控大盘,设置报警规则(如单日投诉率超过 0.5% 自动回滚)。
| 序号 | 知识点 | 重要度 |
|---|---|---|
| 11.1.2 | 离线评估与在线评估边界 | ★★★ |

11.1.3 评测集构建方法
高质量评估集是可靠评估的基础。评估集需要兼顾代表性、多样性、可维护性。
黄金数据集的定义
黄金数据集(Golden Dataset)是经过专家标注、高质量验证的输入-输出对集合,作为评估 LLM 应用的基准。
与训练集的区别:
- 训练集用于模型学习,黄金数据集用于质量验证
- 黄金数据集不注入 LLM Prompt,而是作为评估标准
- 数据质量要求更高,需要领域专家参与标注
每条黄金数据包含:
- 输入(Input) 用户查询或任务描述
- 预期输出(Expected Output) 理想回答或操作序列
- 上下文(Context) 可选,用于需要 RAG 的场景
- 评估维度(Criteria) 该条数据重点考察的能力
数据收集策略
人工收集:从真实业务场景中挑选代表性案例,优先覆盖高频场景(占用户查询量 80% 的典型需求)、边缘情况(容易出错的复杂查询)、失效案例(历史上智能体表现不佳的问题)。
LLM 辅助生成:用 LLM 批量生成测试数据,再由人工筛选验证。LLM 生成数据容易缺乏多样性,需要人工介入调整提示词、引入不同风格,避免测试集太干净,与真实用户输入脱节。
合成数据增强:对已有数据进行变换扩充,包括改写输入(相同语义不同表达)、增加噪声(模拟拼写错误、口语化表达)、调整难度(从简单问题派生复杂变体)。
评估数据分层
一个完善的评估数据集应该包含三个层次:
正常样本(Normal Cases) 符合任务常见输入分布的样本,占评估集的 60-70%。覆盖典型场景的主要变体,保持与真实生产环境的分布一致性。
边缘样本(Edge Cases) 处于任务边界或极端情况的样本,占评估集的 20-30%。识别方法包括等价类划分、极值测试、组合测试。例如:信息不完整、矛盾信息、超长/超短文本、中英混杂、专业术语密集。
对抗样本(Adversarial Cases) 故意设计用来欺骗智能体的样本,占评估集的 5-10%。设计策略包括语义混淆、格式攻击、逻辑陷阱。例如:负面词汇配合正面解读、双重否定、HTML 标签残留。
以 1000 个样本为例的推荐构成:
| 类型 | 数量 | 细分 |
|---|---|---|
| 正常样本 | 650 | 简单正面 200、简单负面 200、中性 150、复杂混合 100 |
| 边缘样本 | 280 | 信息不完整 60、矛盾信息 60、极端长度 40、中英混杂 40、专业术语密集 40、多事件嵌套 40 |
| 对抗样本 | 70 | 语义混淆 30、格式攻击 20、逻辑陷阱 20 |
金融场景评估集设计
以投资建议评估集为例:
| 输入 | 预期输出 | 评估维度 |
|---|---|---|
| 我有 10 万元闲钱,风险承受能力中等,请推荐投资组合 | 应包含:风险评估、资产配置比例、具体产品推荐、风险提示 | 完整性、合规性 |
| 茅台股票现在可以买吗? | 应包含:当前价格、估值分析(PE/PB)、行业地位、风险提示。不应包含:保证收益的表述 | 准确性、合规性 |
| 帮我计算如果我在 2020 年买入 1 万元沪深 300 指数基金,现在值多少钱? | 正确计算区间收益率,考虑分红再投资,需要调用历史数据工具 | 准确性、工具使用 |
数据集规模建议
- 初期原型:50-100 条覆盖核心场景
- 功能开发:200-500 条细分到各模块
- 生产部署前:1000+ 条,包含极端情况
| 序号 | 知识点 | 重要度 |
|---|---|---|
| 11.1.3 | 评测集构建方法 | ★★ |

11.1.4 评分 Rubric 设计
评分标准(Scoring Rubric)将抽象的质量概念转化为可量化的评估规则,是评估体系的核心。
评分标准的设计原则
明确性 每个评分档位有清晰定义,避免模糊表述。差评例子:回答质量不错(无法指导评估)。好评例子:回答准确引用了招股说明书原文,计算公式无误,未包含主观推测。
可操作性 评估者(无论是人还是 LLM)能根据标准独立完成评分,减少主观差异。
层次性 设置多个档位(通常 3-5 档),拉开区分度。
常见评分标准类型
二元评分 通过/不通过,适用于刚性要求。示例:合规性检查——1 分表示输出包含保证收益、稳赚不赔等违规表述,0 分表示无违规内容。
等级评分 1-5 分或 1-10 分,评估质量程度。以财务分析深度为例:
- 5 分:完整计算 5 个以上关键指标,有同业对比,结论有理有据
- 4 分:计算 3-5 个指标,结论基本合理
- 3 分:提及指标但未计算或计算错误
- 2 分:分析肤浅,仅描述财报数字
- 1 分:未进行财务分析
加权评分 不同维度赋予不同权重,计算综合得分。以研报评估为例:准确性(权重 0.4)、完整性(权重 0.3)、可读性(权重 0.2)、及时性(权重 0.1)。最终得分 = 0.4 × 准确性 + 0.3 × 完整性 + 0.2 × 可读性 + 0.1 × 及时性。
多维度评分框架
高质量智能体需要从多个角度评估。RAG 系统专用指标包括:
- 忠实度(Faithfulness) 生成内容是否忠于检索到的原始文档,避免幻觉
- 答案相关性(Answer Relevancy) 回答是否直接针对用户问题
- 上下文精确度(Context Precision) 检索到的文档是否都与问题相关
- 上下文召回率(Context Recall) 是否检索到了回答问题所需的全部关键信息
通用评估维度包括:
- 准确性(Accuracy) 事实性陈述是否正确
- 完整性(Completeness) 是否遗漏用户要求的内容
- 连贯性(Coherence) 逻辑是否流畅,前后是否矛盾
- 合规性(Compliance) 是否符合行业规范、法律法规
- 效率(Efficiency) 完成任务的步数、时间、成本
金融场景评分案例
股票分析报告评分标准:
{
"准确性": {
"描述": "财务数据和计算是否准确无误",
"评分规则": {
"5": "所有数据有明确来源引用,计算公式正确,交叉验证通过",
"4": "关键数据准确,个别次要数据存在小误差(<2%)",
"3": "主要数据正确但缺少来源引用,或存在明显计算错误(2%-5%)",
"2": "多处数据错误(>5%)或数据时效性差(超过 1 个季度)",
"1": "严重错误,如使用错误股票代码、混淆单位等"
}
},
"合规性": {
"描述": "是否符合证券监管要求",
"评分规则": {
"Pass": "无以下违规内容:(1)保证收益承诺 (2)诱导交易 (3)虚假宣传 (4)内幕信息",
"Fail": "包含任一违规内容,需人工复审"
}
},
"完整性": {
"描述": "必需章节和风险提示是否齐全",
"评分规则": {
"5": "包含公司概况、财务分析、估值、风险提示 4 个章节,风险提示具体明确",
"3": "缺少 1-2 个章节,或风险提示过于笼统",
"1": "缺少 3 个及以上章节,或完全没有风险提示"
}
}
}权重配置:准确性 50%,合规性一票否决(Fail 则整体不通过),完整性 50%。
| 序号 | 知识点 | 重要度 |
|---|---|---|
| 11.1.4 | 评分 Rubric 设计 | ★★ |