11.2 评估设计与指标(Eval Design & Metrics)
评估智能体的第一步是明确定义什么叫「成功」。本节介绍如何设计任务成功标准、评测数据分层策略、结构化评分指标以及人工抽检校准方法。
11.2.1 任务成功标准定义
任务成功标准(Task Success Criteria)需要具备这些特点:
可量化性(Quantifiable) 标准必须可以用具体数字衡量,而非模糊的定性描述。例如:客服智能体的成功标准是「90% 的查询无需人工介入即可解决」,而非「大部分问题能解决」。
任务特异性(Task-Specific) 不同任务需要不同的成功定义。金融研报生成的成功标准可能是:报告包含所有必需章节 + 数据准确性 > 95% + 无抄袭。交易信号生成的成功标准可能是:信号及时性 < 1 秒 + 历史回测夏普比率 > 1.5。
二元可判定性(Binary Decidability) 对于任何一个任务实例,必须能明确判断「成功」或「失败」。避免灰色地带,如果需要多级评分,应设置清晰的阈值。
成功标准的分层设计
根据任务复杂度,可以采用分层成功标准:
Level 1: 最小可行标准 智能体完成了任务的核心目标。例如:情感分析智能体正确识别出文本的主导情感。
Level 2: 质量标准 在完成任务的基础上,满足特定质量指标。例如:情感分析不仅正确,且置信度 > 0.8。
Level 3: 优化标准 在质量达标的基础上,满足效率、成本等优化目标。例如:情感分析在 100ms 内完成,且 API 调用成本 < $0.001。
以财报问答智能体为例说明成功标准的分层设计。任务:回答「公司 2023 年净利润同比增长率是多少?」。Level 1:返回了一个数值型答案。Level 2:答案与财报原文数据一致(允许 ±0.1% 误差)。Level 3:答案附带数据来源(财报页码/表格编号)。失败情形包括:返回空值/错误类型、数值偏差 > 0.1%、引用了错误的时间周期(如 2022 年数据)。
| 序号 | 知识点 | 重要度 |
|---|---|---|
| 11.2.1 | 任务成功标准定义 | ★★★ |
11.2.2 评测数据分层策略
前一节已介绍正常样本、边缘样本、对抗样本的分层方法。本节深入探讨如何系统化地识别和设计各类样本。
正常样本设计原则
正常样本应覆盖典型场景的主要变体,保持与真实生产环境的分布一致性。以股票新闻情感分析为例:
- 公司 Q3 营收同比增长 15%,超出市场预期(正面)
- 受原材料价格上涨影响,毛利率环比下降 2%(负面)
- 公司发布年度报告,维持去年盈利水平(中性)
- 管理层在电话会议上表示对下季度持谨慎乐观态度(中性偏正)
边缘样本识别方法
边缘样本的识别可以采用三种策略:等价类划分(将输入空间分成若干等价类,测试每个类的边界值)、极值测试(测试数值型输入的最大/最小值)、组合测试(测试多个条件同时出现的极端组合)。
- 信息不完整:公司宣布重大资产重组,交易对价待定
- 矛盾信息:CEO 突然离职,但公司表示运营不受影响
- 量价背离:股价今日涨停,成交量萎缩至日均的 20%
- 多层嵌套:公司发布澄清公告,否认媒体报道的并购传闻
- 中英混杂:Due to regulatory changes, Q4 EBITDA impact TBD
- 极端长度:超长新闻(3000+ 字,含 10+ 个独立事件)或超短新闻(仅 15 字)
对抗样本设计策略
对抗样本的设计策略包括语义混淆(使用容易误导模型的表述)、格式攻击(异常格式、特殊字符、编码问题)、逻辑陷阱(表面一致但实际矛盾的信息)。
金融新闻情感分析的对抗样本示例:
- 公司亏损扩大,但这正是战略转型期的预期表现(负面词汇 + 正面解读)
- 利润大幅增长,主要来自一次性资产处置收益(正面结果 + 不可持续性)
- 公司业绩符合预期,但预期本身已下调 30%(双重否定)
- 公司 NOT 面临 NOT 破产风险(双重否定的否定)
数据版本管理
评估集不是一次性工程,需要随业务发展动态调整:
- 定期补充:每月从线上日志中筛选新的失效案例加入测试集
- 版本管理:用 Git 管理评估集,记录变更原因
- 性能追踪:记录智能体在每个版本评估集上的得分曲线,识别退化
| 序号 | 知识点 | 重要度 |
|---|---|---|
| 11.2.2 | 评测数据分层策略 | ★★★ |
11.2.3 结构化评分指标设计
评分维度选择原则
- 少而精:聚焦 4-6 个核心维度,避免评分负担过重
- 正交性:各维度之间尽量独立,减少重复评估
- 可观察:每个维度都有明确的判断依据
通用评分维度(适用于大多数文本生成任务)包括准确性(内容是否符合事实)、完整性(是否涵盖所有必需信息)、相关性(是否紧扣问题,无多余内容)、流畅性(语言是否自然、通顺)。
评分等级设计
Likert 量表(5 分制)的设计示例:
- 5 分 - 优秀(Excellent):全面超出预期,无明显改进空间
- 4 分 - 良好(Good):满足所有核心要求,存在微小瑕疵
- 3 分 - 合格(Acceptable):满足最低要求,但有明显改进空间
- 2 分 - 不合格(Poor):部分满足要求,但存在重大缺陷
- 1 分 - 失败(Failed):完全未满足要求或产生严重错误
金融智能体评分示例:财报摘要生成
任务:为上市公司季报生成 200 字摘要。
评分维度与标准:
- 准确性(权重 40%)
- 5 分:所有关键数据(营收/利润/同比)准确无误
- 4 分:关键数据准确,次要数据有 1 处小误差(<2%)
- 3 分:关键数据准确,次要数据有 2 处误差
- 2 分:关键数据有 1 处明显错误
- 1 分:关键数据有 ≥2 处错误或重大事实错误
- 完整性(权重 30%)
- 5 分:涵盖营收、利润、现金流、重大事项全部 4 项
- 4 分:涵盖 3 项核心指标
- 3 分:涵盖 2 项核心指标(必须包含营收或利润)
- 2 分:仅涵盖 1 项核心指标
- 1 分:未涵盖任何核心指标
- 简洁性(权重 20%)
- 5 分:长度 180-220 字,无冗余信息
- 4 分:长度 160-250 字,信息紧凑
- 3 分:长度 250-300 字或 140-160 字,略有冗余或遗漏
- 2 分:长度 >300 字或 <140 字
- 1 分:长度严重超标(>400 字)或过短(<100 字)
- 专业性(权重 10%)
- 5 分:术语使用准确,符合财报披露规范
- 4 分:术语基本准确,有 1-2 处不够专业的表述
- 3 分:术语基本正确,但表述偏口语化
- 2 分:有明显的术语误用
- 1 分:多处术语错误或使用不当
综合得分 = Σ(维度得分 × 权重)
| 序号 | 知识点 | 重要度 |
|---|---|---|
| 11.2.3 | 结构化评分指标设计 | ★★ |
11.2.4 人工抽检与一致性校准
为什么需要人工抽检
即使有了结构化评分指标,自动化评估仍可能存在盲区:
- 边界案例的判断:自动规则难以处理似是而非的输出
- 主观质量评估:如专业性、流畅性等维度需要人类判断
- 评估系统本身的校准:确保评分标准与实际业务价值对齐
抽检策略设计
采用分层抽样(Stratified Sampling),目标是用 10% 的人工成本覆盖 90% 的风险。
抽检优先级设计:
- 高优先级(100% 抽检)
- 自动评分在边界值的样本(如得分 2.8-3.2)
- 不同评估方法结果冲突的样本
- 新类型任务的前 50 个样本
- 中优先级(30% 抽检)
- 随机抽样的正常样本
- 所有边缘样本
- 低优先级(5% 抽检)
- 自动评分极高(>4.5)或极低(<2.0)的样本
时间分布:新系统上线初期每天抽检 50-100 个样本,稳定期每周抽检 30-50 个样本,每季度对 5-10% 的全量数据进行人工复核。
评分者间一致性(Inter-Rater Reliability)
不同评分者对同一输出的打分可能存在差异,需要通过评分校准(Calibration)解决。
Step 1: 建立黄金标准集
选择 100 个代表性样本(覆盖各难度层级),由 3-5 位领域专家独立评分,召开校准会议讨论分歧样本达成共识,形成黄金标准集,每个样本有明确的标准答案和评分理由。
Step 2: 评分者训练
新评分者先对黄金标准集打分,计算与标准答案的一致性(Cohen’s Kappa):
- Kappa > 0.8:可独立评分
- Kappa 0.6-0.8:需要监督式评分
- Kappa < 0.6:需要重新培训
定期(如每月)用新的黄金标准样本测试评分者。
Step 3: 一致性监控
对 20% 的抽检样本进行双盲评分(两位评分者独立打分),计算一致性指标:
- 完全一致率:两位评分者给出完全相同的分数
- ±1 一致率:两位评分者的分数差距 ≤1 分
若一致率下降(完全一致率 < 60% 或 ±1 一致率 < 85%),需要召开校准会议或更新评分指南。若两位评分者分数差距 ≥2 分,交由第三位评分者裁决。
Cohen’s Kappa 系数是衡量两个评分者之间一致性的统计指标,取值范围从 -1 到 1。0 表示一致性与随机一致没有区别,1 表示完全一致。在实践中,0.6-0.8 被认为是实质性一致,0.8 以上被认为是几乎完全一致。
| 序号 | 知识点 | 重要度 |
|---|---|---|
| 11.2.4 | 人工抽检与一致性校准 | ★★ |