11.2 评估设计与指标(Eval Design & Metrics)

评估智能体的第一步是明确定义什么叫「成功」。本节介绍如何设计任务成功标准、评测数据分层策略、结构化评分指标以及人工抽检校准方法。

11.2.1 任务成功标准定义

任务成功标准(Task Success Criteria)需要具备这些特点:

可量化性(Quantifiable) 标准必须可以用具体数字衡量,而非模糊的定性描述。例如:客服智能体的成功标准是「90% 的查询无需人工介入即可解决」,而非「大部分问题能解决」。

任务特异性(Task-Specific) 不同任务需要不同的成功定义。金融研报生成的成功标准可能是:报告包含所有必需章节 + 数据准确性 > 95% + 无抄袭。交易信号生成的成功标准可能是:信号及时性 < 1 秒 + 历史回测夏普比率 > 1.5。

二元可判定性(Binary Decidability) 对于任何一个任务实例,必须能明确判断「成功」或「失败」。避免灰色地带,如果需要多级评分,应设置清晰的阈值。

成功标准的分层设计

根据任务复杂度,可以采用分层成功标准:

Level 1: 最小可行标准 智能体完成了任务的核心目标。例如:情感分析智能体正确识别出文本的主导情感。

Level 2: 质量标准 在完成任务的基础上,满足特定质量指标。例如:情感分析不仅正确,且置信度 > 0.8。

Level 3: 优化标准 在质量达标的基础上,满足效率、成本等优化目标。例如:情感分析在 100ms 内完成,且 API 调用成本 < $0.001。

注记知识卡片

以财报问答智能体为例说明成功标准的分层设计。任务:回答「公司 2023 年净利润同比增长率是多少?」。Level 1:返回了一个数值型答案。Level 2:答案与财报原文数据一致(允许 ±0.1% 误差)。Level 3:答案附带数据来源(财报页码/表格编号)。失败情形包括:返回空值/错误类型、数值偏差 > 0.1%、引用了错误的时间周期(如 2022 年数据)。

序号 知识点 重要度
11.2.1 任务成功标准定义 ★★★

11.2.2 评测数据分层策略

前一节已介绍正常样本、边缘样本、对抗样本的分层方法。本节深入探讨如何系统化地识别和设计各类样本。

正常样本设计原则

正常样本应覆盖典型场景的主要变体,保持与真实生产环境的分布一致性。以股票新闻情感分析为例:

  • 公司 Q3 营收同比增长 15%,超出市场预期(正面)
  • 受原材料价格上涨影响,毛利率环比下降 2%(负面)
  • 公司发布年度报告,维持去年盈利水平(中性)
  • 管理层在电话会议上表示对下季度持谨慎乐观态度(中性偏正)

边缘样本识别方法

边缘样本的识别可以采用三种策略:等价类划分(将输入空间分成若干等价类,测试每个类的边界值)、极值测试(测试数值型输入的最大/最小值)、组合测试(测试多个条件同时出现的极端组合)。

注记边缘样本设计实例:金融新闻情感分析
  • 信息不完整:公司宣布重大资产重组,交易对价待定
  • 矛盾信息:CEO 突然离职,但公司表示运营不受影响
  • 量价背离:股价今日涨停,成交量萎缩至日均的 20%
  • 多层嵌套:公司发布澄清公告,否认媒体报道的并购传闻
  • 中英混杂:Due to regulatory changes, Q4 EBITDA impact TBD
  • 极端长度:超长新闻(3000+ 字,含 10+ 个独立事件)或超短新闻(仅 15 字)

对抗样本设计策略

对抗样本的设计策略包括语义混淆(使用容易误导模型的表述)、格式攻击(异常格式、特殊字符、编码问题)、逻辑陷阱(表面一致但实际矛盾的信息)。

金融新闻情感分析的对抗样本示例:

  • 公司亏损扩大,但这正是战略转型期的预期表现(负面词汇 + 正面解读)
  • 利润大幅增长,主要来自一次性资产处置收益(正面结果 + 不可持续性)
  • 公司业绩符合预期,但预期本身已下调 30%(双重否定)
  • 公司 NOT 面临 NOT 破产风险(双重否定的否定)

数据版本管理

评估集不是一次性工程,需要随业务发展动态调整:

  • 定期补充:每月从线上日志中筛选新的失效案例加入测试集
  • 版本管理:用 Git 管理评估集,记录变更原因
  • 性能追踪:记录智能体在每个版本评估集上的得分曲线,识别退化
序号 知识点 重要度
11.2.2 评测数据分层策略 ★★★

11.2.3 结构化评分指标设计

评分维度选择原则

  • 少而精:聚焦 4-6 个核心维度,避免评分负担过重
  • 正交性:各维度之间尽量独立,减少重复评估
  • 可观察:每个维度都有明确的判断依据

通用评分维度(适用于大多数文本生成任务)包括准确性(内容是否符合事实)、完整性(是否涵盖所有必需信息)、相关性(是否紧扣问题,无多余内容)、流畅性(语言是否自然、通顺)。

评分等级设计

Likert 量表(5 分制)的设计示例:

  • 5 分 - 优秀(Excellent):全面超出预期,无明显改进空间
  • 4 分 - 良好(Good):满足所有核心要求,存在微小瑕疵
  • 3 分 - 合格(Acceptable):满足最低要求,但有明显改进空间
  • 2 分 - 不合格(Poor):部分满足要求,但存在重大缺陷
  • 1 分 - 失败(Failed):完全未满足要求或产生严重错误

金融智能体评分示例:财报摘要生成

任务:为上市公司季报生成 200 字摘要。

评分维度与标准:

  1. 准确性(权重 40%)
    • 5 分:所有关键数据(营收/利润/同比)准确无误
    • 4 分:关键数据准确,次要数据有 1 处小误差(<2%)
    • 3 分:关键数据准确,次要数据有 2 处误差
    • 2 分:关键数据有 1 处明显错误
    • 1 分:关键数据有 ≥2 处错误或重大事实错误
  2. 完整性(权重 30%)
    • 5 分:涵盖营收、利润、现金流、重大事项全部 4 项
    • 4 分:涵盖 3 项核心指标
    • 3 分:涵盖 2 项核心指标(必须包含营收或利润)
    • 2 分:仅涵盖 1 项核心指标
    • 1 分:未涵盖任何核心指标
  3. 简洁性(权重 20%)
    • 5 分:长度 180-220 字,无冗余信息
    • 4 分:长度 160-250 字,信息紧凑
    • 3 分:长度 250-300 字或 140-160 字,略有冗余或遗漏
    • 2 分:长度 >300 字或 <140 字
    • 1 分:长度严重超标(>400 字)或过短(<100 字)
  4. 专业性(权重 10%)
    • 5 分:术语使用准确,符合财报披露规范
    • 4 分:术语基本准确,有 1-2 处不够专业的表述
    • 3 分:术语基本正确,但表述偏口语化
    • 2 分:有明显的术语误用
    • 1 分:多处术语错误或使用不当

综合得分 = Σ(维度得分 × 权重)

序号 知识点 重要度
11.2.3 结构化评分指标设计 ★★

11.2.4 人工抽检与一致性校准

为什么需要人工抽检

即使有了结构化评分指标,自动化评估仍可能存在盲区:

  • 边界案例的判断:自动规则难以处理似是而非的输出
  • 主观质量评估:如专业性、流畅性等维度需要人类判断
  • 评估系统本身的校准:确保评分标准与实际业务价值对齐

抽检策略设计

采用分层抽样(Stratified Sampling),目标是用 10% 的人工成本覆盖 90% 的风险。

抽检优先级设计:

  1. 高优先级(100% 抽检)
    • 自动评分在边界值的样本(如得分 2.8-3.2)
    • 不同评估方法结果冲突的样本
    • 新类型任务的前 50 个样本
  2. 中优先级(30% 抽检)
    • 随机抽样的正常样本
    • 所有边缘样本
  3. 低优先级(5% 抽检)
    • 自动评分极高(>4.5)或极低(<2.0)的样本

时间分布:新系统上线初期每天抽检 50-100 个样本,稳定期每周抽检 30-50 个样本,每季度对 5-10% 的全量数据进行人工复核。

评分者间一致性(Inter-Rater Reliability)

不同评分者对同一输出的打分可能存在差异,需要通过评分校准(Calibration)解决。

Step 1: 建立黄金标准集

选择 100 个代表性样本(覆盖各难度层级),由 3-5 位领域专家独立评分,召开校准会议讨论分歧样本达成共识,形成黄金标准集,每个样本有明确的标准答案和评分理由。

Step 2: 评分者训练

新评分者先对黄金标准集打分,计算与标准答案的一致性(Cohen’s Kappa):

  • Kappa > 0.8:可独立评分
  • Kappa 0.6-0.8:需要监督式评分
  • Kappa < 0.6:需要重新培训

定期(如每月)用新的黄金标准样本测试评分者。

Step 3: 一致性监控

对 20% 的抽检样本进行双盲评分(两位评分者独立打分),计算一致性指标:

  • 完全一致率:两位评分者给出完全相同的分数
  • ±1 一致率:两位评分者的分数差距 ≤1 分

若一致率下降(完全一致率 < 60% 或 ±1 一致率 < 85%),需要召开校准会议或更新评分指南。若两位评分者分数差距 ≥2 分,交由第三位评分者裁决。

注记知识卡片

Cohen’s Kappa 系数是衡量两个评分者之间一致性的统计指标,取值范围从 -1 到 1。0 表示一致性与随机一致没有区别,1 表示完全一致。在实践中,0.6-0.8 被认为是实质性一致,0.8 以上被认为是几乎完全一致。

序号 知识点 重要度
11.2.4 人工抽检与一致性校准 ★★