11.2 评估设计与指标（Eval Design & Metrics）

评估智能体的第一步是明确定义什么叫「成功」。本节介绍如何设计任务成功标准、评测数据分层策略、结构化评分指标以及人工抽检校准方法。

11.2.1 任务成功标准定义

任务成功标准（Task Success Criteria）需要具备这些特点：

可量化性（Quantifiable） 标准必须可以用具体数字衡量，而非模糊的定性描述。例如：客服智能体的成功标准是「90% 的查询无需人工介入即可解决」，而非「大部分问题能解决」。

任务特异性（Task-Specific） 不同任务需要不同的成功定义。金融研报生成的成功标准可能是：报告包含所有必需章节 + 数据准确性 > 95% + 无抄袭。交易信号生成的成功标准可能是：信号及时性 < 1 秒 + 历史回测夏普比率 > 1.5。

二元可判定性（Binary Decidability） 对于任何一个任务实例，必须能明确判断「成功」或「失败」。避免灰色地带，如果需要多级评分，应设置清晰的阈值。

成功标准的分层设计

根据任务复杂度，可以采用分层成功标准：

Level 1: 最小可行标准 智能体完成了任务的核心目标。例如：情感分析智能体正确识别出文本的主导情感。

Level 2: 质量标准 在完成任务的基础上，满足特定质量指标。例如：情感分析不仅正确，且置信度 > 0.8。

Level 3: 优化标准 在质量达标的基础上，满足效率、成本等优化目标。例如：情感分析在 100ms 内完成，且 API 调用成本 < $0.001。

知识卡片

以财报问答智能体为例说明成功标准的分层设计。任务：回答「公司 2023 年净利润同比增长率是多少？」。Level 1：返回了一个数值型答案。Level 2：答案与财报原文数据一致（允许 ±0.1% 误差）。Level 3：答案附带数据来源（财报页码/表格编号）。失败情形包括：返回空值/错误类型、数值偏差 > 0.1%、引用了错误的时间周期（如 2022 年数据）。

序号	知识点	重要度
11.2.1	任务成功标准定义	★★★

11.2.2 评测数据分层策略

前一节已介绍正常样本、边缘样本、对抗样本的分层方法。本节深入探讨如何系统化地识别和设计各类样本。

正常样本设计原则

正常样本应覆盖典型场景的主要变体，保持与真实生产环境的分布一致性。以股票新闻情感分析为例：

公司 Q3 营收同比增长 15%，超出市场预期（正面）
受原材料价格上涨影响，毛利率环比下降 2%（负面）
公司发布年度报告，维持去年盈利水平（中性）
管理层在电话会议上表示对下季度持谨慎乐观态度（中性偏正）

边缘样本识别方法

边缘样本的识别可以采用三种策略：等价类划分（将输入空间分成若干等价类，测试每个类的边界值）、极值测试（测试数值型输入的最大/最小值）、组合测试（测试多个条件同时出现的极端组合）。

边缘样本设计实例：金融新闻情感分析

信息不完整：公司宣布重大资产重组，交易对价待定
矛盾信息：CEO 突然离职，但公司表示运营不受影响
量价背离：股价今日涨停，成交量萎缩至日均的 20%
多层嵌套：公司发布澄清公告，否认媒体报道的并购传闻
中英混杂：Due to regulatory changes, Q4 EBITDA impact TBD
极端长度：超长新闻（3000+ 字，含 10+ 个独立事件）或超短新闻（仅 15 字）

对抗样本设计策略

对抗样本的设计策略包括语义混淆（使用容易误导模型的表述）、格式攻击（异常格式、特殊字符、编码问题）、逻辑陷阱（表面一致但实际矛盾的信息）。

金融新闻情感分析的对抗样本示例：

公司亏损扩大，但这正是战略转型期的预期表现（负面词汇 + 正面解读）
利润大幅增长，主要来自一次性资产处置收益（正面结果 + 不可持续性）
公司业绩符合预期，但预期本身已下调 30%（双重否定）
公司 NOT 面临 NOT 破产风险（双重否定的否定）

数据版本管理

评估集不是一次性工程，需要随业务发展动态调整：

定期补充：每月从线上日志中筛选新的失效案例加入测试集
版本管理：用 Git 管理评估集，记录变更原因
性能追踪：记录智能体在每个版本评估集上的得分曲线，识别退化

序号	知识点	重要度
11.2.2	评测数据分层策略	★★★

11.2.3 结构化评分指标设计

评分维度选择原则

少而精：聚焦 4-6 个核心维度，避免评分负担过重
正交性：各维度之间尽量独立，减少重复评估
可观察：每个维度都有明确的判断依据

通用评分维度（适用于大多数文本生成任务）包括准确性（内容是否符合事实）、完整性（是否涵盖所有必需信息）、相关性（是否紧扣问题，无多余内容）、流畅性（语言是否自然、通顺）。

评分等级设计

Likert 量表（5 分制）的设计示例：

5 分 - 优秀（Excellent）：全面超出预期，无明显改进空间
4 分 - 良好（Good）：满足所有核心要求，存在微小瑕疵
3 分 - 合格（Acceptable）：满足最低要求，但有明显改进空间
2 分 - 不合格（Poor）：部分满足要求，但存在重大缺陷
1 分 - 失败（Failed）：完全未满足要求或产生严重错误

金融智能体评分示例：财报摘要生成

任务：为上市公司季报生成 200 字摘要。

评分维度与标准：

准确性（权重 40%）
- 5 分：所有关键数据（营收/利润/同比）准确无误
- 4 分：关键数据准确，次要数据有 1 处小误差（<2%）
- 3 分：关键数据准确，次要数据有 2 处误差
- 2 分：关键数据有 1 处明显错误
- 1 分：关键数据有 ≥2 处错误或重大事实错误
完整性（权重 30%）
- 5 分：涵盖营收、利润、现金流、重大事项全部 4 项
- 4 分：涵盖 3 项核心指标
- 3 分：涵盖 2 项核心指标（必须包含营收或利润）
- 2 分：仅涵盖 1 项核心指标
- 1 分：未涵盖任何核心指标
简洁性（权重 20%）
- 5 分：长度 180-220 字，无冗余信息
- 4 分：长度 160-250 字，信息紧凑
- 3 分：长度 250-300 字或 140-160 字，略有冗余或遗漏
- 2 分：长度 >300 字或 <140 字
- 1 分：长度严重超标（>400 字）或过短（<100 字）
专业性（权重 10%）
- 5 分：术语使用准确，符合财报披露规范
- 4 分：术语基本准确，有 1-2 处不够专业的表述
- 3 分：术语基本正确，但表述偏口语化
- 2 分：有明显的术语误用
- 1 分：多处术语错误或使用不当

综合得分 = Σ(维度得分 × 权重)

序号	知识点	重要度
11.2.3	结构化评分指标设计	★★

11.2.4 人工抽检与一致性校准

为什么需要人工抽检

即使有了结构化评分指标，自动化评估仍可能存在盲区：

边界案例的判断：自动规则难以处理似是而非的输出
主观质量评估：如专业性、流畅性等维度需要人类判断
评估系统本身的校准：确保评分标准与实际业务价值对齐

抽检策略设计

采用分层抽样（Stratified Sampling），目标是用 10% 的人工成本覆盖 90% 的风险。

抽检优先级设计：

高优先级（100% 抽检）
- 自动评分在边界值的样本（如得分 2.8-3.2）
- 不同评估方法结果冲突的样本
- 新类型任务的前 50 个样本
中优先级（30% 抽检）
- 随机抽样的正常样本
- 所有边缘样本
低优先级（5% 抽检）
- 自动评分极高（>4.5）或极低（<2.0）的样本

时间分布：新系统上线初期每天抽检 50-100 个样本，稳定期每周抽检 30-50 个样本，每季度对 5-10% 的全量数据进行人工复核。

评分者间一致性（Inter-Rater Reliability）

不同评分者对同一输出的打分可能存在差异，需要通过评分校准（Calibration）解决。

Step 1: 建立黄金标准集

选择 100 个代表性样本（覆盖各难度层级），由 3-5 位领域专家独立评分，召开校准会议讨论分歧样本达成共识，形成黄金标准集，每个样本有明确的标准答案和评分理由。

Step 2: 评分者训练

新评分者先对黄金标准集打分，计算与标准答案的一致性（Cohen’s Kappa）：

Kappa > 0.8：可独立评分
Kappa 0.6-0.8：需要监督式评分
Kappa < 0.6：需要重新培训

定期（如每月）用新的黄金标准样本测试评分者。

Step 3: 一致性监控

对 20% 的抽检样本进行双盲评分（两位评分者独立打分），计算一致性指标：

完全一致率：两位评分者给出完全相同的分数
±1 一致率：两位评分者的分数差距 ≤1 分

若一致率下降（完全一致率 < 60% 或 ±1 一致率 < 85%），需要召开校准会议或更新评分指南。若两位评分者分数差距 ≥2 分，交由第三位评分者裁决。

知识卡片

Cohen’s Kappa 系数是衡量两个评分者之间一致性的统计指标，取值范围从 -1 到 1。0 表示一致性与随机一致没有区别，1 表示完全一致。在实践中，0.6-0.8 被认为是实质性一致，0.8 以上被认为是几乎完全一致。

序号	知识点	重要度
11.2.4	人工抽检与一致性校准	★★

--- title: "11.2 评估设计与指标（Eval Design & Metrics）" --- 评估智能体的第一步是明确定义什么叫「成功」。本节介绍如何设计任务成功标准、评测数据分层策略、结构化评分指标以及人工抽检校准方法。 ### 11.2.1 任务成功标准定义任务成功标准（Task Success Criteria）需要具备这些特点： **可量化性（Quantifiable）** 标准必须可以用具体数字衡量，而非模糊的定性描述。例如：客服智能体的成功标准是「90% 的查询无需人工介入即可解决」，而非「大部分问题能解决」。 **任务特异性（Task-Specific）** 不同任务需要不同的成功定义。金融研报生成的成功标准可能是：报告包含所有必需章节 + 数据准确性 > 95% + 无抄袭。交易信号生成的成功标准可能是：信号及时性 < 1 秒 + 历史回测夏普比率 > 1.5。 **二元可判定性（Binary Decidability）** 对于任何一个任务实例，必须能明确判断「成功」或「失败」。避免灰色地带，如果需要多级评分，应设置清晰的阈值。 **成功标准的分层设计** 根据任务复杂度，可以采用分层成功标准： **Level 1: 最小可行标准** 智能体完成了任务的核心目标。例如：情感分析智能体正确识别出文本的主导情感。 **Level 2: 质量标准** 在完成任务的基础上，满足特定质量指标。例如：情感分析不仅正确，且置信度 > 0.8。 **Level 3: 优化标准** 在质量达标的基础上，满足效率、成本等优化目标。例如：情感分析在 100ms 内完成，且 API 调用成本 < $0.001。 ::: {.callout-note} ## 知识卡片以财报问答智能体为例说明成功标准的分层设计。任务：回答「公司 2023 年净利润同比增长率是多少？」。Level 1：返回了一个数值型答案。Level 2：答案与财报原文数据一致（允许 ±0.1% 误差）。Level 3：答案附带数据来源（财报页码/表格编号）。失败情形包括：返回空值/错误类型、数值偏差 > 0.1%、引用了错误的时间周期（如 2022 年数据）。 ::: | 序号 | 知识点 | 重要度 | |:----:|--------|:------:| | 11.2.1 | 任务成功标准定义 | ★★★ | ### 11.2.2 评测数据分层策略前一节已介绍正常样本、边缘样本、对抗样本的分层方法。本节深入探讨如何系统化地识别和设计各类样本。 **正常样本设计原则** 正常样本应覆盖典型场景的主要变体，保持与真实生产环境的分布一致性。以股票新闻情感分析为例： - 公司 Q3 营收同比增长 15%，超出市场预期（正面） - 受原材料价格上涨影响，毛利率环比下降 2%（负面） - 公司发布年度报告，维持去年盈利水平（中性） - 管理层在电话会议上表示对下季度持谨慎乐观态度（中性偏正） **边缘样本识别方法** 边缘样本的识别可以采用三种策略：等价类划分（将输入空间分成若干等价类，测试每个类的边界值）、极值测试（测试数值型输入的最大/最小值）、组合测试（测试多个条件同时出现的极端组合）。 ::: {.callout-note} ## 边缘样本设计实例：金融新闻情感分析 - **信息不完整**：公司宣布重大资产重组，交易对价待定 - **矛盾信息**：CEO 突然离职，但公司表示运营不受影响 - **量价背离**：股价今日涨停，成交量萎缩至日均的 20% - **多层嵌套**：公司发布澄清公告，否认媒体报道的并购传闻 - **中英混杂**：Due to regulatory changes, Q4 EBITDA impact TBD - **极端长度**：超长新闻（3000+ 字，含 10+ 个独立事件）或超短新闻（仅 15 字） ::: **对抗样本设计策略** 对抗样本的设计策略包括语义混淆（使用容易误导模型的表述）、格式攻击（异常格式、特殊字符、编码问题）、逻辑陷阱（表面一致但实际矛盾的信息）。金融新闻情感分析的对抗样本示例： - 公司亏损扩大，但这正是战略转型期的预期表现（负面词汇 + 正面解读） - 利润大幅增长，主要来自一次性资产处置收益（正面结果 + 不可持续性） - 公司业绩符合预期，但预期本身已下调 30%（双重否定） - 公司 NOT 面临 NOT 破产风险（双重否定的否定） **数据版本管理** 评估集不是一次性工程，需要随业务发展动态调整： - 定期补充：每月从线上日志中筛选新的失效案例加入测试集 - 版本管理：用 Git 管理评估集，记录变更原因 - 性能追踪：记录智能体在每个版本评估集上的得分曲线，识别退化 | 序号 | 知识点 | 重要度 | |:----:|--------|:------:| | 11.2.2 | 评测数据分层策略 | ★★★ | ### 11.2.3 结构化评分指标设计 **评分维度选择原则** - **少而精**：聚焦 4-6 个核心维度，避免评分负担过重 - **正交性**：各维度之间尽量独立，减少重复评估 - **可观察**：每个维度都有明确的判断依据通用评分维度（适用于大多数文本生成任务）包括准确性（内容是否符合事实）、完整性（是否涵盖所有必需信息）、相关性（是否紧扣问题，无多余内容）、流畅性（语言是否自然、通顺）。 **评分等级设计** Likert 量表（5 分制）的设计示例： - 5 分 - 优秀（Excellent）：全面超出预期，无明显改进空间 - 4 分 - 良好（Good）：满足所有核心要求，存在微小瑕疵 - 3 分 - 合格（Acceptable）：满足最低要求，但有明显改进空间 - 2 分 - 不合格（Poor）：部分满足要求，但存在重大缺陷 - 1 分 - 失败（Failed）：完全未满足要求或产生严重错误 **金融智能体评分示例：财报摘要生成** 任务：为上市公司季报生成 200 字摘要。评分维度与标准： 1. **准确性（权重 40%）** - 5 分：所有关键数据（营收/利润/同比）准确无误 - 4 分：关键数据准确，次要数据有 1 处小误差（<2%） - 3 分：关键数据准确，次要数据有 2 处误差 - 2 分：关键数据有 1 处明显错误 - 1 分：关键数据有 ≥2 处错误或重大事实错误 2. **完整性（权重 30%）** - 5 分：涵盖营收、利润、现金流、重大事项全部 4 项 - 4 分：涵盖 3 项核心指标 - 3 分：涵盖 2 项核心指标（必须包含营收或利润） - 2 分：仅涵盖 1 项核心指标 - 1 分：未涵盖任何核心指标 3. **简洁性（权重 20%）** - 5 分：长度 180-220 字，无冗余信息 - 4 分：长度 160-250 字，信息紧凑 - 3 分：长度 250-300 字或 140-160 字，略有冗余或遗漏 - 2 分：长度 >300 字或 <140 字 - 1 分：长度严重超标（>400 字）或过短（<100 字） 4. **专业性（权重 10%）** - 5 分：术语使用准确，符合财报披露规范 - 4 分：术语基本准确，有 1-2 处不够专业的表述 - 3 分：术语基本正确，但表述偏口语化 - 2 分：有明显的术语误用 - 1 分：多处术语错误或使用不当综合得分 = Σ(维度得分 × 权重) | 序号 | 知识点 | 重要度 | |:----:|--------|:------:| | 11.2.3 | 结构化评分指标设计 | ★★ | ### 11.2.4 人工抽检与一致性校准 **为什么需要人工抽检** 即使有了结构化评分指标，自动化评估仍可能存在盲区： - 边界案例的判断：自动规则难以处理似是而非的输出 - 主观质量评估：如专业性、流畅性等维度需要人类判断 - 评估系统本身的校准：确保评分标准与实际业务价值对齐 **抽检策略设计** 采用分层抽样（Stratified Sampling），目标是用 10% 的人工成本覆盖 90% 的风险。抽检优先级设计： 1. **高优先级（100% 抽检）** - 自动评分在边界值的样本（如得分 2.8-3.2） - 不同评估方法结果冲突的样本 - 新类型任务的前 50 个样本 2. **中优先级（30% 抽检）** - 随机抽样的正常样本 - 所有边缘样本 3. **低优先级（5% 抽检）** - 自动评分极高（>4.5）或极低（<2.0）的样本时间分布：新系统上线初期每天抽检 50-100 个样本，稳定期每周抽检 30-50 个样本，每季度对 5-10% 的全量数据进行人工复核。 **评分者间一致性（Inter-Rater Reliability）** 不同评分者对同一输出的打分可能存在差异，需要通过评分校准（Calibration）解决。 **Step 1: 建立黄金标准集** 选择 100 个代表性样本（覆盖各难度层级），由 3-5 位领域专家独立评分，召开校准会议讨论分歧样本达成共识，形成黄金标准集，每个样本有明确的标准答案和评分理由。 **Step 2: 评分者训练** 新评分者先对黄金标准集打分，计算与标准答案的一致性（Cohen's Kappa）： - Kappa > 0.8：可独立评分 - Kappa 0.6-0.8：需要监督式评分 - Kappa < 0.6：需要重新培训定期（如每月）用新的黄金标准样本测试评分者。 **Step 3: 一致性监控** 对 20% 的抽检样本进行双盲评分（两位评分者独立打分），计算一致性指标： - 完全一致率：两位评分者给出完全相同的分数 - ±1 一致率：两位评分者的分数差距 ≤1 分若一致率下降（完全一致率 < 60% 或 ±1 一致率 < 85%），需要召开校准会议或更新评分指南。若两位评分者分数差距 ≥2 分，交由第三位评分者裁决。 ::: {.callout-note} ## 知识卡片 Cohen's Kappa 系数是衡量两个评分者之间一致性的统计指标，取值范围从 -1 到 1。0 表示一致性与随机一致没有区别，1 表示完全一致。在实践中，0.6-0.8 被认为是实质性一致，0.8 以上被认为是几乎完全一致。 ::: | 序号 | 知识点 | 重要度 | |:----:|--------|:------:| | 11.2.4 | 人工抽检与一致性校准 | ★★ |