配套案例

案例 11A:舆情分类评测集构建(智能体评估)

要素 说明
演示模式 智能体评估(Agent Evals)
案例简述 为舆情分类任务构建 50 条标注样例,定义评分 Rubric 与一致性规则,运行评估并发现误判集中类型。
经济学映射 市场信息质量评估——用可复验标准衡量信息质量
应用衔接 第 11 章金融舆情分析系统的质量控制流程复用此评估框架

案例背景

某证券公司需要开发一个智能体,自动分析财经新闻的情感倾向,辅助投资决策。智能体需要将新闻分类为积极、消极、中性三类,准确率要求达到 85% 以上。

第一阶段:初始评测集构建

数据来源选择:

  • 权威财经媒体(60%):财联社快讯、新浪财经头条、东方财富网要闻
  • 上市公司公告(30%):业绩预告、重大事项公告、股东增减持公告
  • 分析师报告(10%):投资评级、目标价调整

标注规范:

  • 标注类别定义明确(积极:业绩增长超预期;消极:业绩下滑、监管处罚;中性:常规信息发布)
  • 3 名金融分析师独立标注,采用多数投票机制
  • 一致性要求:至少 2/3 标注者同意

第二阶段:迭代优化

基线测试(v1.0 提示词)结果:准确率 68%,中性类 F1 仅 0.52。

错误分析发现三类问题:

  1. 转折句误判(16 例):公司营收虽增长 15%,但低于市场预期 → 被误判为积极
  2. 中性事件过度解读(12 例):公司计划在下月发布新产品 → 被误判为积极
  3. 隐含风险识别不足(8 例):公司董事长因个人原因辞职 → 被误判为中性

优化措施:

  • v2.0:在提示词中强调转折词处理、区分事实陈述和实际影响
  • v3.0:引入少样本示例(3 个典型案例)

最终结果:准确率从 68% 提升至 87%,通过质量门禁。

关键经验

  • 错误分析是优化的关键,比盲目调整提示词更有效
  • 测试集要覆盖边界情况,定期扩充
  • 少样本示例能显著提升复杂场景的理解

案例 11B:研报生成迭代优化(优化迭代)

要素 说明
演示模式 优化迭代(Learning & Adaptation)
案例简述 记录研报生成中的常见缺陷,写入 lessons_learned.md 并迭代提示模板,形成稳定输出风格。
经济学映射 动态学习——通过经验积累降低信息不对称
应用衔接 第 13 章研报生成的质量迭代采用相同闭环机制

案例背景

某资产管理公司需要智能体自动生成行业研究报告,覆盖基本面分析、市场情绪、风险提示和投资建议四个维度。

版本演进

v1.0(基线版) 问题:缺数据、结构乱、不专业。总分 2.7/10。

v2.0(模板版) 改进:引入结构化模板。问题:数据编造(50%)、行业差异化不足。总分 6.9/10。

v3.0(数据源版) 改进:集成真实数据源 + 行业模板 + 推理步骤。总分 8.6/10。

多维度评分矩阵

维度 权重 v1.0 v2.0 v3.0
基本面分析 30% 2.3 7.1 8.9
市场情绪分析 20% 2.8 6.5 8.3
风险识别 25% 3.1 7.8 8.7
投资建议 25% 2.5 6.2 8.5

从版本演进可以看出:v2.0 引入模板后各维度均有显著提升(+4 分左右),v3.0 集成真实数据源后进一步优化 1-2 分。总分从不及格(2.7)提升至优秀(8.6)。基本面分析提升最大(+6.6 分),说明数据来源是准确性的核心。

关键改进点

  1. 结构化模板是基础:强制要求必需章节,确保完整性
  2. 真实数据源不可替代:v3.0 强制使用真实输入,数据编造率从 50% 降至 0%
  3. 行业差异化体现专业性:周期性行业侧重供需周期,成长性行业侧重技术路线
  4. 推理步骤提升建议质量:投资建议评级分布从 80% 持有变为合理分布

用户反馈驱动持续改进

收集用户反馈后识别的高频问题:

  1. 风险提示过于笼统(18 次提及)→ 下一版本增加风险优先级排序
  2. 缺少可比公司分析(12 次提及)→ 增加竞品对比表格
  3. 投资建议缺少时间维度(10 次提及)→ 明确短/中/长期配置建议

经验教训

  • 数据驱动决策:所有优化都应基于真实数据和用户反馈
  • 小步迭代验证:不要试图一次性解决所有问题
  • 版本管理严格:对每次变更都要有明确记录和可回溯能力
  • 用户价值优先:技术指标的改进最终要转化为用户体验的提升