配套案例
案例 11A:舆情分类评测集构建(智能体评估)
| 要素 | 说明 |
|---|---|
| 演示模式 | 智能体评估(Agent Evals) |
| 案例简述 | 为舆情分类任务构建 50 条标注样例,定义评分 Rubric 与一致性规则,运行评估并发现误判集中类型。 |
| 经济学映射 | 市场信息质量评估——用可复验标准衡量信息质量 |
| 应用衔接 | 第 11 章金融舆情分析系统的质量控制流程复用此评估框架 |
案例背景
某证券公司需要开发一个智能体,自动分析财经新闻的情感倾向,辅助投资决策。智能体需要将新闻分类为积极、消极、中性三类,准确率要求达到 85% 以上。
第一阶段:初始评测集构建
数据来源选择:
- 权威财经媒体(60%):财联社快讯、新浪财经头条、东方财富网要闻
- 上市公司公告(30%):业绩预告、重大事项公告、股东增减持公告
- 分析师报告(10%):投资评级、目标价调整
标注规范:
- 标注类别定义明确(积极:业绩增长超预期;消极:业绩下滑、监管处罚;中性:常规信息发布)
- 3 名金融分析师独立标注,采用多数投票机制
- 一致性要求:至少 2/3 标注者同意
第二阶段:迭代优化
基线测试(v1.0 提示词)结果:准确率 68%,中性类 F1 仅 0.52。
错误分析发现三类问题:
- 转折句误判(16 例):公司营收虽增长 15%,但低于市场预期 → 被误判为积极
- 中性事件过度解读(12 例):公司计划在下月发布新产品 → 被误判为积极
- 隐含风险识别不足(8 例):公司董事长因个人原因辞职 → 被误判为中性
优化措施:
- v2.0:在提示词中强调转折词处理、区分事实陈述和实际影响
- v3.0:引入少样本示例(3 个典型案例)
最终结果:准确率从 68% 提升至 87%,通过质量门禁。
关键经验
- 错误分析是优化的关键,比盲目调整提示词更有效
- 测试集要覆盖边界情况,定期扩充
- 少样本示例能显著提升复杂场景的理解
案例 11B:研报生成迭代优化(优化迭代)
| 要素 | 说明 |
|---|---|
| 演示模式 | 优化迭代(Learning & Adaptation) |
| 案例简述 | 记录研报生成中的常见缺陷,写入 lessons_learned.md 并迭代提示模板,形成稳定输出风格。 |
| 经济学映射 | 动态学习——通过经验积累降低信息不对称 |
| 应用衔接 | 第 13 章研报生成的质量迭代采用相同闭环机制 |
案例背景
某资产管理公司需要智能体自动生成行业研究报告,覆盖基本面分析、市场情绪、风险提示和投资建议四个维度。
版本演进
v1.0(基线版) 问题:缺数据、结构乱、不专业。总分 2.7/10。
v2.0(模板版) 改进:引入结构化模板。问题:数据编造(50%)、行业差异化不足。总分 6.9/10。
v3.0(数据源版) 改进:集成真实数据源 + 行业模板 + 推理步骤。总分 8.6/10。
多维度评分矩阵
| 维度 | 权重 | v1.0 | v2.0 | v3.0 |
|---|---|---|---|---|
| 基本面分析 | 30% | 2.3 | 7.1 | 8.9 |
| 市场情绪分析 | 20% | 2.8 | 6.5 | 8.3 |
| 风险识别 | 25% | 3.1 | 7.8 | 8.7 |
| 投资建议 | 25% | 2.5 | 6.2 | 8.5 |
从版本演进可以看出:v2.0 引入模板后各维度均有显著提升(+4 分左右),v3.0 集成真实数据源后进一步优化 1-2 分。总分从不及格(2.7)提升至优秀(8.6)。基本面分析提升最大(+6.6 分),说明数据来源是准确性的核心。
关键改进点
- 结构化模板是基础:强制要求必需章节,确保完整性
- 真实数据源不可替代:v3.0 强制使用真实输入,数据编造率从 50% 降至 0%
- 行业差异化体现专业性:周期性行业侧重供需周期,成长性行业侧重技术路线
- 推理步骤提升建议质量:投资建议评级分布从 80% 持有变为合理分布
用户反馈驱动持续改进
收集用户反馈后识别的高频问题:
- 风险提示过于笼统(18 次提及)→ 下一版本增加风险优先级排序
- 缺少可比公司分析(12 次提及)→ 增加竞品对比表格
- 投资建议缺少时间维度(10 次提及)→ 明确短/中/长期配置建议
经验教训
- 数据驱动决策:所有优化都应基于真实数据和用户反馈
- 小步迭代验证:不要试图一次性解决所有问题
- 版本管理严格:对每次变更都要有明确记录和可回溯能力
- 用户价值优先:技术指标的改进最终要转化为用户体验的提升