配套案例

案例 11A：舆情分类评测集构建（智能体评估）

要素	说明
演示模式	智能体评估（Agent Evals）
案例简述	为舆情分类任务构建 50 条标注样例，定义评分 Rubric 与一致性规则，运行评估并发现误判集中类型。
经济学映射	市场信息质量评估——用可复验标准衡量信息质量
应用衔接	第 11 章金融舆情分析系统的质量控制流程复用此评估框架

案例背景

某证券公司需要开发一个智能体，自动分析财经新闻的情感倾向，辅助投资决策。智能体需要将新闻分类为积极、消极、中性三类，准确率要求达到 85% 以上。

第一阶段：初始评测集构建

数据来源选择：

权威财经媒体（60%）：财联社快讯、新浪财经头条、东方财富网要闻
上市公司公告（30%）：业绩预告、重大事项公告、股东增减持公告
分析师报告（10%）：投资评级、目标价调整

标注规范：

标注类别定义明确（积极：业绩增长超预期；消极：业绩下滑、监管处罚；中性：常规信息发布）
3 名金融分析师独立标注，采用多数投票机制
一致性要求：至少 2/3 标注者同意

第二阶段：迭代优化

基线测试（v1.0 提示词）结果：准确率 68%，中性类 F1 仅 0.52。

错误分析发现三类问题：

转折句误判（16 例）：公司营收虽增长 15%，但低于市场预期 → 被误判为积极
中性事件过度解读（12 例）：公司计划在下月发布新产品 → 被误判为积极
隐含风险识别不足（8 例）：公司董事长因个人原因辞职 → 被误判为中性

优化措施：

v2.0：在提示词中强调转折词处理、区分事实陈述和实际影响
v3.0：引入少样本示例（3 个典型案例）

最终结果：准确率从 68% 提升至 87%，通过质量门禁。

关键经验

错误分析是优化的关键，比盲目调整提示词更有效
测试集要覆盖边界情况，定期扩充
少样本示例能显著提升复杂场景的理解

案例 11B：研报生成迭代优化（优化迭代）

要素	说明
演示模式	优化迭代（Learning & Adaptation）
案例简述	记录研报生成中的常见缺陷，写入 lessons_learned.md 并迭代提示模板，形成稳定输出风格。
经济学映射	动态学习——通过经验积累降低信息不对称
应用衔接	第 13 章研报生成的质量迭代采用相同闭环机制

案例背景

某资产管理公司需要智能体自动生成行业研究报告，覆盖基本面分析、市场情绪、风险提示和投资建议四个维度。

版本演进

v1.0（基线版） 问题：缺数据、结构乱、不专业。总分 2.7/10。

v2.0（模板版） 改进：引入结构化模板。问题：数据编造（50%）、行业差异化不足。总分 6.9/10。

v3.0（数据源版） 改进：集成真实数据源 + 行业模板 + 推理步骤。总分 8.6/10。

多维度评分矩阵

维度	权重	v1.0	v2.0	v3.0
基本面分析	30%	2.3	7.1	8.9
市场情绪分析	20%	2.8	6.5	8.3
风险识别	25%	3.1	7.8	8.7
投资建议	25%	2.5	6.2	8.5

从版本演进可以看出：v2.0 引入模板后各维度均有显著提升（+4 分左右），v3.0 集成真实数据源后进一步优化 1-2 分。总分从不及格（2.7）提升至优秀（8.6）。基本面分析提升最大（+6.6 分），说明数据来源是准确性的核心。

关键改进点

结构化模板是基础：强制要求必需章节，确保完整性
真实数据源不可替代：v3.0 强制使用真实输入，数据编造率从 50% 降至 0%
行业差异化体现专业性：周期性行业侧重供需周期，成长性行业侧重技术路线
推理步骤提升建议质量：投资建议评级分布从 80% 持有变为合理分布

用户反馈驱动持续改进

收集用户反馈后识别的高频问题：

风险提示过于笼统（18 次提及）→ 下一版本增加风险优先级排序
缺少可比公司分析（12 次提及）→ 增加竞品对比表格
投资建议缺少时间维度（10 次提及）→ 明确短/中/长期配置建议

经验教训

数据驱动决策：所有优化都应基于真实数据和用户反馈
小步迭代验证：不要试图一次性解决所有问题
版本管理严格：对每次变更都要有明确记录和可回溯能力
用户价值优先：技术指标的改进最终要转化为用户体验的提升

--- title: "配套案例" --- ### 案例 11A：舆情分类评测集构建（智能体评估） | 要素 | 说明 | |------|------| | 演示模式 | 智能体评估（Agent Evals） | | 案例简述 | 为舆情分类任务构建 50 条标注样例，定义评分 Rubric 与一致性规则，运行评估并发现误判集中类型。 | | 经济学映射 | 市场信息质量评估——用可复验标准衡量信息质量 | | 应用衔接 | 第 11 章金融舆情分析系统的质量控制流程复用此评估框架 | **案例背景** 某证券公司需要开发一个智能体，自动分析财经新闻的情感倾向，辅助投资决策。智能体需要将新闻分类为积极、消极、中性三类，准确率要求达到 85% 以上。 **第一阶段：初始评测集构建** 数据来源选择： - 权威财经媒体（60%）：财联社快讯、新浪财经头条、东方财富网要闻 - 上市公司公告（30%）：业绩预告、重大事项公告、股东增减持公告 - 分析师报告（10%）：投资评级、目标价调整标注规范： - 标注类别定义明确（积极：业绩增长超预期；消极：业绩下滑、监管处罚；中性：常规信息发布） - 3 名金融分析师独立标注，采用多数投票机制 - 一致性要求：至少 2/3 标注者同意 **第二阶段：迭代优化** 基线测试（v1.0 提示词）结果：准确率 68%，中性类 F1 仅 0.52。错误分析发现三类问题： 1. 转折句误判（16 例）：公司营收虽增长 15%，但低于市场预期 → 被误判为积极 2. 中性事件过度解读（12 例）：公司计划在下月发布新产品 → 被误判为积极 3. 隐含风险识别不足（8 例）：公司董事长因个人原因辞职 → 被误判为中性优化措施： - v2.0：在提示词中强调转折词处理、区分事实陈述和实际影响 - v3.0：引入少样本示例（3 个典型案例）最终结果：准确率从 68% 提升至 87%，通过质量门禁。 **关键经验** - 错误分析是优化的关键，比盲目调整提示词更有效 - 测试集要覆盖边界情况，定期扩充 - 少样本示例能显著提升复杂场景的理解 --- ### 案例 11B：研报生成迭代优化（优化迭代） | 要素 | 说明 | |------|------| | 演示模式 | 优化迭代（Learning & Adaptation） | | 案例简述 | 记录研报生成中的常见缺陷，写入 lessons_learned.md 并迭代提示模板，形成稳定输出风格。 | | 经济学映射 | 动态学习——通过经验积累降低信息不对称 | | 应用衔接 | 第 13 章研报生成的质量迭代采用相同闭环机制 | **案例背景** 某资产管理公司需要智能体自动生成行业研究报告，覆盖基本面分析、市场情绪、风险提示和投资建议四个维度。 **版本演进** **v1.0（基线版）** 问题：缺数据、结构乱、不专业。总分 2.7/10。 **v2.0（模板版）** 改进：引入结构化模板。问题：数据编造（50%）、行业差异化不足。总分 6.9/10。 **v3.0（数据源版）** 改进：集成真实数据源 + 行业模板 + 推理步骤。总分 8.6/10。 **多维度评分矩阵** | 维度 | 权重 | v1.0 | v2.0 | v3.0 | |------|:----:|:----:|:----:|:----:| | 基本面分析 | 30% | 2.3 | 7.1 | 8.9 | | 市场情绪分析 | 20% | 2.8 | 6.5 | 8.3 | | 风险识别 | 25% | 3.1 | 7.8 | 8.7 | | 投资建议 | 25% | 2.5 | 6.2 | 8.5 | 从版本演进可以看出：v2.0 引入模板后各维度均有显著提升（+4 分左右），v3.0 集成真实数据源后进一步优化 1-2 分。总分从不及格（2.7）提升至优秀（8.6）。基本面分析提升最大（+6.6 分），说明数据来源是准确性的核心。 **关键改进点** 1. **结构化模板是基础**：强制要求必需章节，确保完整性 2. **真实数据源不可替代**：v3.0 强制使用真实输入，数据编造率从 50% 降至 0% 3. **行业差异化体现专业性**：周期性行业侧重供需周期，成长性行业侧重技术路线 4. **推理步骤提升建议质量**：投资建议评级分布从 80% 持有变为合理分布 **用户反馈驱动持续改进** 收集用户反馈后识别的高频问题： 1. 风险提示过于笼统（18 次提及）→ 下一版本增加风险优先级排序 2. 缺少可比公司分析（12 次提及）→ 增加竞品对比表格 3. 投资建议缺少时间维度（10 次提及）→ 明确短/中/长期配置建议 **经验教训** - 数据驱动决策：所有优化都应基于真实数据和用户反馈 - 小步迭代验证：不要试图一次性解决所有问题 - 版本管理严格：对每次变更都要有明确记录和可回溯能力 - 用户价值优先：技术指标的改进最终要转化为用户体验的提升