本章小结
本章系统介绍了检索增强生成(RAG)技术的原理与实践。核心要点回顾:
RAG 解决的问题
大语言模型的知识有截止日期,且会产生幻觉。RAG 让模型在回答前检索真实文档,用外部知识弥补模型的局限性。
技术原理链条
| 环节 | 任务 | 关键技术 |
|---|---|---|
| Tokenizer | 将文本切分成 Token | BPE、WordPiece 算法 |
| 词嵌入 | 将 Token 映射到向量空间 | Word2Vec、分布式假设 |
| 文本嵌入 | 生成句子/段落的向量表示 | Transformer 编码器、BERT |
| 向量存储 | 高效存储和索引向量 | 向量数据库、HNSW 算法 |
| 语义检索 | 找到最相关的文档 | 余弦相似度、混合检索 |
| 增强生成 | 基于检索结果回答 | 上下文构建、来源标注 |
技术选型建议
| 组件 | 入门选择 | 进阶选择 |
|---|---|---|
| 检索方式 | 文件级 RAG(Grep) | 向量数据库(Qdrant) |
| 嵌入模型 | bge-small-zh-v1.5 | Qwen2.5-Embedding |
| 分块策略 | 固定大小 800 字 | 递归分块 + 语义边界 |
| 检索优化 | 单路语义检索 | 混合检索 + 重排序 |
评估要点
- 检索层:Recall@5 > 80%,确保正确文档被检索到
- 生成层:准确率 > 85%,幻觉率 < 5%
- 金融场景特别关注来源可追溯性
重要核心公式
RAG 效果 = 检索质量 × 生成质量
检索找不到正确文档,生成再好也无用;检索准确但生成不当,同样产出低质量回答。两个环节必须协同优化。
与后续章节的衔接
RAG 是构建知识密集型智能体的基础能力。下一章「多智能体协作」将展示如何让多个智能体共享同一个 RAG 知识库,协同完成复杂任务。第 15 章「文献综述智能体」会直接复用本章的 RAG 架构,将学术论文库作为检索源。