本章小结

本章系统介绍了检索增强生成（RAG）技术的原理与实践。核心要点回顾：

RAG 解决的问题

大语言模型的知识有截止日期，且会产生幻觉。RAG 让模型在回答前检索真实文档，用外部知识弥补模型的局限性。

技术原理链条

环节	任务	关键技术
Tokenizer	将文本切分成 Token	BPE、WordPiece 算法
词嵌入	将 Token 映射到向量空间	Word2Vec、分布式假设
文本嵌入	生成句子/段落的向量表示	Transformer 编码器、BERT
向量存储	高效存储和索引向量	向量数据库、HNSW 算法
语义检索	找到最相关的文档	余弦相似度、混合检索
增强生成	基于检索结果回答	上下文构建、来源标注

技术选型建议

组件	入门选择	进阶选择
检索方式	文件级 RAG（Grep）	向量数据库（Qdrant）
嵌入模型	bge-small-zh-v1.5	Qwen2.5-Embedding
分块策略	固定大小 800 字	递归分块 + 语义边界
检索优化	单路语义检索	混合检索 + 重排序

评估要点

检索层：Recall@5 > 80%，确保正确文档被检索到
生成层：准确率 > 85%，幻觉率 < 5%
金融场景特别关注来源可追溯性

核心公式

RAG 效果 = 检索质量 × 生成质量

检索找不到正确文档，生成再好也无用；检索准确但生成不当，同样产出低质量回答。两个环节必须协同优化。

与后续章节的衔接

RAG 是构建知识密集型智能体的基础能力。下一章「多智能体协作」将展示如何让多个智能体共享同一个 RAG 知识库，协同完成复杂任务。第 15 章「文献综述智能体」会直接复用本章的 RAG 架构，将学术论文库作为检索源。

---
title: "本章小结"
---

本章系统介绍了检索增强生成（RAG）技术的原理与实践。核心要点回顾：

**RAG 解决的问题**

大语言模型的知识有截止日期，且会产生幻觉。RAG 让模型在回答前检索真实文档，用外部知识弥补模型的局限性。

**技术原理链条**

| 环节 | 任务 | 关键技术 |
|------|------|----------|
| Tokenizer | 将文本切分成 Token | BPE、WordPiece 算法 |
| 词嵌入 | 将 Token 映射到向量空间 | Word2Vec、分布式假设 |
| 文本嵌入 | 生成句子/段落的向量表示 | Transformer 编码器、BERT |
| 向量存储 | 高效存储和索引向量 | 向量数据库、HNSW 算法 |
| 语义检索 | 找到最相关的文档 | 余弦相似度、混合检索 |
| 增强生成 | 基于检索结果回答 | 上下文构建、来源标注 |

**技术选型建议**

| 组件 | 入门选择 | 进阶选择 |
|------|----------|----------|
| 检索方式 | 文件级 RAG（Grep） | 向量数据库（Qdrant） |
| 嵌入模型 | bge-small-zh-v1.5 | Qwen2.5-Embedding |
| 分块策略 | 固定大小 800 字 | 递归分块 + 语义边界 |
| 检索优化 | 单路语义检索 | 混合检索 + 重排序 |

**评估要点**

- 检索层：Recall@5 > 80%，确保正确文档被检索到
- 生成层：准确率 > 85%，幻觉率 < 5%
- 金融场景特别关注来源可追溯性

::: {.callout-important}
## 核心公式

**RAG 效果 = 检索质量 × 生成质量**

检索找不到正确文档，生成再好也无用；检索准确但生成不当，同样产出低质量回答。两个环节必须协同优化。
:::

**与后续章节的衔接**

RAG 是构建知识密集型智能体的基础能力。下一章「多智能体协作」将展示如何让多个智能体共享同一个 RAG 知识库，协同完成复杂任务。第 15 章「文献综述智能体」会直接复用本章的 RAG 架构，将学术论文库作为检索源。