本章小结

本章系统介绍了检索增强生成(RAG)技术的原理与实践。核心要点回顾:

RAG 解决的问题

大语言模型的知识有截止日期,且会产生幻觉。RAG 让模型在回答前检索真实文档,用外部知识弥补模型的局限性。

技术原理链条

环节 任务 关键技术
Tokenizer 将文本切分成 Token BPE、WordPiece 算法
词嵌入 将 Token 映射到向量空间 Word2Vec、分布式假设
文本嵌入 生成句子/段落的向量表示 Transformer 编码器、BERT
向量存储 高效存储和索引向量 向量数据库、HNSW 算法
语义检索 找到最相关的文档 余弦相似度、混合检索
增强生成 基于检索结果回答 上下文构建、来源标注

技术选型建议

组件 入门选择 进阶选择
检索方式 文件级 RAG(Grep) 向量数据库(Qdrant)
嵌入模型 bge-small-zh-v1.5 Qwen2.5-Embedding
分块策略 固定大小 800 字 递归分块 + 语义边界
检索优化 单路语义检索 混合检索 + 重排序

评估要点

重要核心公式

RAG 效果 = 检索质量 × 生成质量

检索找不到正确文档,生成再好也无用;检索准确但生成不当,同样产出低质量回答。两个环节必须协同优化。

与后续章节的衔接

RAG 是构建知识密集型智能体的基础能力。下一章「多智能体协作」将展示如何让多个智能体共享同一个 RAG 知识库,协同完成复杂任务。第 15 章「文献综述智能体」会直接复用本章的 RAG 架构,将学术论文库作为检索源。