RAG (检索增强生成) 深度解析
Source: Google Cloud "Generative AI - Retrieval-Augmented Generation" Target: AI Engineers & Solution Architects Estimated Time: 25 mins
什么是 RAG?
Retrieval-Augmented Generation (RAG) 是一种技术架构,它让 LLM 在生成回答之前,先去一个可靠的外部知识库中“查阅”相关资料。
为什么需要 RAG?
尽管像 Gemini 这样的模型读过海量数据,但它们有两个核心局限:
- Knowledge Cutoff: 模型只知道训练截止日期之前的信息。
- Lack of Private Data: 模型不知道你公司内部的非公开文档。
- Hallucination (幻觉): 如果不知道答案,模型可能会一本正经地胡说八道。
RAG 就像是给 AI 参加闭卷考试时,偷偷塞给它一本可以翻阅的参考书。
官方 RAG 标准架构
这个架构分为两个主要路径:
1. Indexing Path (索引路径 - 绿色)
- Step A: Chunking: 把庞大的文档(如 500 页的 PDF)切成一个个小的 Chunks(片段)。
- Step B: Embedding: 使用 Embedding 模型把文字转换成向量(数字数组)。
- Step C: Storage: 存入 Vector Database (在 Google Cloud 上推荐使用 Vertex AI Search)。
2. Query Path (查询路径 - 蓝色)
- Step 1: Semantic Search: 用户提问后,AI 先去向量数据库中寻找语义最相关的 Chunks。
- Step 2: Augmentation: 把搜到的片段和原始问题一起塞进 System Prompt。
- Step 3: Grounded Answer: LLM 根据这些“铁证”生成回答。
Google Cloud 的优势
在 Google Cloud 上实现 RAG,最强大的工具是 Vertex AI Search and Conversation。
- 企业级开箱即用: 你只需上传文件,Google 会自动帮你完成切片、向量化和检索。
- Grounding with Google Search: 你甚至可以让 Gemini 结合 Google 搜索的实时结果来回答问题,确保时效性。
RAG 调优进阶技巧
- Chunk Size: 切片太大容易混入杂质,太小则丢失上下文。
- Top-K: 检索多少个片段?通常 3-5 个是平衡成本与质量的最佳点。
- Metadata Filtering: 在检索时加入标签(如:只查 2024 年的文档),提高精准度。
Summary: RAG 是目前将 AI 落地到真实业务场景(如智能客服、企业知识库)最稳定、最可靠的技术方案。