logo

RAG (检索增强生成) 深度解析

Source: Google Cloud "Generative AI - Retrieval-Augmented Generation" Target: AI Engineers & Solution Architects Estimated Time: 25 mins

什么是 RAG?

Retrieval-Augmented Generation (RAG) 是一种技术架构,它让 LLM 在生成回答之前,先去一个可靠的外部知识库中“查阅”相关资料。

为什么需要 RAG?

尽管像 Gemini 这样的模型读过海量数据,但它们有两个核心局限:

  1. Knowledge Cutoff: 模型只知道训练截止日期之前的信息。
  2. Lack of Private Data: 模型不知道你公司内部的非公开文档。
  3. Hallucination (幻觉): 如果不知道答案,模型可能会一本正经地胡说八道。

RAG 就像是给 AI 参加闭卷考试时,偷偷塞给它一本可以翻阅的参考书。


官方 RAG 标准架构

RAG Architecture

这个架构分为两个主要路径:

1. Indexing Path (索引路径 - 绿色)

  • Step A: Chunking: 把庞大的文档(如 500 页的 PDF)切成一个个小的 Chunks(片段)。
  • Step B: Embedding: 使用 Embedding 模型把文字转换成向量(数字数组)。
  • Step C: Storage: 存入 Vector Database (在 Google Cloud 上推荐使用 Vertex AI Search)。

2. Query Path (查询路径 - 蓝色)

  • Step 1: Semantic Search: 用户提问后,AI 先去向量数据库中寻找语义最相关的 Chunks。
  • Step 2: Augmentation: 把搜到的片段和原始问题一起塞进 System Prompt
  • Step 3: Grounded Answer: LLM 根据这些“铁证”生成回答。

Google Cloud 的优势

在 Google Cloud 上实现 RAG,最强大的工具是 Vertex AI Search and Conversation

  • 企业级开箱即用: 你只需上传文件,Google 会自动帮你完成切片、向量化和检索。
  • Grounding with Google Search: 你甚至可以让 Gemini 结合 Google 搜索的实时结果来回答问题,确保时效性。

RAG 调优进阶技巧

  1. Chunk Size: 切片太大容易混入杂质,太小则丢失上下文。
  2. Top-K: 检索多少个片段?通常 3-5 个是平衡成本与质量的最佳点。
  3. Metadata Filtering: 在检索时加入标签(如:只查 2024 年的文档),提高精准度。

Summary: RAG 是目前将 AI 落地到真实业务场景(如智能客服、企业知识库)最稳定、最可靠的技术方案。

Google AI 官方精华
AI Engineer

Google AI 官方精华

由 Google 官方出品的 AI 核心系列课程,由 JR Academy 深度汉化并永久保存。

Google AI 官方精华RAG 架构深度解析

RAG (检索增强生成) 深度解析

Source: Google Cloud "Generative AI - Retrieval-Augmented Generation" Target: AI Engineers & Solution Architects Estimated Time: 25 mins

#什么是 RAG?

Retrieval-Augmented Generation (RAG) 是一种技术架构,它让 LLM 在生成回答之前,先去一个可靠的外部知识库中“查阅”相关资料。

#为什么需要 RAG?

尽管像 Gemini 这样的模型读过海量数据,但它们有两个核心局限:

  1. Knowledge Cutoff: 模型只知道训练截止日期之前的信息。
  2. Lack of Private Data: 模型不知道你公司内部的非公开文档。
  3. Hallucination (幻觉): 如果不知道答案,模型可能会一本正经地胡说八道。

RAG 就像是给 AI 参加闭卷考试时,偷偷塞给它一本可以翻阅的参考书。


#官方 RAG 标准架构

RAG Architecture
RAG Architecture

这个架构分为两个主要路径:

#1. Indexing Path (索引路径 - 绿色)

  • Step A: Chunking: 把庞大的文档(如 500 页的 PDF)切成一个个小的 Chunks(片段)。
  • Step B: Embedding: 使用 Embedding 模型把文字转换成向量(数字数组)。
  • Step C: Storage: 存入 Vector Database (在 Google Cloud 上推荐使用 Vertex AI Search)。

#2. Query Path (查询路径 - 蓝色)

  • Step 1: Semantic Search: 用户提问后,AI 先去向量数据库中寻找语义最相关的 Chunks。
  • Step 2: Augmentation: 把搜到的片段和原始问题一起塞进 System Prompt
  • Step 3: Grounded Answer: LLM 根据这些“铁证”生成回答。

#Google Cloud 的优势

在 Google Cloud 上实现 RAG,最强大的工具是 Vertex AI Search and Conversation

  • 企业级开箱即用: 你只需上传文件,Google 会自动帮你完成切片、向量化和检索。
  • Grounding with Google Search: 你甚至可以让 Gemini 结合 Google 搜索的实时结果来回答问题,确保时效性。

#RAG 调优进阶技巧

  1. Chunk Size: 切片太大容易混入杂质,太小则丢失上下文。
  2. Top-K: 检索多少个片段?通常 3-5 个是平衡成本与质量的最佳点。
  3. Metadata Filtering: 在检索时加入标签(如:只查 2024 年的文档),提高精准度。

Summary: RAG 是目前将 AI 落地到真实业务场景(如智能客服、企业知识库)最稳定、最可靠的技术方案。