logo

RAG (检索增强生成) 深度解析

Source: Google Cloud "Generative AI - Retrieval-Augmented Generation" Target: AI Engineers & Solution Architects Estimated Time: 25 mins

什么是 RAG?

Retrieval-Augmented Generation (RAG) 是一种技术架构,它让 LLM 在生成回答之前,先去一个可靠的外部知识库中“查阅”相关资料。

为什么需要 RAG?

尽管像 Gemini 这样的模型读过海量数据,但它们有两个核心局限:

  1. Knowledge Cutoff: 模型只知道训练截止日期之前的信息。
  2. Lack of Private Data: 模型不知道你公司内部的非公开文档。
  3. Hallucination (幻觉): 如果不知道答案,模型可能会一本正经地胡说八道。

RAG 就像是给 AI 参加闭卷考试时,偷偷塞给它一本可以翻阅的参考书。


官方 RAG 标准架构

RAG Architecture

这个架构分为两个主要路径:

1. Indexing Path (索引路径 - 绿色)

  • Step A: Chunking: 把庞大的文档(如 500 页的 PDF)切成一个个小的 Chunks(片段)。
  • Step B: Embedding: 使用 Embedding 模型把文字转换成向量(数字数组)。
  • Step C: Storage: 存入 Vector Database (在 Google Cloud 上推荐使用 Vertex AI Search)。

2. Query Path (查询路径 - 蓝色)

  • Step 1: Semantic Search: 用户提问后,AI 先去向量数据库中寻找语义最相关的 Chunks。
  • Step 2: Augmentation: 把搜到的片段和原始问题一起塞进 System Prompt
  • Step 3: Grounded Answer: LLM 根据这些“铁证”生成回答。

Google Cloud 的优势

在 Google Cloud 上实现 RAG,最强大的工具是 Vertex AI Search and Conversation

  • 企业级开箱即用: 你只需上传文件,Google 会自动帮你完成切片、向量化和检索。
  • Grounding with Google Search: 你甚至可以让 Gemini 结合 Google 搜索的实时结果来回答问题,确保时效性。

RAG 调优进阶技巧

  1. Chunk Size: 切片太大容易混入杂质,太小则丢失上下文。
  2. Top-K: 检索多少个片段?通常 3-5 个是平衡成本与质量的最佳点。
  3. Metadata Filtering: 在检索时加入标签(如:只查 2024 年的文档),提高精准度。

Summary: RAG 是目前将 AI 落地到真实业务场景(如智能客服、企业知识库)最稳定、最可靠的技术方案。

Google AI Essentials
AI Engineer

Google AI Essentials

An English entry point to JR Academy curated Google AI learning materials and practical references.

Google AI EssentialsRAG 架构深度解析

RAG (检索增强生成) 深度解析

Source: Google Cloud "Generative AI - Retrieval-Augmented Generation" Target: AI Engineers & Solution Architects Estimated Time: 25 mins

#什么是 RAG?

Retrieval-Augmented Generation (RAG) 是一种技术架构,它让 LLM 在生成回答之前,先去一个可靠的外部知识库中“查阅”相关资料。

#为什么需要 RAG?

尽管像 Gemini 这样的模型读过海量数据,但它们有两个核心局限:

  1. Knowledge Cutoff: 模型只知道训练截止日期之前的信息。
  2. Lack of Private Data: 模型不知道你公司内部的非公开文档。
  3. Hallucination (幻觉): 如果不知道答案,模型可能会一本正经地胡说八道。

RAG 就像是给 AI 参加闭卷考试时,偷偷塞给它一本可以翻阅的参考书。


#官方 RAG 标准架构

RAG Architecture
RAG Architecture

这个架构分为两个主要路径:

#1. Indexing Path (索引路径 - 绿色)

  • Step A: Chunking: 把庞大的文档(如 500 页的 PDF)切成一个个小的 Chunks(片段)。
  • Step B: Embedding: 使用 Embedding 模型把文字转换成向量(数字数组)。
  • Step C: Storage: 存入 Vector Database (在 Google Cloud 上推荐使用 Vertex AI Search)。

#2. Query Path (查询路径 - 蓝色)

  • Step 1: Semantic Search: 用户提问后,AI 先去向量数据库中寻找语义最相关的 Chunks。
  • Step 2: Augmentation: 把搜到的片段和原始问题一起塞进 System Prompt
  • Step 3: Grounded Answer: LLM 根据这些“铁证”生成回答。

#Google Cloud 的优势

在 Google Cloud 上实现 RAG,最强大的工具是 Vertex AI Search and Conversation

  • 企业级开箱即用: 你只需上传文件,Google 会自动帮你完成切片、向量化和检索。
  • Grounding with Google Search: 你甚至可以让 Gemini 结合 Google 搜索的实时结果来回答问题,确保时效性。

#RAG 调优进阶技巧

  1. Chunk Size: 切片太大容易混入杂质,太小则丢失上下文。
  2. Top-K: 检索多少个片段?通常 3-5 个是平衡成本与质量的最佳点。
  3. Metadata Filtering: 在检索时加入标签(如:只查 2024 年的文档),提高精准度。

Summary: RAG 是目前将 AI 落地到真实业务场景(如智能客服、企业知识库)最稳定、最可靠的技术方案。