Part 4 — RAG 工程实战与生产部署

28 节课详细介绍

L47VIDEO

Understanding LLMs — Capabilities, Limits & Engineering Solutions

30min

🎯 这节课解决什么问题

LLM 再强也有天生缺陷——上下文塞不下、数学推理烂、不知道最新信息、输出不确定。这节课把 4 大硬伤列清楚，每个配一个工程化对策。理解这些，你就知道为什么 RAG / Tool Use / JSON Mode 这些技术会出现。

📖 你将学到

硬伤 1 上下文溢出 → Context Compression / RAG
硬伤 2 数学推理烂 → Tool Use（调计算器 / Python Interpreter）
硬伤 3 知识截断 → RAG / Web Search Tool
硬伤 4 输出不确定 → JSON Mode / Structured Outputs / temperature=0

💡 适合谁

已经用过 LLM 撞过墙的工程师。你知道 LLM 有问题但不知道怎么系统性解决——这节课给你一个对照表。

📦 课程包含

30 分钟视频 + 4 大硬伤对照表
每个硬伤的真实翻车案例
对应的工程化解决方案

✅ 学完能做什么

面对 LLM 的任何"翻车"你能立刻诊断原因（上下文 / 数学 / 知识 / 确定性），然后给出对应的工程化修复方案。这是资深 AI Engineer 的日常工作。

L48VIDEO

RAG 基本架构

30min

🎯 这节课解决什么问题

前面讲的都是"最小 RAG"——一个 Loader + Vector Store + Retriever 就能跑。但企业级 RAG 架构远比这复杂。这节课给你完整的双管道架构图：Ingestion Pipeline（离线跑批）+ Query Pipeline（在线实时）+ 各层的技术栈推荐。

📖 你将学到

双管道架构 — Ingestion（离线、可重跑、吞吐优先）vs Query（在线、延迟敏感、不能错）
Ingestion 全流程 — 源文档 → Loader → Cleaner → Splitter → Metadata → Embedder → Vector Store
Query 全流程 — 问题 → Query Rewriter → Embedder → Retriever → Filter → Reranker → Prompt Builder → LLM → Post-processor
为什么必须分开 — 频率 / 延迟 / 可重跑 / 指标都不一样

💡 适合谁

想从"能跑 Demo RAG"跨到"能上线企业 RAG"的工程师。企业级架构和 demo 架构差的不只是量级。

📦 课程包含

30 分钟视频 + 完整双管道架构图
每一层的典型技术栈
2026 年生产级 RAG 标准组合推荐

✅ 学完能做什么

你能画一张企业级 RAG 架构图并解释每一层的职责。面试被问 "你会怎么设计一个 RAG 系统" 你能给出完整答案。

L49VIDEO

Embedding 嵌入模型

30min

🎯 这节课解决什么问题

RAG 的效果上限很大程度由 Embedding 模型决定——embedding 不行，后面怎么优化都白搭。但 OpenAI 3-small / 3-large / Cohere v3 / BGE-M3 哪个好？中文场景怎么选？这节课给你一个选型决策框架。

📖 你将学到

主流模型对比 — OpenAI / Cohere / BGE / E5 / voyage 各自的特点
MTEB 榜单 — Embedding 模型的权威评测榜单，选型前必看
Matryoshka Embeddings — 维度可截断，512 维跟 1536 维精度只差一点点，存储省 3 倍
Query vs Document 区分 — Cohere v3 的独特设计，检索精度明显提升
选型决策 — 英文 / 中文 / 代码 / 多语言分别推荐什么

💡 适合谁

要搭 RAG 系统但纠结 "Embedding 用哪个" 的工程师。这节课给你一个可直接用的选型流程。

📦 课程包含

30 分钟视频 + 模型对比矩阵
MTEB 榜单使用教程
中文 / 英文 / 代码 / 多语言场景的推荐组合

✅ 学完能做什么

你能根据业务场景（语言 / 预算 / 规模 / 合规）快速决定用哪个 Embedding 模型。不再是"随便选一个 OpenAI"，是有理有据的工程决策。

L50VIDEO

向量数据库

30min

🎯 这节课解决什么问题

你有 100 万向量，要在 50 毫秒内找到 top-10 最相似的——这是向量数据库解决的核心问题。但 Pinecone / Weaviate / Qdrant / ChromaDB / pgvector 哪个适合你？这节课给你一个选型决策表，外加 HNSW 索引的直观原理。

📖 你将学到

6 大向量库对比 — ChromaDB（原型）/ Qdrant（中型生产）/ Pinecone（托管省心）/ Milvus（超大规模）/ pgvector（复用 PG）/ Weaviate
HNSW 索引原理 — 分层图搜索，O(log N) 近似最近邻，为什么能做到 50ms 查百万
Metadata Filter — 生产级向量库必须支持的能力：按时间 / 分类 / 作者过滤
选型决策 — 原型 / 中型 / 企业 / 已有 PG / 超大规模分别推荐什么

💡 适合谁

第一次做 RAG 选向量库的工程师。这节课让你避免"一上来就上 Pinecone"的过度选型。

📦 课程包含

30 分钟视频 + 6 大向量库对比
HNSW 索引的可视化原理
Metadata Filter 代码示例
选型决策流程图

✅ 学完能做什么

你能根据项目规模和团队情况选对向量库。原型用 ChromaDB 几分钟跑起来，中型生产切 Qdrant 自部署，这些决策都有依据。

L51VIDEO

Native RAG 存在的问题

30min

🎯 这节课解决什么问题

搭一个"hello world" RAG 很容易，10 行 LangChain 就够了。但上线后你会遇到一堆真实问题：召回不准、Chunk 切错、幻觉、答非所问、多跳失败。这节课把 Naive RAG 的 8 大翻车现场列清楚，让你提前知道坑在哪。

📖 你将学到

召回率低 — 相关文档没检索到，解法在 Hybrid Search + Query Rewriting
Chunk 切断语义 — 一句话被拆两半，解法在 Semantic Splitter
元数据丢失 — "2024 年的 XX" 找不到，解法在 Metadata Filter
多跳问题失效 — "A 的老板的公司"，解法在 Agentic RAG
幻觉 — LLM 编造文档里没有的内容，解法在 Faithfulness 约束
top-K 依赖过重 / 无法拒答 / 查询歧义 等另外 3 个坑

💡 适合谁

已经搭过或要搭 RAG 的工程师。这节课帮你"提前踩坑"，避免上线后才发现问题。

📦 课程包含

30 分钟视频 + 8 大痛点详解
每个痛点的真实案例 + 解决方向
为 L52-L54 的 Advanced RAG 铺垫

✅ 学完能做什么

面对任何 RAG 翻车现场你能第一眼诊断属于 8 大坑里的哪一个，然后给出对应的修复方向。这是区分"搭过 RAG demo"和"做过 RAG 项目"的分水岭。

L52VIDEO

Advanced RAG & Agentic RAG

30min

🎯 这节课解决什么问题

Naive RAG 应付不了复杂问题。Advanced RAG + Agentic RAG 给你 4 个进阶技巧：Query Rewriting、Query Decomposition、HyDE、Self-RAG。加上 Agentic RAG 让 LLM 自主决定"什么时候检索、检索什么、检索几次"——从"一次性检索生成"跨到"可控的多轮推理"。

📖 你将学到

Query Rewriting — 把"这玩意怎么用" 改成"如何配置 Python venv 使用 .venv"
Query Decomposition — 把"对比 RAG 和 Fine-tune 成本" 拆成 4 个子查询并行检索
HyDE — 先让 LLM 生成一个假答案，用假答案检索（向量分布更接近）
Self-RAG — 检索后让 LLM 自评估 "相关吗？够用吗？要不要再检一次？"
Agentic RAG 核心思路 — 把"检索"当工具，Agent 动态决策

💡 适合谁

已经搭过 Naive RAG 发现"问题一复杂就翻车"的工程师。这节课是从"能用"到"好用"的关键一步。

📦 课程包含

30 分钟视频 + 4 大技巧详解
Agentic RAG vs Naive RAG 成本 / 质量对比
每种技巧的适用场景判断
衔接 L53 agentic-rag Lab 动手

✅ 学完能做什么

你能诊断一个 RAG 系统需要哪种 Advanced 技巧，能判断什么场景值得上 Agentic RAG（贵 3-5 倍但质量提升 30-50%）。

L53🧪 LAB

Lab: Agentic RAG

30min

🎯 这节课解决什么问题

上一节讲了 Agentic RAG 的理论，这个 Lab 让你亲眼对比 Naive 和 Agentic：同一个复杂问题（"去年 Q3 财报提到的三个风险，现在有几个已经发生"），Naive 检索一次就答，Agentic 会自主多次检索 + 交叉验证。差距不是一点点。

📖 你将学到

Naive vs Agentic 对比 — 同一复杂问题的两种输出
Agent 决策日志 — 看 Agent 怎么判断"我需要再检一次"
成本对比 — Agentic 的延迟和 token 消耗确实更高，但质量值回票价

💡 适合谁

做企业知识库 / 高价值 RAG 应用的工程师。对这类场景 Agentic RAG 是值得投入的。

📦 课程包含

1 个浏览器内互动 Lab（LLM Lab: agentic-rag）
Naive vs Agentic 同屏对比
Agent 决策日志可视化
约 30 分钟动手时间

✅ 学完能做什么

你能判断一个 RAG 场景值不值得上 Agentic RAG，能向老板解释 "贵 3 倍但质量翻倍" 的取舍。这是企业 RAG 项目里最关键的决策之一。

L54VIDEO

Contextual RAG

30min

🎯 这节课解决什么问题

Anthropic 2024 年 9 月提出的 Contextual Retrieval 是近两年 RAG 领域最简单也最有效的改进——在 chunk 做 embedding 前，先用 LLM 给每个 chunk 生成一段上下文描述拼到前面。不改架构、只加一步 LLM 调用，显著降低检索失败率。

📖 你将学到

问题根源 — Chunk 脱离原文后缺少上下文，"净利润增长 28%" 不知道是哪家公司哪个季度
Contextual 做法 — 用 LLM 给每个 chunk 生成 50-100 字的"它在原文中的位置和意义"
Prompt Caching 降本 — 整个文档只被 LLM 读一次（缓存），后面每个 chunk 只付"chunk + context"的钱
实际效果 — 几乎不改架构，只在 ingestion 阶段多跑一次 LLM，检索准确率明显提升（具体数字见 Anthropic 原 blog）

💡 适合谁

已经有 RAG 系统想做一次"低改动高回报"优化的工程师。这是 2024 年性价比最高的 RAG 改进之一。

📦 课程包含

30 分钟视频 + Contextual Retrieval 原理
Contextual 化的 Prompt 模板
成本估算 + Prompt Caching 技巧

✅ 学完能做什么

你能给自己的 RAG 系统加上 Contextual Retrieval 这一层，几乎零架构改动但召回质量显著提升。这是可以立刻在当前项目里落地的改进。

L55LAB

Project — Build RAG from Scratch in Python

120min

🎯 这节课解决什么问题

这是课程的第二个 Project，也是最硬核的一个。不用 LangChain / LlamaIndex，纯 Python 从 0 到 1 搭 RAG——让你搞清楚每一行代码在做什么。做完这个 Project 你就是真懂 RAG 的人，以后用不用框架都由你决定。

📖 你将学到

为什么不用框架 — 框架会藏太多细节，你以为你懂 RAG 其实只懂 LangChain
Step 1 数据准备 — 选 3-5 个 markdown 文档，写一个简单 text splitter
Step 2 向量化 — OpenAI embedding API 把 chunk 变向量，保存到本地
Step 3 检索 — 纯 numpy 实现 cosine similarity，不用任何向量库
Step 4 生成 + 提交 — 拼 prompt 调 chat completion，GitHub 提交完整代码

💡 适合谁

对"RAG 黑盒"不满意的工程师。做完这个 Project 你能看懂任何 RAG 框架的源代码。

📦 课程包含

120 分钟完整 Project 指导
~100 行纯 Python 完整代码框架
数据 / 代码 / 验证三阶段的详细步骤
进阶挑战（换 FAISS / 加 metadata / 实现 Contextual RAG）

✅ 学完交付物

✅ GitHub 完整仓库（代码 + README）
✅ 3 组真实问答测试截图
✅ README 包含架构图 + 已知限制
这是第二个能写进简历的作品：不用任何 RAG 框架独立实现的 RAG 系统。

L56🧪 LAB

Lab: RAG from Scratch

30min

🎯 这节课解决什么问题

Project 2 需要你自己写代码，但如果你想先"预览"一下 RAG from Scratch 长什么样——这个 Lab 给你一个浏览器内直接能跑的最小 RAG 实现。不用配环境，5 分钟看完整流程。

📖 你将学到

最小 RAG 代码 — Loader + Splitter + Embedder + Retriever + Generator 五件套的简化版
Cosine Similarity 实现 — 不用任何向量库，纯 numpy 怎么算相似度
Prompt 拼接 — 如何把 chunks + question 拼成 LLM 能用的 prompt

💡 适合谁

想在做 Project 2 之前先"看一眼完整版"的人。或者想把这段代码作为模板改造自己 RAG 系统的工程师。

📦 课程包含

1 个浏览器内互动 Lab（LLM Lab: rag-from-scratch）
完整可运行的最小 RAG 代码
每一步的详细注释
约 30 分钟动手时间

✅ 学完能做什么

你会有一段 100 行以内的 RAG 模板代码可以随时拿来改造。配上 Project 2 的深度练习，你对 RAG 的理解会跳一个级别。

L57INFORMATION

RAG Builder Toolbox

60min

🎯 这节课解决什么问题

自己从零搭 RAG 是学习用的——真要做生产系统通常会用框架。但 LangChain / LlamaIndex / Haystack / Cohere Chat 哪个适合你？这节课给你选型表：每个框架的强项 / 弱项 / 代表场景。

📖 你将学到

LangChain — 生态最广 / LCEL 组合性好 / LangSmith / LangGraph，但抽象层厚、版本混乱
LlamaIndex — 文档 RAG 最专、索引种类多，但 Agent 能力弱于 LangGraph
Haystack — 企业级 Pipeline 清晰、模块化，但生态小
Cohere Chat — 托管服务几行代码上线、内置 Rerank / Citations，但绑定 Cohere
LCEL 核心语法 — prompt | model | parser 这种 pipe 风格，学会这个看懂 LangChain 90%

💡 适合谁

纠结 "RAG 该用哪个框架" 的工程师。这节课给你决策依据，不再盲选。

📦 课程包含

60 分钟视频 + 4 大框架对比
LCEL 语法速成
LlamaIndex 三行 RAG 代码示例
选型建议（原型 / workflow / 企业 / 托管分别推荐）

✅ 学完能做什么

你能根据项目特点快速选框架。快速原型上 LlamaIndex，复杂 workflow 上 LangGraph，不想运维上 Cohere Chat——每个决策都有理由。

L58🧪 LAB

Lab: LLM Tooling Comparison

30min

🎯 这节课解决什么问题

同样一个 RAG 需求，用 LangChain 写 100 行，用 LlamaIndex 写 30 行，用 Haystack 写 50 行——代码量和灵活度的差别肉眼可见。这个 Lab 让你亲手对比三种框架的同一个实现，10 分钟让你有选型直觉。

📖 你将学到

同任务三实现 — 一个简单的 PDF 问答任务，三种框架分别写
代码量对比 — LlamaIndex 最短、LangChain 最灵活、Haystack 最结构化
调试体验 — 出错时每个框架的信息清晰度完全不同

💡 适合谁

想在 RAG 框架上"下一个决定"的工程师。对比一次胜过读 10 篇对比文章。

📦 课程包含

1 个浏览器内互动 Lab（LLM Lab: llm-tooling）
同一个 RAG 任务的三种框架实现
代码量 / 灵活度 / 调试体验对比
约 30 分钟动手时间

✅ 学完能做什么

你能凭直觉判断"这个项目用哪个框架"，不再纠结"听说 LangChain 复杂"、"听说 LlamaIndex 只能做文档"。自己跑过对比后你有真实的判断依据。

L59INFORMATION

AI Resource Hub

60min

🎯 这节课解决什么问题

AI 领域每周都有新东西——新模型、新框架、新技巧。信息爆炸时代最重要的能力不是"看得多"，是"看得对"。这节课给你一份 AI Engineer 必逛的信息源清单，按每日 / 每周 / 每月 / 每季度分层，帮你建立可持续的跟进节奏。

📖 你将学到

必逛平台 — HuggingFace / Papers with Code / LMSYS Arena / arxiv-sanity / GitHub Trending
必订阅周刊 — The Batch（Andrew Ng）/ Import AI / Latent Space / Simon Willison / 官方 blog
社交平台跟进 — X 上跟谁 / Reddit 哪些 sub / Discord 哪些群
学习节奏 — 每天 15 分钟 / 每周 30 分钟 / 每月 2-3 小时精读 / 每季度重建技术栈
信息过滤原则 — 只看有 code 的内容、警惕 benchmark 刷榜、重工具轻理论

💡 适合谁

有信息焦虑的 AI 从业者。这节课帮你从"不停刷 Twitter"变成"有计划地跟进"，学到的更多焦虑更少。

📦 课程包含

60 分钟覆盖完整信息源清单
按频率分层的学习节奏建议
信息过滤的 4 条原则
"不要试图全学" 的心法

✅ 学完能做什么

你会有一套可持续的 AI 学习节奏表，知道每天看什么每周看什么每月深入什么，不再被"这个新工具我还没看"的焦虑困扰。

L60VIDEO

What Are API Rate Limits? — OpenAI

30min

🎯 这节课解决什么问题

你写好了应用，上线前跑了几次都 OK——上线后用户一多立刻 429 错误。OpenAI 的 Rate Limit 不是"请求数"这么简单，它有 RPM / TPM / RPD / Batch 四个维度，任何一个超了都触发 429。这节课帮你搞清楚完整机制 + 正确的退避策略。

📖 你将学到

4 个限额维度 — RPM（请求/分钟）/ TPM（token/分钟）/ RPD（请求/天）/ Batch（独立额度）
Tier 升级机制 — OpenAI 根据消费 + 账户时长自动升 Tier，不需要申请
429 退避策略 — Exponential backoff + 随机抖动的标准实现
生产级优化 — 多 Key 池化 / Azure 兜底 / 客户端 rate limiter / Batch API 半价

💡 适合谁

要把 LLM 应用上生产环境的工程师。没处理过 Rate Limit 的人，用户一多就吃瘪。

📦 课程包含

30 分钟视频 + 4 大限额详解
退避策略的完整 Python 代码
生产级优化 checklist
衔接 L61 cost-optimization Lab

✅ 学完能做什么

你能写一个生产级的 API 调用 wrapper，自动处理 429、自动重试、自动降级。上线后用户量涨 10 倍也能扛住。

L61🧪 LAB

Lab: Cost Optimization

30min

🎯 这节课解决什么问题

LLM 应用的成本可以非常快地失控——一个客服机器人一个月烧几万块很常见。这个 Lab 让你亲手实现 4 大降本策略：小模型分流 / Prompt Caching / Batch API / 语义缓存。对比优化前后的成本数字，让你知道"调 prompt 也是调成本"。

📖 你将学到

小模型分流 — 简单请求走 mini 模型，复杂的才上旗舰
Prompt Caching — 把"静态"部分放前面，缓存打折
语义缓存 — 类似 query 直接返回，命中率能到 30%+
成本对比 — 优化前后的真实 token 和费用数据

💡 适合谁

看到每月 OpenAI 账单吓一跳的工程师。或者老板说"这个成本降不下来我们就下线"的团队。

📦 课程包含

1 个浏览器内互动 Lab（Prompt Lab: cost-optimization）
4 大降本策略的实际对比
优化前后成本 dashboard
约 30 分钟动手时间

✅ 学完能做什么

你能把一个月 $10000 的 LLM 账单砍到 $3000，同时保持质量不下降。这是 AI Engineer 在公司里最被看重的能力之一。

L62VIDEO

Azure OpenAI — Quotas, Rate Limiting, and PTUs

30min

🎯 这节课解决什么问题

企业为什么不直接用 OpenAI 而要用 Azure OpenAI？三个原因：数据驻留 / 企业合规 / 配额保障。这节课把 Azure OpenAI 的 Standard vs PTU 讲清楚，外加选 Region 和企业部署的常见坑——如果你在企业里做 AI 项目，这是绕不过去的。

📖 你将学到

Standard vs PTU — 按量 vs 预付容量，延迟 / 吞吐 / 价格差异
Region 选择优先级 — 数据驻留合规 → 模型可用性 → 延迟
多国合规 — 新加坡 PDPA / 日本 APPI / 澳洲 Privacy Act / 欧盟 GDPR / 美国 HIPAA
Deployment 概念 — Azure 里调用模型要先创建 Deployment，和 OpenAI 直接调的差异
企业部署常见坑 — 初始配额太小 / Content Filter 误拦 / PTU 起步贵 / Region 模型不同步

💡 适合谁

在大公司 / 金融 / 医疗 / 政府这类严监管环境做 AI 项目的工程师。这节课的每一个坑你都迟早会踩。

📦 课程包含

30 分钟视频 + Azure OpenAI 完整概念
Standard vs PTU 决策表
Region 选择决策流程
企业部署 checklist

✅ 学完能做什么

你能为公司设计一个符合合规要求的 Azure OpenAI 部署方案。面对"数据不能出 XX 国"的硬约束你知道怎么满足。

L63VIDEO

PDF Parsing

30min

🎯 这节课解决什么问题

企业 RAG 最常见的文档格式是 PDF，而 PDF 解析是最容易翻车的一环。选错工具，后面所有优化都白搭。这节课给你 PyPDF / PDFPlumber / Unstructured / LlamaParse / Azure DI / GPT-4V 六种工具的选型对比，外加扫描件 / 多栏 / 表格的特殊处理。

📖 你将学到

6 种 PDF 工具对比 — 纯文本 / 表格 / 扫描件 / 多栏各自的胜出者
纯文字 PDF — PyPDF 或 PDFPlumber 免费够用
复杂表格 PDF — LlamaParse 或 Azure DI，输出 markdown 表格最干净
扫描件 PDF — OCR（Tesseract / PaddleOCR）vs GPT-4V 的选择
多栏文档 — 为什么 PyPDF 会读乱，怎么保留 layout 信息

💡 适合谁

要做企业文档 RAG 的工程师。公司给你一堆 PDF 让你做问答，前 1 小时你会卡在"怎么把 PDF 变成干净文本"——这节课让你跳过这个坑。

📦 课程包含

30 分钟视频 + 6 工具对比矩阵
3 种场景（纯文字 / 表格 / 扫描）的推荐组合
LlamaParse 代码示例
多栏 / OCR 的进阶处理

✅ 学完能做什么

你能为任何 PDF 场景选对工具。纯文字 PDF 秒跑、复杂表格用 LlamaParse、扫描件 OCR + Vision 双路兜底——每种都有明确路径。

L64VIDEO

Invoice Processing

30min

🎯 这节课解决什么问题

发票抽取是企业 AI 落地最高频的场景之一——每家公司都有一堆 PDF / 图片发票要录入系统。这节课给你完整的 LLM + Vision 抽取流程，包括多国税制（澳洲 GST / 新加坡 GST / 日本消费税 / 美国 Sales Tax / 马来西亚 SST / 中国增值税 / 欧盟 VAT）的处理方式。

📖 你将学到

抽取流程 — PDF / 图片 → OCR 或 Vision → GPT-4o + JSON Schema → 结构化数据
通用 Schema 设计 — country + currency + tax_id + tax_rate + amount 字段组合，支持多国
7 地区税制对照 — AU / SG / JP / US / MY / CN / EU，税种 / 税号 / 备注
3 个常见坑 — 多税率混合 / 货币符号歧义 / 日中发票特殊版式
准确率实测 — GPT-4o + JSON Schema 在清晰英文发票上 95-98%

💡 适合谁

在企业里被要求"自动化发票录入"的 AI Engineer。或者做跨境业务需要处理多国发票的团队。

📦 课程包含

30 分钟视频 + 完整抽取流程
通用 JSON Schema 模板（支持多国）
7 地区税制对照表
Prompt 约束模板

✅ 学完能做什么

你能独立做一个支持多国的发票抽取系统。不管是澳洲 GST 还是日本消費税还是美国 Sales Tax，你都知道 Prompt 怎么写、Schema 怎么定、怎么避坑。

L65VIDEO

Budgeting and API Costs

60min

🎯 这节课解决什么问题

LLM 应用上线后成本很容易失控。这节课讲清 Token 计费的三档（Input / Cached / Output）+ 怎么估月度成本 + 4 大降本策略的底层逻辑。搞懂这些，你就能在 PRD 阶段就估出一个靠谱的成本数字，而不是上线后被账单吓一跳。

📖 你将学到

成本三档结构 — Input / Cached Input（打折）/ Output（通常是 Input 的 3-5 倍）
估算公式 — 单次成本 × DAU × 日均请求 × 30 = 月成本
真实案例 — 一个客服机器人的成本拆解从 $12000 到 $3000 的优化路径
4 大降本策略详解 — 小模型分流 / Prompt Caching / Batch API / 语义缓存
监控指标 — 平均成本 / P99 输出 / 缓存命中率 / 模型分布

💡 适合谁

要为 LLM 项目做预算估算的 AI Engineer / 技术负责人。也适合在老板问 "这个会花多少钱" 时想给出专业回答的人。

📦 课程包含

60 分钟视频 + 成本结构详解
估算 Excel 模板
4 大策略的实际效果数据
衔接 L66 inference-optimization Lab

✅ 学完能做什么

你能为任何 LLM 项目给出靠谱的月度成本估算，能提前规划降本路径。这是 AI Engineer 进阶到"能对成本负责"的标志。

L66🧪 LAB

Lab: Inference Optimization

30min

🎯 这节课解决什么问题

推理优化听起来很高级，其实是一些可执行的具体技巧：batching / caching / model routing。这个 Lab 让你对比应用前后的吞吐和成本变化，让"降本 3-5 倍"从口号变成可验证的数字。

📖 你将学到

Batching — 多个请求合并成一批发送，延迟换吞吐
Caching — 精确缓存 + 语义缓存两层
Model Routing — 简单请求走 mini，复杂请求走旗舰
优化前后对比 — 延迟 / 吞吐 / 成本三维度真实数据

💡 适合谁

要把 LLM 应用做到高并发 / 低成本的工程师。

📦 课程包含

1 个浏览器内互动 Lab（LLM Lab: inference-optimization）
Batching / Caching / Routing 三种优化的对比
优化效果可视化
约 30 分钟动手时间

✅ 学完能做什么

你能为一个 LLM 应用设计完整的推理优化方案，从"能跑"跨到"能高并发低成本地跑"。

L67LAB

Project — Shipping a Rate-Unlimited, PDF-Upload-Ready RAG App

90min

🎯 这节课解决什么问题

这是课程的最后一个 Project，也是最接近真实工作的一个：你要做一个可以上线的 PDF RAG 应用，支持上传、处理 Rate Limit、监控 Token 成本、有前端 UI。交付物是一个可以演示给朋友看的 GitHub 仓库 + 3 分钟演示视频。

📖 你将学到

Step 1 Streamlit UI — 150 行代码搞定上传 + 提问 + 回答 + 引用显示
Step 2 Azure OpenAI 接入 — Deployment 配置 + 两个模型（embedding + chat）
Step 3 ChromaDB 向量存储 — 本地启动 + 多文档 ingest
Step 4 Rate Limit + 成本监控 — 退避重试 + 本地 token counter，让每次调用都可见
进阶挑战 — 引用展示 / Cohere Rerank / Langfuse trace / 多租户

💡 适合谁

想做一个"能发给朋友试用"的真实 AI 作品的工程师。这比任何教程练习都能展示你的能力。

📦 课程包含

90 分钟完整 Project 指导
完整可运行的 Python 代码模板
Azure OpenAI 配置 + ChromaDB 启动 + Streamlit 部署流程
可选的生产级进阶改造方向

✅ 学完交付物

✅ GitHub 完整仓库 + README
✅ 3 分钟演示视频
✅ .env.example + requirements.txt
✅ 可部署到 Streamlit Cloud（免费）或 Azure Container Apps
这是你整个课程的收官作品——能用、能演示、能写进简历。

L68🧪 LAB

Lab: RAG QA Application

30min

🎯 这节课解决什么问题

Project 3 是需要你自己搭的完整 PDF RAG 应用。这个 Lab 是它的浏览器预览版——让你在 5 分钟内体验完整流程：上传 → ingest → 提问 → 看引用。跑一次你就知道 Project 3 要达到什么目标。

📖 你将学到

完整 QA Application 流程 — Upload → Embed → Retrieve → Generate → Citation
引用显示 — 每个回答标注是从哪个 chunk 来的，提升信任感
多文档查询 — 同一个问题跨多个 PDF 找答案

💡 适合谁

要做 Project 3 之前想先"看效果"的人。或者做完 Project 3 想对比一下完整版的工程师。

📦 课程包含

1 个浏览器内互动 Lab（LLM Lab: rag-qa-application）
可直接上传 PDF 的 UI
带引用的答案展示
约 30 分钟动手时间

✅ 学完能做什么

你对 PDF RAG 应用的完整用户体验有清晰预期，做 Project 3 时知道目标在哪，不会跑到一半才发现少做了关键功能。

L69INFORMATION

End-to-End RAG Toolbox

60min

🎯 这节课解决什么问题

真实生产 RAG 系统的工具链覆盖 6 层：Ingest → Chunk → Embed → Vector Store → Retrieval → Observability。每一层都有多个选择。这节课给你一份按层分类的工具清单 + 2 个组合推荐（MVP 组合和企业级组合），选型时直接查表。

📖 你将学到

6 层架构 — 每一层的职责和代表工具
Orchestration 层 — LangChain / LlamaIndex / Haystack / DSPy 的差异
MVP 组合推荐 — 最便宜 / 最简单 / 能跑通的搭配
企业级组合 — 高并发 / 合规敏感场景的标准组合
避坑指南 — 不要从 LangChain 开始入门 / 向量库别上来就 Pinecone

💡 适合谁

要做 RAG 系统选型的技术负责人 / AI Engineer。或者给老板做 PRD 要说明"技术栈为什么选这些"的人。

📦 课程包含

60 分钟覆盖 6 层完整工具图
MVP 组合 + 企业级组合对比
选型决策的 4 条原则
为 L70 LangChain / L71 Production RAG 铺垫

✅ 学完能做什么

面对任何 RAG 项目的技术栈选型，你能在 10 分钟内给出完整方案。不再纠结 "这个是最好的吗"，每个选择都有理由。

L70VIDEO

Introduction to LangChain

60min

🎯 这节课解决什么问题

LangChain 是 RAG / Agent 最流行的框架，也是被吐槽最多的——抽象层厚、版本变动大、学习曲线陡。这节课帮你避开这些坑，只学真正有用的部分：LCEL 语法 + 核心抽象 + LangGraph Agent。学完你就能看懂 LangChain 90% 的代码。

📖 你将学到

LCEL 语法 — prompt | model | parser 这种 pipe 风格，现代 LangChain 的核心
5 个核心概念 — Runnable / Chain / Retriever / Agent / Memory
完整 RAG Chain 示例 — 20 行代码跑通一个带 retriever 的 RAG
要不要用 LangChain 的判断 — 适合团队项目 / 不适合小项目和性能敏感场景
LangGraph 现代 Agent 框架 — 用 StateGraph 做复杂 Agent 流程

💡 适合谁

想学 LangChain 但被它的复杂度吓到的工程师。这节课帮你只学"必须会"的部分，跳过 "看着都会用不到" 的抽象。

📦 课程包含

60 分钟视频 + LCEL 语法速成
完整 RAG Chain 的 20 行代码
LangGraph StateGraph 示例
"要不要用 LangChain" 决策表

✅ 学完能做什么

你能读懂 LangChain 90% 的生产代码，能写出一个带 Retriever 的 LCEL Chain。对于复杂 Agent，你知道用 LangGraph 不要用老的 LangChain Agent。

L71INFORMATION

Production RAG Toolbox

60min

🎯 这节课解决什么问题

Project 3 让你搭了一个能跑的 RAG。要把它变成能跑一年的生产系统，还需要 4 个能力：Evaluation / Observability / Caching / Guardrails。这节课给你一个完整工具箱 + 落地顺序建议。

📖 你将学到

Evaluation — Ragas — Faithfulness / Answer Relevance / Context Precision 等 RAG 特有指标
Observability — Langfuse — 一行代码接入，面板看每次请求的完整 trace + 成本
Caching — GPTCache — 精确缓存 + 语义缓存，客服场景命中率 30%+
Guardrails — Input / Output Guard — 防 injection / 过滤 PII / 校验 output
落地顺序 — 先 trace（知道哪里有问题）→ 加 eval（量化）→ 加 cache（降本）→ 加 guard（保底线）

💡 适合谁

已经有 RAG 项目上线或准备上线的工程师。这 4 个能力不是"可选加分项"，是上线后必须有的。

📦 课程包含

60 分钟覆盖 4 大生产能力
Ragas / Langfuse / GPTCache / Guardrails 完整代码示例
4 周落地计划（每周加一层）
衔接 L72 llm-evaluation Lab

✅ 学完能做什么

你能为一个 Demo 级 RAG 加上生产级的 4 大能力，让它从"能跑"变成"能跑一年"。这是企业 RAG 项目从 POC 到 Production 的关键一步。

L72🧪 LAB

Lab: LLM Evaluation with Ragas

30min

🎯 这节课解决什么问题

"我觉得效果还行"不是评估。Ragas 是 RAG 评估的事实标准——用几行代码跑完 Faithfulness / Answer Relevance / Context Precision 等指标，给你一个量化的分数。这个 Lab 让你亲手用 Ragas 评估一个 RAG 系统。

📖 你将学到

Ragas 四大核心指标 — Faithfulness / Answer Relevance / Context Precision / Context Recall
写测试集 — 30-50 条 question + ground_truth，是评估的起点
跑一次评估 — 看 dashboard 上 4 个指标的真实数字
Prompt 改动后回归 — 改了 prompt 再跑一次，知道效果涨了还是跌了

💡 适合谁

要对 RAG 效果负责的工程师 / 产品经理。没有指标就没法迭代，有指标了才能"有依据地改"。

📦 课程包含

1 个浏览器内互动 Lab（LLM Lab: llm-evaluation）
Ragas 4 大指标的完整代码
10 条测试集示例
约 30 分钟动手时间

✅ 学完能做什么

你能为自己的 RAG 系统写一个最小评估集（30 条）+ 跑 Ragas，每次改 prompt / 换模型都能量化地知道效果变化。这是资深 AI Engineer 的日常工作。

L73VIDEO

用 AWS 构建 RAG 应用

60min

🎯 这节课解决什么问题

前面讲的都是"从零搭 RAG"，这节课给你另一条路线：用云厂商的全托管组件。AWS Bedrock Knowledge Base 让你只需要把文档放 S3，剩下全自动——解析 + chunk + embed + 存储都是托管的。对于"要快上线"的企业场景这是最省心的路径。

📖 你将学到

AWS RAG 栈 — S3 + Bedrock Knowledge Base + OpenSearch Serverless + Lambda + API Gateway
Knowledge Base 的价值 — 只要把文档放 S3，剩下全自动
retrieve_and_generate API — 一个 API 调用搞定检索 + 生成 + 引用
AWS vs 自建对比 — 开发时间 / 运维成本 / 定制化 / 单次成本的取舍
其他云厂商方案 — Azure AI Search / GCP Vertex AI Search / Cohere Chat

💡 适合谁

已经在 AWS 生态里的企业工程师。或者要"一周上线 RAG" 不想自己维护向量库的团队。

📦 课程包含

60 分钟视频覆盖完整 AWS RAG 栈
Knowledge Base 配置流程
retrieve_and_generate 完整代码
自建 vs AWS 方案对比表
课程收官寄语 + 下一步推荐

✅ 学完能做什么

你能为 AWS 生态的公司设计一个全托管 RAG 方案，把上线时间从"几周"压到"几天"。也能判断什么场景值得自建、什么场景该用托管。

L74🧪 LAB

Lab: Model Deployment

30min

🎯 这节课解决什么问题

课程的最后一个 Lab——模型部署。不管你用哪家云、哪个框架，最终都要把一个模型（或 LLM 应用）变成生产级 endpoint。这个 Lab 给你一个最小的部署流程 + Rate Limit / Logging / Monitoring 三件套的集成示例。

📖 你将学到

最小部署流程 — 从本地代码到可调用的 HTTP endpoint
Rate Limit 中间件 — 防止被刷爆
Logging + 错误追踪 — 每次请求都可以回溯
Health Check — 让负载均衡器知道服务存活

💡 适合谁

想把 LLM 应用真正"上生产"的工程师。Demo 跑通是一回事，上线让几千个用户用又是另一回事——这节 Lab 帮你把中间的差距补上。

📦 课程包含

1 个浏览器内互动 Lab（LLM Lab: model-deployment）
从本地到生产的完整部署流程
Rate Limit + Logging + Health Check 模板代码
约 30 分钟动手时间

✅ 学完能做什么

你能把一个 LLM 应用从 Jupyter Notebook 变成生产级 HTTP endpoint，支持速率限制、可追溯、可监控。这是课程结束时你手上应该具备的完整能力闭环。