Part 4 — RAG 工程实战与生产部署

L47 - L74 · 28 节课
28 节课详细介绍
L47VIDEO

Understanding LLMs — Capabilities, Limits & Engineering Solutions

30min

🎯 这节课解决什么问题

LLM 再强也有天生缺陷——上下文塞不下、数学推理烂、不知道最新信息、输出不确定。这节课把 4 大硬伤列清楚,每个配一个工程化对策。理解这些,你就知道为什么 RAG / Tool Use / JSON Mode 这些技术会出现。

📖 你将学到

  • 硬伤 1 上下文溢出 → Context Compression / RAG
  • 硬伤 2 数学推理烂 → Tool Use(调计算器 / Python Interpreter)
  • 硬伤 3 知识截断 → RAG / Web Search Tool
  • 硬伤 4 输出不确定 → JSON Mode / Structured Outputs / temperature=0

💡 适合谁

已经用过 LLM 撞过墙的工程师。你知道 LLM 有问题但不知道怎么系统性解决——这节课给你一个对照表。

📦 课程包含

  • 30 分钟视频 + 4 大硬伤对照表
  • 每个硬伤的真实翻车案例
  • 对应的工程化解决方案

✅ 学完能做什么

面对 LLM 的任何"翻车"你能立刻诊断原因(上下文 / 数学 / 知识 / 确定性),然后给出对应的工程化修复方案。这是资深 AI Engineer 的日常工作。

L48VIDEO

RAG 基本架构

30min

🎯 这节课解决什么问题

前面讲的都是"最小 RAG"——一个 Loader + Vector Store + Retriever 就能跑。但企业级 RAG 架构远比这复杂。这节课给你完整的双管道架构图:Ingestion Pipeline(离线跑批)+ Query Pipeline(在线实时)+ 各层的技术栈推荐。

📖 你将学到

  • 双管道架构 — Ingestion(离线、可重跑、吞吐优先)vs Query(在线、延迟敏感、不能错)
  • Ingestion 全流程 — 源文档 → Loader → Cleaner → Splitter → Metadata → Embedder → Vector Store
  • Query 全流程 — 问题 → Query Rewriter → Embedder → Retriever → Filter → Reranker → Prompt Builder → LLM → Post-processor
  • 为什么必须分开 — 频率 / 延迟 / 可重跑 / 指标都不一样

💡 适合谁

想从"能跑 Demo RAG"跨到"能上线企业 RAG"的工程师。企业级架构和 demo 架构差的不只是量级。

📦 课程包含

  • 30 分钟视频 + 完整双管道架构图
  • 每一层的典型技术栈
  • 2026 年生产级 RAG 标准组合推荐

✅ 学完能做什么

你能画一张企业级 RAG 架构图并解释每一层的职责。面试被问 "你会怎么设计一个 RAG 系统" 你能给出完整答案。

L49VIDEO

Embedding 嵌入模型

30min

🎯 这节课解决什么问题

RAG 的效果上限很大程度由 Embedding 模型决定——embedding 不行,后面怎么优化都白搭。但 OpenAI 3-small / 3-large / Cohere v3 / BGE-M3 哪个好?中文场景怎么选?这节课给你一个选型决策框架。

📖 你将学到

  • 主流模型对比 — OpenAI / Cohere / BGE / E5 / voyage 各自的特点
  • MTEB 榜单 — Embedding 模型的权威评测榜单,选型前必看
  • Matryoshka Embeddings — 维度可截断,512 维跟 1536 维精度只差一点点,存储省 3 倍
  • Query vs Document 区分 — Cohere v3 的独特设计,检索精度明显提升
  • 选型决策 — 英文 / 中文 / 代码 / 多语言 分别推荐什么

💡 适合谁

要搭 RAG 系统但纠结 "Embedding 用哪个" 的工程师。这节课给你一个可直接用的选型流程。

📦 课程包含

  • 30 分钟视频 + 模型对比矩阵
  • MTEB 榜单使用教程
  • 中文 / 英文 / 代码 / 多语言 场景的推荐组合

✅ 学完能做什么

你能根据业务场景(语言 / 预算 / 规模 / 合规)快速决定用哪个 Embedding 模型。不再是"随便选一个 OpenAI",是有理有据的工程决策。

L50VIDEO

向量数据库

30min

🎯 这节课解决什么问题

你有 100 万向量,要在 50 毫秒内找到 top-10 最相似的——这是向量数据库解决的核心问题。但 Pinecone / Weaviate / Qdrant / ChromaDB / pgvector 哪个适合你?这节课给你一个选型决策表,外加 HNSW 索引的直观原理。

📖 你将学到

  • 6 大向量库对比 — ChromaDB(原型)/ Qdrant(中型生产)/ Pinecone(托管省心)/ Milvus(超大规模)/ pgvector(复用 PG)/ Weaviate
  • HNSW 索引原理 — 分层图搜索,O(log N) 近似最近邻,为什么能做到 50ms 查百万
  • Metadata Filter — 生产级向量库必须支持的能力:按时间 / 分类 / 作者过滤
  • 选型决策 — 原型 / 中型 / 企业 / 已有 PG / 超大规模 分别推荐什么

💡 适合谁

第一次做 RAG 选向量库的工程师。这节课让你避免"一上来就上 Pinecone"的过度选型。

📦 课程包含

  • 30 分钟视频 + 6 大向量库对比
  • HNSW 索引的可视化原理
  • Metadata Filter 代码示例
  • 选型决策流程图

✅ 学完能做什么

你能根据项目规模和团队情况选对向量库。原型用 ChromaDB 几分钟跑起来,中型生产切 Qdrant 自部署,这些决策都有依据。

L51VIDEO

Native RAG 存在的问题

30min

🎯 这节课解决什么问题

搭一个"hello world" RAG 很容易,10 行 LangChain 就够了。但上线后你会遇到一堆真实问题:召回不准、Chunk 切错、幻觉、答非所问、多跳失败。这节课把 Naive RAG 的 8 大翻车现场列清楚,让你提前知道坑在哪。

📖 你将学到

  • 召回率低 — 相关文档没检索到,解法在 Hybrid Search + Query Rewriting
  • Chunk 切断语义 — 一句话被拆两半,解法在 Semantic Splitter
  • 元数据丢失 — "2024 年的 XX" 找不到,解法在 Metadata Filter
  • 多跳问题失效 — "A 的老板的公司",解法在 Agentic RAG
  • 幻觉 — LLM 编造文档里没有的内容,解法在 Faithfulness 约束
  • top-K 依赖过重 / 无法拒答 / 查询歧义 等另外 3 个坑

💡 适合谁

已经搭过或要搭 RAG 的工程师。这节课帮你"提前踩坑",避免上线后才发现问题。

📦 课程包含

  • 30 分钟视频 + 8 大痛点详解
  • 每个痛点的真实案例 + 解决方向
  • 为 L52-L54 的 Advanced RAG 铺垫

✅ 学完能做什么

面对任何 RAG 翻车现场你能第一眼诊断属于 8 大坑里的哪一个,然后给出对应的修复方向。这是区分"搭过 RAG demo"和"做过 RAG 项目"的分水岭。

L52VIDEO

Advanced RAG & Agentic RAG

30min

🎯 这节课解决什么问题

Naive RAG 应付不了复杂问题。Advanced RAG + Agentic RAG 给你 4 个进阶技巧:Query Rewriting、Query Decomposition、HyDE、Self-RAG。加上 Agentic RAG 让 LLM 自主决定"什么时候检索、检索什么、检索几次"——从"一次性检索生成"跨到"可控的多轮推理"。

📖 你将学到

  • Query Rewriting — 把"这玩意怎么用" 改成"如何配置 Python venv 使用 .venv"
  • Query Decomposition — 把"对比 RAG 和 Fine-tune 成本" 拆成 4 个子查询并行检索
  • HyDE — 先让 LLM 生成一个假答案,用假答案检索(向量分布更接近)
  • Self-RAG — 检索后让 LLM 自评估 "相关吗?够用吗?要不要再检一次?"
  • Agentic RAG 核心思路 — 把"检索"当工具,Agent 动态决策

💡 适合谁

已经搭过 Naive RAG 发现"问题一复杂就翻车"的工程师。这节课是从"能用"到"好用"的关键一步。

📦 课程包含

  • 30 分钟视频 + 4 大技巧详解
  • Agentic RAG vs Naive RAG 成本 / 质量对比
  • 每种技巧的适用场景判断
  • 衔接 L53 agentic-rag Lab 动手

✅ 学完能做什么

你能诊断一个 RAG 系统需要哪种 Advanced 技巧,能判断什么场景值得上 Agentic RAG(贵 3-5 倍但质量提升 30-50%)。

L53🧪 LAB

Lab: Agentic RAG

30min

🎯 这节课解决什么问题

上一节讲了 Agentic RAG 的理论,这个 Lab 让你亲眼对比 Naive 和 Agentic:同一个复杂问题("去年 Q3 财报提到的三个风险,现在有几个已经发生"),Naive 检索一次就答,Agentic 会自主多次检索 + 交叉验证。差距不是一点点。

📖 你将学到

  • Naive vs Agentic 对比 — 同一复杂问题的两种输出
  • Agent 决策日志 — 看 Agent 怎么判断"我需要再检一次"
  • 成本对比 — Agentic 的延迟和 token 消耗确实更高,但质量值回票价

💡 适合谁

做企业知识库 / 高价值 RAG 应用的工程师。对这类场景 Agentic RAG 是值得投入的。

📦 课程包含

  • 1 个浏览器内互动 Lab(LLM Lab: agentic-rag)
  • Naive vs Agentic 同屏对比
  • Agent 决策日志可视化
  • 约 30 分钟动手时间

✅ 学完能做什么

你能判断一个 RAG 场景值不值得上 Agentic RAG,能向老板解释 "贵 3 倍但质量翻倍" 的取舍。这是企业 RAG 项目里最关键的决策之一。

L54VIDEO

Contextual RAG

30min

🎯 这节课解决什么问题

Anthropic 2024 年 9 月提出的 Contextual Retrieval 是近两年 RAG 领域最简单也最有效的改进——在 chunk 做 embedding 前,先用 LLM 给每个 chunk 生成一段上下文描述拼到前面。不改架构、只加一步 LLM 调用,显著降低检索失败率。

📖 你将学到

  • 问题根源 — Chunk 脱离原文后缺少上下文,"净利润增长 28%" 不知道是哪家公司哪个季度
  • Contextual 做法 — 用 LLM 给每个 chunk 生成 50-100 字的"它在原文中的位置和意义"
  • Prompt Caching 降本 — 整个文档只被 LLM 读一次(缓存),后面每个 chunk 只付"chunk + context"的钱
  • 实际效果 — 几乎不改架构,只在 ingestion 阶段多跑一次 LLM,检索准确率明显提升(具体数字见 Anthropic 原 blog)

💡 适合谁

已经有 RAG 系统想做一次"低改动高回报"优化的工程师。这是 2024 年性价比最高的 RAG 改进之一。

📦 课程包含

  • 30 分钟视频 + Contextual Retrieval 原理
  • Contextual 化的 Prompt 模板
  • 成本估算 + Prompt Caching 技巧

✅ 学完能做什么

你能给自己的 RAG 系统加上 Contextual Retrieval 这一层,几乎零架构改动但召回质量显著提升。这是可以立刻在当前项目里落地的改进。

L55LAB

Project — Build RAG from Scratch in Python

120min

🎯 这节课解决什么问题

这是课程的第二个 Project,也是最硬核的一个。不用 LangChain / LlamaIndex,纯 Python 从 0 到 1 搭 RAG——让你搞清楚每一行代码在做什么。做完这个 Project 你就是真懂 RAG 的人,以后用不用框架都由你决定。

📖 你将学到

  • 为什么不用框架 — 框架会藏太多细节,你以为你懂 RAG 其实只懂 LangChain
  • Step 1 数据准备 — 选 3-5 个 markdown 文档,写一个简单 text splitter
  • Step 2 向量化 — OpenAI embedding API 把 chunk 变向量,保存到本地
  • Step 3 检索 — 纯 numpy 实现 cosine similarity,不用任何向量库
  • Step 4 生成 + 提交 — 拼 prompt 调 chat completion,GitHub 提交完整代码

💡 适合谁

对"RAG 黑盒"不满意的工程师。做完这个 Project 你能看懂任何 RAG 框架的源代码。

📦 课程包含

  • 120 分钟完整 Project 指导
  • ~100 行纯 Python 完整代码框架
  • 数据 / 代码 / 验证 三阶段的详细步骤
  • 进阶挑战(换 FAISS / 加 metadata / 实现 Contextual RAG)

✅ 学完交付物

✅ GitHub 完整仓库(代码 + README)
✅ 3 组真实问答测试截图
✅ README 包含架构图 + 已知限制
这是第二个能写进简历的作品:不用任何 RAG 框架独立实现的 RAG 系统。

L56🧪 LAB

Lab: RAG from Scratch

30min

🎯 这节课解决什么问题

Project 2 需要你自己写代码,但如果你想先"预览"一下 RAG from Scratch 长什么样——这个 Lab 给你一个浏览器内直接能跑的最小 RAG 实现。不用配环境,5 分钟看完整流程。

📖 你将学到

  • 最小 RAG 代码 — Loader + Splitter + Embedder + Retriever + Generator 五件套的简化版
  • Cosine Similarity 实现 — 不用任何向量库,纯 numpy 怎么算相似度
  • Prompt 拼接 — 如何把 chunks + question 拼成 LLM 能用的 prompt

💡 适合谁

想在做 Project 2 之前先"看一眼完整版"的人。或者想把这段代码作为模板改造自己 RAG 系统的工程师。

📦 课程包含

  • 1 个浏览器内互动 Lab(LLM Lab: rag-from-scratch)
  • 完整可运行的最小 RAG 代码
  • 每一步的详细注释
  • 约 30 分钟动手时间

✅ 学完能做什么

你会有一段 100 行以内的 RAG 模板代码可以随时拿来改造。配上 Project 2 的深度练习,你对 RAG 的理解会跳一个级别。

L57INFORMATION

RAG Builder Toolbox

60min

🎯 这节课解决什么问题

自己从零搭 RAG 是学习用的——真要做生产系统通常会用框架。但 LangChain / LlamaIndex / Haystack / Cohere Chat 哪个适合你?这节课给你选型表:每个框架的强项 / 弱项 / 代表场景。

📖 你将学到

  • LangChain — 生态最广 / LCEL 组合性好 / LangSmith / LangGraph,但抽象层厚、版本混乱
  • LlamaIndex — 文档 RAG 最专、索引种类多,但 Agent 能力弱于 LangGraph
  • Haystack — 企业级 Pipeline 清晰、模块化,但生态小
  • Cohere Chat — 托管服务几行代码上线、内置 Rerank / Citations,但绑定 Cohere
  • LCEL 核心语法 — prompt | model | parser 这种 pipe 风格,学会这个看懂 LangChain 90%

💡 适合谁

纠结 "RAG 该用哪个框架" 的工程师。这节课给你决策依据,不再盲选。

📦 课程包含

  • 60 分钟视频 + 4 大框架对比
  • LCEL 语法速成
  • LlamaIndex 三行 RAG 代码示例
  • 选型建议(原型 / workflow / 企业 / 托管 分别推荐)

✅ 学完能做什么

你能根据项目特点快速选框架。快速原型上 LlamaIndex,复杂 workflow 上 LangGraph,不想运维上 Cohere Chat——每个决策都有理由。

L58🧪 LAB

Lab: LLM Tooling Comparison

30min

🎯 这节课解决什么问题

同样一个 RAG 需求,用 LangChain 写 100 行,用 LlamaIndex 写 30 行,用 Haystack 写 50 行——代码量和灵活度的差别肉眼可见。这个 Lab 让你亲手对比三种框架的同一个实现,10 分钟让你有选型直觉。

📖 你将学到

  • 同任务三实现 — 一个简单的 PDF 问答任务,三种框架分别写
  • 代码量对比 — LlamaIndex 最短、LangChain 最灵活、Haystack 最结构化
  • 调试体验 — 出错时每个框架的信息清晰度完全不同

💡 适合谁

想在 RAG 框架上"下一个决定"的工程师。对比一次胜过读 10 篇对比文章。

📦 课程包含

  • 1 个浏览器内互动 Lab(LLM Lab: llm-tooling)
  • 同一个 RAG 任务的三种框架实现
  • 代码量 / 灵活度 / 调试体验对比
  • 约 30 分钟动手时间

✅ 学完能做什么

你能凭直觉判断"这个项目用哪个框架",不再纠结"听说 LangChain 复杂"、"听说 LlamaIndex 只能做文档"。自己跑过对比后你有真实的判断依据。

L59INFORMATION

AI Resource Hub

60min

🎯 这节课解决什么问题

AI 领域每周都有新东西——新模型、新框架、新技巧。信息爆炸时代最重要的能力不是"看得多",是"看得对"。这节课给你一份 AI Engineer 必逛的信息源清单,按每日 / 每周 / 每月 / 每季度分层,帮你建立可持续的跟进节奏。

📖 你将学到

  • 必逛平台 — HuggingFace / Papers with Code / LMSYS Arena / arxiv-sanity / GitHub Trending
  • 必订阅周刊 — The Batch(Andrew Ng)/ Import AI / Latent Space / Simon Willison / 官方 blog
  • 社交平台跟进 — X 上跟谁 / Reddit 哪些 sub / Discord 哪些群
  • 学习节奏 — 每天 15 分钟 / 每周 30 分钟 / 每月 2-3 小时精读 / 每季度重建技术栈
  • 信息过滤原则 — 只看有 code 的内容、警惕 benchmark 刷榜、重工具轻理论

💡 适合谁

有信息焦虑的 AI 从业者。这节课帮你从"不停刷 Twitter"变成"有计划地跟进",学到的更多焦虑更少。

📦 课程包含

  • 60 分钟覆盖完整信息源清单
  • 按频率分层的学习节奏建议
  • 信息过滤的 4 条原则
  • "不要试图全学" 的心法

✅ 学完能做什么

你会有一套可持续的 AI 学习节奏表,知道每天看什么每周看什么每月深入什么,不再被"这个新工具我还没看"的焦虑困扰。

L60VIDEO

What Are API Rate Limits? — OpenAI

30min

🎯 这节课解决什么问题

你写好了应用,上线前跑了几次都 OK——上线后用户一多立刻 429 错误。OpenAI 的 Rate Limit 不是"请求数"这么简单,它有 RPM / TPM / RPD / Batch 四个维度,任何一个超了都触发 429。这节课帮你搞清楚完整机制 + 正确的退避策略。

📖 你将学到

  • 4 个限额维度 — RPM(请求/分钟)/ TPM(token/分钟)/ RPD(请求/天)/ Batch(独立额度)
  • Tier 升级机制 — OpenAI 根据消费 + 账户时长自动升 Tier,不需要申请
  • 429 退避策略 — Exponential backoff + 随机抖动的标准实现
  • 生产级优化 — 多 Key 池化 / Azure 兜底 / 客户端 rate limiter / Batch API 半价

💡 适合谁

要把 LLM 应用上生产环境的工程师。没处理过 Rate Limit 的人,用户一多就吃瘪。

📦 课程包含

  • 30 分钟视频 + 4 大限额详解
  • 退避策略的完整 Python 代码
  • 生产级优化 checklist
  • 衔接 L61 cost-optimization Lab

✅ 学完能做什么

你能写一个生产级的 API 调用 wrapper,自动处理 429、自动重试、自动降级。上线后用户量涨 10 倍也能扛住。

L61🧪 LAB

Lab: Cost Optimization

30min

🎯 这节课解决什么问题

LLM 应用的成本可以非常快地失控——一个客服机器人一个月烧几万块很常见。这个 Lab 让你亲手实现 4 大降本策略:小模型分流 / Prompt Caching / Batch API / 语义缓存。对比优化前后的成本数字,让你知道"调 prompt 也是调成本"。

📖 你将学到

  • 小模型分流 — 简单请求走 mini 模型,复杂的才上旗舰
  • Prompt Caching — 把"静态"部分放前面,缓存打折
  • 语义缓存 — 类似 query 直接返回,命中率能到 30%+
  • 成本对比 — 优化前后的真实 token 和费用数据

💡 适合谁

看到每月 OpenAI 账单吓一跳的工程师。或者老板说"这个成本降不下来我们就下线"的团队。

📦 课程包含

  • 1 个浏览器内互动 Lab(Prompt Lab: cost-optimization)
  • 4 大降本策略的实际对比
  • 优化前后成本 dashboard
  • 约 30 分钟动手时间

✅ 学完能做什么

你能把一个月 $10000 的 LLM 账单砍到 $3000,同时保持质量不下降。这是 AI Engineer 在公司里最被看重的能力之一。

L62VIDEO

Azure OpenAI — Quotas, Rate Limiting, and PTUs

30min

🎯 这节课解决什么问题

企业为什么不直接用 OpenAI 而要用 Azure OpenAI?三个原因:数据驻留 / 企业合规 / 配额保障。这节课把 Azure OpenAI 的 Standard vs PTU 讲清楚,外加选 Region 和企业部署的常见坑——如果你在企业里做 AI 项目,这是绕不过去的。

📖 你将学到

  • Standard vs PTU — 按量 vs 预付容量,延迟 / 吞吐 / 价格差异
  • Region 选择优先级 — 数据驻留合规 → 模型可用性 → 延迟
  • 多国合规 — 新加坡 PDPA / 日本 APPI / 澳洲 Privacy Act / 欧盟 GDPR / 美国 HIPAA
  • Deployment 概念 — Azure 里调用模型要先创建 Deployment,和 OpenAI 直接调的差异
  • 企业部署常见坑 — 初始配额太小 / Content Filter 误拦 / PTU 起步贵 / Region 模型不同步

💡 适合谁

在大公司 / 金融 / 医疗 / 政府这类严监管环境做 AI 项目的工程师。这节课的每一个坑你都迟早会踩。

📦 课程包含

  • 30 分钟视频 + Azure OpenAI 完整概念
  • Standard vs PTU 决策表
  • Region 选择决策流程
  • 企业部署 checklist

✅ 学完能做什么

你能为公司设计一个符合合规要求的 Azure OpenAI 部署方案。面对"数据不能出 XX 国"的硬约束你知道怎么满足。

L63VIDEO

PDF Parsing

30min

🎯 这节课解决什么问题

企业 RAG 最常见的文档格式是 PDF,而 PDF 解析是最容易翻车的一环。选错工具,后面所有优化都白搭。这节课给你 PyPDF / PDFPlumber / Unstructured / LlamaParse / Azure DI / GPT-4V 六种工具的选型对比,外加扫描件 / 多栏 / 表格的特殊处理。

📖 你将学到

  • 6 种 PDF 工具对比 — 纯文本 / 表格 / 扫描件 / 多栏 各自的胜出者
  • 纯文字 PDF — PyPDF 或 PDFPlumber 免费够用
  • 复杂表格 PDF — LlamaParse 或 Azure DI,输出 markdown 表格最干净
  • 扫描件 PDF — OCR(Tesseract / PaddleOCR)vs GPT-4V 的选择
  • 多栏文档 — 为什么 PyPDF 会读乱,怎么保留 layout 信息

💡 适合谁

要做企业文档 RAG 的工程师。公司给你一堆 PDF 让你做问答,前 1 小时你会卡在"怎么把 PDF 变成干净文本"——这节课让你跳过这个坑。

📦 课程包含

  • 30 分钟视频 + 6 工具对比矩阵
  • 3 种场景(纯文字 / 表格 / 扫描)的推荐组合
  • LlamaParse 代码示例
  • 多栏 / OCR 的进阶处理

✅ 学完能做什么

你能为任何 PDF 场景选对工具。纯文字 PDF 秒跑、复杂表格用 LlamaParse、扫描件 OCR + Vision 双路兜底——每种都有明确路径。

L64VIDEO

Invoice Processing

30min

🎯 这节课解决什么问题

发票抽取是企业 AI 落地最高频的场景之一——每家公司都有一堆 PDF / 图片发票要录入系统。这节课给你完整的 LLM + Vision 抽取流程,包括多国税制(澳洲 GST / 新加坡 GST / 日本消费税 / 美国 Sales Tax / 马来西亚 SST / 中国增值税 / 欧盟 VAT)的处理方式。

📖 你将学到

  • 抽取流程 — PDF / 图片 → OCR 或 Vision → GPT-4o + JSON Schema → 结构化数据
  • 通用 Schema 设计 — country + currency + tax_id + tax_rate + amount 字段组合,支持多国
  • 7 地区税制对照 — AU / SG / JP / US / MY / CN / EU,税种 / 税号 / 备注
  • 3 个常见坑 — 多税率混合 / 货币符号歧义 / 日中发票特殊版式
  • 准确率实测 — GPT-4o + JSON Schema 在清晰英文发票上 95-98%

💡 适合谁

在企业里被要求"自动化发票录入"的 AI Engineer。或者做跨境业务需要处理多国发票的团队。

📦 课程包含

  • 30 分钟视频 + 完整抽取流程
  • 通用 JSON Schema 模板(支持多国)
  • 7 地区税制对照表
  • Prompt 约束模板

✅ 学完能做什么

你能独立做一个支持多国的发票抽取系统。不管是澳洲 GST 还是日本消費税还是美国 Sales Tax,你都知道 Prompt 怎么写、Schema 怎么定、怎么避坑。

L65VIDEO

Budgeting and API Costs

60min

🎯 这节课解决什么问题

LLM 应用上线后成本很容易失控。这节课讲清 Token 计费的三档(Input / Cached / Output)+ 怎么估月度成本 + 4 大降本策略的底层逻辑。搞懂这些,你就能在 PRD 阶段就估出一个靠谱的成本数字,而不是上线后被账单吓一跳。

📖 你将学到

  • 成本三档结构 — Input / Cached Input(打折)/ Output(通常是 Input 的 3-5 倍)
  • 估算公式 — 单次成本 × DAU × 日均请求 × 30 = 月成本
  • 真实案例 — 一个客服机器人的成本拆解从 $12000 到 $3000 的优化路径
  • 4 大降本策略详解 — 小模型分流 / Prompt Caching / Batch API / 语义缓存
  • 监控指标 — 平均成本 / P99 输出 / 缓存命中率 / 模型分布

💡 适合谁

要为 LLM 项目做预算估算的 AI Engineer / 技术负责人。也适合在老板问 "这个会花多少钱" 时想给出专业回答的人。

📦 课程包含

  • 60 分钟视频 + 成本结构详解
  • 估算 Excel 模板
  • 4 大策略的实际效果数据
  • 衔接 L66 inference-optimization Lab

✅ 学完能做什么

你能为任何 LLM 项目给出靠谱的月度成本估算,能提前规划降本路径。这是 AI Engineer 进阶到"能对成本负责"的标志。

L66🧪 LAB

Lab: Inference Optimization

30min

🎯 这节课解决什么问题

推理优化听起来很高级,其实是一些可执行的具体技巧:batching / caching / model routing。这个 Lab 让你对比应用前后的吞吐和成本变化,让"降本 3-5 倍"从口号变成可验证的数字。

📖 你将学到

  • Batching — 多个请求合并成一批发送,延迟换吞吐
  • Caching — 精确缓存 + 语义缓存两层
  • Model Routing — 简单请求走 mini,复杂请求走旗舰
  • 优化前后对比 — 延迟 / 吞吐 / 成本三维度真实数据

💡 适合谁

要把 LLM 应用做到高并发 / 低成本的工程师。

📦 课程包含

  • 1 个浏览器内互动 Lab(LLM Lab: inference-optimization)
  • Batching / Caching / Routing 三种优化的对比
  • 优化效果可视化
  • 约 30 分钟动手时间

✅ 学完能做什么

你能为一个 LLM 应用设计完整的推理优化方案,从"能跑"跨到"能高并发低成本地跑"。

L67LAB

Project — Shipping a Rate-Unlimited, PDF-Upload-Ready RAG App

90min

🎯 这节课解决什么问题

这是课程的最后一个 Project,也是最接近真实工作的一个:你要做一个可以上线的 PDF RAG 应用,支持上传、处理 Rate Limit、监控 Token 成本、有前端 UI。交付物是一个可以演示给朋友看的 GitHub 仓库 + 3 分钟演示视频。

📖 你将学到

  • Step 1 Streamlit UI — 150 行代码搞定上传 + 提问 + 回答 + 引用显示
  • Step 2 Azure OpenAI 接入 — Deployment 配置 + 两个模型(embedding + chat)
  • Step 3 ChromaDB 向量存储 — 本地启动 + 多文档 ingest
  • Step 4 Rate Limit + 成本监控 — 退避重试 + 本地 token counter,让每次调用都可见
  • 进阶挑战 — 引用展示 / Cohere Rerank / Langfuse trace / 多租户

💡 适合谁

想做一个"能发给朋友试用"的真实 AI 作品的工程师。这比任何教程练习都能展示你的能力。

📦 课程包含

  • 90 分钟完整 Project 指导
  • 完整可运行的 Python 代码模板
  • Azure OpenAI 配置 + ChromaDB 启动 + Streamlit 部署流程
  • 可选的生产级进阶改造方向

✅ 学完交付物

✅ GitHub 完整仓库 + README
✅ 3 分钟演示视频
.env.example + requirements.txt
✅ 可部署到 Streamlit Cloud(免费)或 Azure Container Apps
这是你整个课程的收官作品——能用、能演示、能写进简历。

L68🧪 LAB

Lab: RAG QA Application

30min

🎯 这节课解决什么问题

Project 3 是需要你自己搭的完整 PDF RAG 应用。这个 Lab 是它的浏览器预览版——让你在 5 分钟内体验完整流程:上传 → ingest → 提问 → 看引用。跑一次你就知道 Project 3 要达到什么目标。

📖 你将学到

  • 完整 QA Application 流程 — Upload → Embed → Retrieve → Generate → Citation
  • 引用显示 — 每个回答标注是从哪个 chunk 来的,提升信任感
  • 多文档查询 — 同一个问题跨多个 PDF 找答案

💡 适合谁

要做 Project 3 之前想先"看效果"的人。或者做完 Project 3 想对比一下完整版的工程师。

📦 课程包含

  • 1 个浏览器内互动 Lab(LLM Lab: rag-qa-application)
  • 可直接上传 PDF 的 UI
  • 带引用的答案展示
  • 约 30 分钟动手时间

✅ 学完能做什么

你对 PDF RAG 应用的完整用户体验有清晰预期,做 Project 3 时知道目标在哪,不会跑到一半才发现少做了关键功能。

L69INFORMATION

End-to-End RAG Toolbox

60min

🎯 这节课解决什么问题

真实生产 RAG 系统的工具链覆盖 6 层:Ingest → Chunk → Embed → Vector Store → Retrieval → Observability。每一层都有多个选择。这节课给你一份按层分类的工具清单 + 2 个组合推荐(MVP 组合 和 企业级组合),选型时直接查表。

📖 你将学到

  • 6 层架构 — 每一层的职责和代表工具
  • Orchestration 层 — LangChain / LlamaIndex / Haystack / DSPy 的差异
  • MVP 组合推荐 — 最便宜 / 最简单 / 能跑通的搭配
  • 企业级组合 — 高并发 / 合规敏感场景的标准组合
  • 避坑指南 — 不要从 LangChain 开始入门 / 向量库别上来就 Pinecone

💡 适合谁

要做 RAG 系统选型的技术负责人 / AI Engineer。或者给老板做 PRD 要说明"技术栈为什么选这些"的人。

📦 课程包含

  • 60 分钟覆盖 6 层完整工具图
  • MVP 组合 + 企业级组合对比
  • 选型决策的 4 条原则
  • 为 L70 LangChain / L71 Production RAG 铺垫

✅ 学完能做什么

面对任何 RAG 项目的技术栈选型,你能在 10 分钟内给出完整方案。不再纠结 "这个是最好的吗",每个选择都有理由。

L70VIDEO

Introduction to LangChain

60min

🎯 这节课解决什么问题

LangChain 是 RAG / Agent 最流行的框架,也是被吐槽最多的——抽象层厚、版本变动大、学习曲线陡。这节课帮你避开这些坑,只学真正有用的部分:LCEL 语法 + 核心抽象 + LangGraph Agent。学完你就能看懂 LangChain 90% 的代码。

📖 你将学到

  • LCEL 语法prompt | model | parser 这种 pipe 风格,现代 LangChain 的核心
  • 5 个核心概念 — Runnable / Chain / Retriever / Agent / Memory
  • 完整 RAG Chain 示例 — 20 行代码跑通一个带 retriever 的 RAG
  • 要不要用 LangChain 的判断 — 适合团队项目 / 不适合小项目和性能敏感场景
  • LangGraph 现代 Agent 框架 — 用 StateGraph 做复杂 Agent 流程

💡 适合谁

想学 LangChain 但被它的复杂度吓到的工程师。这节课帮你只学"必须会"的部分,跳过 "看着都会用不到" 的抽象。

📦 课程包含

  • 60 分钟视频 + LCEL 语法速成
  • 完整 RAG Chain 的 20 行代码
  • LangGraph StateGraph 示例
  • "要不要用 LangChain" 决策表

✅ 学完能做什么

你能读懂 LangChain 90% 的生产代码,能写出一个带 Retriever 的 LCEL Chain。对于复杂 Agent,你知道用 LangGraph 不要用老的 LangChain Agent。

L71INFORMATION

Production RAG Toolbox

60min

🎯 这节课解决什么问题

Project 3 让你搭了一个能跑的 RAG。要把它变成能跑一年的生产系统,还需要 4 个能力:Evaluation / Observability / Caching / Guardrails。这节课给你一个完整工具箱 + 落地顺序建议。

📖 你将学到

  • Evaluation — Ragas — Faithfulness / Answer Relevance / Context Precision 等 RAG 特有指标
  • Observability — Langfuse — 一行代码接入,面板看每次请求的完整 trace + 成本
  • Caching — GPTCache — 精确缓存 + 语义缓存,客服场景命中率 30%+
  • Guardrails — Input / Output Guard — 防 injection / 过滤 PII / 校验 output
  • 落地顺序 — 先 trace(知道哪里有问题)→ 加 eval(量化)→ 加 cache(降本)→ 加 guard(保底线)

💡 适合谁

已经有 RAG 项目上线或准备上线的工程师。这 4 个能力不是"可选加分项",是上线后必须有的。

📦 课程包含

  • 60 分钟覆盖 4 大生产能力
  • Ragas / Langfuse / GPTCache / Guardrails 完整代码示例
  • 4 周落地计划(每周加一层)
  • 衔接 L72 llm-evaluation Lab

✅ 学完能做什么

你能为一个 Demo 级 RAG 加上生产级的 4 大能力,让它从"能跑"变成"能跑一年"。这是企业 RAG 项目从 POC 到 Production 的关键一步。

L72🧪 LAB

Lab: LLM Evaluation with Ragas

30min

🎯 这节课解决什么问题

"我觉得效果还行"不是评估。Ragas 是 RAG 评估的事实标准——用几行代码跑完 Faithfulness / Answer Relevance / Context Precision 等指标,给你一个量化的分数。这个 Lab 让你亲手用 Ragas 评估一个 RAG 系统。

📖 你将学到

  • Ragas 四大核心指标 — Faithfulness / Answer Relevance / Context Precision / Context Recall
  • 写测试集 — 30-50 条 question + ground_truth,是评估的起点
  • 跑一次评估 — 看 dashboard 上 4 个指标的真实数字
  • Prompt 改动后回归 — 改了 prompt 再跑一次,知道效果涨了还是跌了

💡 适合谁

要对 RAG 效果负责的工程师 / 产品经理。没有指标就没法迭代,有指标了才能"有依据地改"。

📦 课程包含

  • 1 个浏览器内互动 Lab(LLM Lab: llm-evaluation)
  • Ragas 4 大指标的完整代码
  • 10 条测试集示例
  • 约 30 分钟动手时间

✅ 学完能做什么

你能为自己的 RAG 系统写一个最小评估集(30 条)+ 跑 Ragas,每次改 prompt / 换模型都能量化地知道效果变化。这是资深 AI Engineer 的日常工作。

L73VIDEO

用 AWS 构建 RAG 应用

60min

🎯 这节课解决什么问题

前面讲的都是"从零搭 RAG",这节课给你另一条路线:用云厂商的全托管组件。AWS Bedrock Knowledge Base 让你只需要把文档放 S3,剩下全自动——解析 + chunk + embed + 存储都是托管的。对于"要快上线"的企业场景这是最省心的路径。

📖 你将学到

  • AWS RAG 栈 — S3 + Bedrock Knowledge Base + OpenSearch Serverless + Lambda + API Gateway
  • Knowledge Base 的价值 — 只要把文档放 S3,剩下全自动
  • retrieve_and_generate API — 一个 API 调用搞定检索 + 生成 + 引用
  • AWS vs 自建对比 — 开发时间 / 运维成本 / 定制化 / 单次成本的取舍
  • 其他云厂商方案 — Azure AI Search / GCP Vertex AI Search / Cohere Chat

💡 适合谁

已经在 AWS 生态里的企业工程师。或者要"一周上线 RAG" 不想自己维护向量库的团队。

📦 课程包含

  • 60 分钟视频覆盖完整 AWS RAG 栈
  • Knowledge Base 配置流程
  • retrieve_and_generate 完整代码
  • 自建 vs AWS 方案对比表
  • 课程收官寄语 + 下一步推荐

✅ 学完能做什么

你能为 AWS 生态的公司设计一个全托管 RAG 方案,把上线时间从"几周"压到"几天"。也能判断什么场景值得自建、什么场景该用托管。

L74🧪 LAB

Lab: Model Deployment

30min

🎯 这节课解决什么问题

课程的最后一个 Lab——模型部署。不管你用哪家云、哪个框架,最终都要把一个模型(或 LLM 应用)变成生产级 endpoint。这个 Lab 给你一个最小的部署流程 + Rate Limit / Logging / Monitoring 三件套的集成示例。

📖 你将学到

  • 最小部署流程 — 从本地代码到可调用的 HTTP endpoint
  • Rate Limit 中间件 — 防止被刷爆
  • Logging + 错误追踪 — 每次请求都可以回溯
  • Health Check — 让负载均衡器知道服务存活

💡 适合谁

想把 LLM 应用真正"上生产"的工程师。Demo 跑通是一回事,上线让几千个用户用又是另一回事——这节 Lab 帮你把中间的差距补上。

📦 课程包含

  • 1 个浏览器内互动 Lab(LLM Lab: model-deployment)
  • 从本地到生产的完整部署流程
  • Rate Limit + Logging + Health Check 模板代码
  • 约 30 分钟动手时间

✅ 学完能做什么

你能把一个 LLM 应用从 Jupyter Notebook 变成生产级 HTTP endpoint,支持速率限制、可追溯、可监控。这是课程结束时你手上应该具备的完整能力闭环。