完整大纲 — 74 节课

每节课都是销售视角详细介绍
74
LESSONS
25
互动 LAB
3
PROJECTS
52h
总时长
Part 1 — GenAI 基础与生产力(L01-L13)
13 节课
L01INFORMATION

Pre-work

60min

🎯 这节课解决什么问题

你看过十几个 AI 教程视频、收藏过几十个 Prompt 合集、订阅过几个 Newsletter——然后下周你什么都没记住。知识太碎、路径太乱、不知道从哪开始。这节课不是让你再看一堆内容,是帮你把"4 周后要成为入门 AI Engineer"这件事拆成可执行的每周任务。

📖 你将学到

  • 课程地图 — 4 个 Part、74 节课、3 个 Project 分别放在哪个位置,哪些必学、哪些可以跳过
  • 账号清单 — OpenAI / Claude / HuggingFace / Google AI Studio 哪个免费、哪个必须付费,先开哪个再开哪个
  • 学习方法论 — 每节视频后必答一个问题"这个知识点能解决什么具体问题?"——杜绝"看了但记不住"

💡 适合谁

如果你是软件工程师/后端/全栈/DevOps/数据工程师,想系统学 AI Engineer 但每次打开教程看十分钟就走神——这节课会帮你定一个你真能跟完的节奏表。

📦 课程包含

  • 3 个必看 section:课程导航 / 账号清单 / 学习方法论
  • 1 份 "4 周节奏" 推荐安排(可以按自己节奏调)
  • 约 60 分钟阅读 + 账号开通实操

✅ 学完能做什么

你会有一份写好的 4 周学习计划表,OpenAI + Claude + Google AI Studio 三个账号开好,知道每周要看哪几节课、每周要产出什么。不再是"慢慢看",是"有目标地冲"。

L02INFORMATION

Preparation

60min

🎯 这节课解决什么问题

你已经写过 Python,但 AI 相关的开发环境跟你熟悉的"装 pip、跑脚本"不完全一样——OpenAI API Key 怎么申请?额度要充多少?.env 怎么放才不会被 push 到 GitHub?这节课帮你把这些"第一次才会踩"的坑一次性踩完。

📖 你将学到

  • 开发环境清单 — Python 3.10+ / VSCode / Jupyter / uv 或 venv,每一样为什么必须有
  • API Key 安全.env + dotenv + .gitignore 三件套,一次配好永不再犯
  • Hello LLM — 一段 10 行的 Python 代码,跑通你的第一次 OpenAI API 请求,看到真实的 response 结构和 token usage

💡 适合谁

会用 pip、能在终端跑 Python 脚本、但从没调过 OpenAI API 的人。不需要你会装 Docker 或配 CUDA。

📦 课程包含

  • 完整环境配置清单(含 Mac / Windows / Linux 差异)
  • OpenAI 账号 + Billing + API Key 全流程截图说明
  • 第一段"Hello LLM" 代码(可直接粘贴运行)
  • 约 60 分钟动手配置

✅ 学完能做什么

你的电脑上有一个能跑的 Python venv,.env 里有可用的 OpenAI Key,跑 python hello.py 能看到 GPT-4o-mini 返回的真实回答。后面 72 节课的所有代码都能在这套环境里直接跑。

L03🧪 LAB

Lab: First LLM Experience

30min

🎯 这节课解决什么问题

"调 OpenAI API 很简单"——这句话 99% 的教程都说过。但真跑起来你会发现:response 长什么样?token 用了多少?temperature 为什么跟聊天里看到的不一样?这个 Lab 让你亲眼看到这些东西,而不是继续把 LLM 当黑盒。

📖 你将学到

  • response 结构choices[0].message.content 之外还有哪些字段,finish_reason 是什么意思
  • Token usageusage.prompt_tokenscompletion_tokens 怎么算成本,1 次调用烧多少钱
  • 参数影响 — 同一个 prompt 在 temperature=0 vs 0.7 vs 1.0 下输出完全不同,亲眼对比

💡 适合谁

想把 LLM 从"黑魔法"变成"可预测的 API"的软件工程师。10 分钟内你就会对 LLM 的输入输出有 90% 的直觉。

📦 课程包含

  • 1 个浏览器内互动 Lab — 不用配环境,点开就能跑
  • 5 个真实场景的 prompt 模板,可直接修改
  • Token 计数器 + 实时成本显示
  • 约 30 分钟动手时间

✅ 学完能做什么

你能独立写一段调用 OpenAI / Claude / Gemini 的 Python 代码,看懂 response 的每一个字段,知道你这次请求花了多少钱、用了多少 token。LLM 不再是魔法,就是一个有明确 schema 的 HTTP API。

L04VIDEO

Generative AI & Productivity

120min

🎯 这节课解决什么问题

你身边的人已经在用 AI 写代码、写文档、做数据分析了,但你打开 ChatGPT 不知道让它做什么——"高级搜索引擎"的定位很难拉开差距。这节课给你 12 个真实生产力场景,每个都有具体的 prompt 模板和工具组合,下课你就能开始用。

📖 你将学到

  • 12 个生产力场景 — 邮件/SQL/代码解释/Excel 公式/PPT 大纲/数据可视化/竞品分析/学习新技术等,每个给出"该用哪个工具 + 关键 prompt 写法"
  • 工具组合拳 — Claude 做长文档 + ChatGPT 做代码 + Perplexity 做实时信息 + NotebookLM 做文档问答——为什么不能指望一个工具打天下
  • AI 不擅长的场景 — 实时/精确计算/严监管决策这些场景为什么别上 LLM

💡 适合谁

每天用 AI 但总觉得"用得不够深"的技术从业者。你知道 ChatGPT,但你可能从没用过 NotebookLM 上传 PDF 做问答、从没用 Perplexity 做带引用的调研。

📦 课程包含

  • 2 小时视频覆盖 12 个场景
  • 每个场景配 1-3 个可直接复制的 prompt 模板
  • 工具组合决策图(按场景查)
  • "避坑清单"——AI 做不好的场景列表

✅ 学完能做什么

你会至少挑出 3 个自己工作里能立刻用上的高频场景,每个都知道该用哪个工具 + 怎么写 prompt。不再是"随便问问 ChatGPT",是"有固定 playbook 的专业用户"。

L05🧪 LAB

Lab: Hello AI

30min

🎯 这节课解决什么问题

上一节你学了"12 个生产力场景",但知道场景不等于会写 prompt。你可能还是习惯对 AI 说"帮我写个邮件"——这节 Lab 强迫你立刻写一个"专业化"的第一次对话:同样的需求,加上角色 + 任务 + 约束 + 例子,输出质量拉开一档。

📖 你将学到

  • 四要素对比 — 一个糟糕 prompt vs 一个工程化 prompt,同一个任务两种输出同屏对比
  • 角色的力量 — "你是 XX" 这一句话能让输出质量从"通用回答"跳到"专业人士角度"
  • 约束最后写 — 为什么 LLM 容易"忘"早期约束,把关键指令放末尾有时效果翻倍

💡 适合谁

每次跟 AI 对话都要来回改 5 遍才拿到想要的输出的人。或者总是觉得"AI 好像不太懂我意思"的人。

📦 课程包含

  • 1 个浏览器内互动 Lab(Prompt Lab: hello-ai)
  • 3 组"糟糕 prompt vs 工程化 prompt"对比
  • 一个可用的"打开 AI 第一次对话"模板
  • 约 30 分钟动手时间

✅ 学完能做什么

你能在 30 秒内把一个模糊的需求改写成包含角色 + 任务 + 约束 + 例子的专业 prompt,第一次就拿到能用的输出,不用来回改。这是你整个 Prompt Engineering 生涯的第一块肌肉记忆。

L06VIDEO

GenAI Concept

120min

🎯 这节课解决什么问题

"生成式 AI"这四个字被滥用到失去意义——每个产品都自称 GenAI,但它们背后可能是完全不同的技术路线。你如果分不清 LLM vs Diffusion vs VLM 的本质差异,就很难判断一个 AI 产品到底能做什么不能做什么。

📖 你将学到

  • 5 大模型类别 — LLM(文本)/ Diffusion(图像)/ VLM(多模态)/ Audio(语音)/ Code Model,每类的底层架构和代表模型
  • 2022-2026 技术时间线 — 从 Transformer 论文到 ChatGPT 到多模态成熟到 "Agent 元年" 的关键里程碑
  • 产品背后的底层 — 看到一个 AI 产品先问两个问题:底层是哪类模型?解决的是生成、理解还是检索问题?

💡 适合谁

想在同事讨论 AI 产品时"听得懂"的技术人。你不需要能训模型,但你需要能在 5 分钟内判断"这个产品背后用了什么模型、靠不靠谱"。

📦 课程包含

  • 2 小时视频覆盖完整 GenAI 分类地图
  • 2017-2026 关键技术演进时间线
  • 主流模型对比表(能力 / 价格 / 适合场景)
  • MCQ 分类识别测试

✅ 学完能做什么

下次产品经理问"这个需求用 AI 能做吗",你能在 30 秒内给出判断:该用哪类模型、为什么、预期的成本和局限是什么。能看懂 Gartner / a16z 的 AI 报告,不再被 Marketing 话术带偏。

L07VIDEO

Prompt Engineering

120min

🎯 这节课解决什么问题

Prompt Engineering 不是"会写中文就行"——同一个需求用错的 prompt 写法可能让模型的准确率差 30%+。这节课给你一个工程化的框架(R-T-C-E 四要素),让每次写 prompt 都像写函数一样有结构、可复用、可调试。

📖 你将学到

  • R-T-C-E 框架 — Role(你是谁)+ Task(做什么)+ Constraints(约束)+ Examples(例子),四要素缺一个输出质量就跌一档
  • Zero-shot vs Few-shot — 给 3 个例子 vs 不给例子,在格式化输出场景下差异巨大
  • 约束放末尾的小技巧 — LLM 的"近因偏差"如何被利用,关键指令应该放在 prompt 最后
  • 常见反模式 — 为什么"请帮我..."开头的 prompt 效果差,为什么 "Let's think step by step" 有时候反而会坏事

💡 适合谁

已经会简单用 ChatGPT 但想从"会用"跳到"会写生产级 prompt"的技术从业者。下一步你要把 prompt 写进代码里,这节课是基础。

📦 课程包含

  • 2 小时视频 + R-T-C-E 框架详解
  • 20+ 个"差 vs 好" prompt 对比
  • 可直接套用的 prompt 模板库
  • 衔接 L05 hello-ai 动手 Lab

✅ 学完能做什么

你能写出结构化的、可复用的 prompt,不用再来回改 5 遍。对任何新任务,你都能在 1 分钟内套用 R-T-C-E 写出第一版 prompt,后面就是微调。

L08🧪 LAB

Lab: Clear Task

30min

🎯 这节课解决什么问题

你经常发现自己写的 prompt "差一点"——AI 明白大方向但总是漏关键细节。比如你让它帮你写邮件,它用词太书面;让它总结文档,它总结得太长。问题不是它不会做,是你没写清楚"任务是什么"。

📖 你将学到

  • 动词开头 — "写一封" / "列出" / "对比",让任务从开头就有明确动作
  • 拆分问题 — 别把 5 个需求塞一条 prompt 里,拆成 5 次问效果好很多
  • 明确交付物 — "给我一份报告" vs "给我一份 800 字的 markdown 报告,包含 3 个 section"——LLM 对结构化指令反应灵敏

💡 适合谁

经常需要改 prompt 才能拿到可用输出的人。或者总是纠结"AI 为什么不直接给我要的结果"的人。

📦 课程包含

  • 1 个浏览器内互动 Lab(Prompt Lab: clear-task)
  • 5 个真实场景:改写糟糕任务 → 观察输出差异
  • "动词清单"——10 个动作词帮你开头
  • 约 30 分钟动手时间

✅ 学完能做什么

你能把任何模糊需求转写成 AI 能 1 次就做对的明确任务。从此写 prompt 不再是"来回改"的艺术,是"第 1 次就写对"的工程。

L09🧪 LAB

Lab: Constraints

30min

🎯 这节课解决什么问题

你的 prompt 写得不错,但 AI 输出总是"长度不对、格式不对、语气不对"——就是不好嵌进你的业务系统。问题不是 AI 没理解任务,是你没给它"交付标准"。这节课让你学会用约束把输出收敛到可复用的形状。

📖 你将学到

  • 格式约束 — "输出 JSON"、"输出 markdown 表格"、"只返回答案不要解释",这些一句话能省下后面一大堆字符串处理
  • 长度约束 — "不超过 150 字" vs "尽量简短",为什么具体数字永远比模糊形容词有用
  • 语气约束 — "正式/轻松"、"避免使用 emoji"、"不要用'革命性'这类夸张词"——约束的本质是告诉 AI "不要做什么"

💡 适合谁

想把 LLM 接进自己产品的软件工程师。如果你的后端需要稳定的 JSON 输出,这节 Lab 是必看——约束写不好,下游 JSON parse 一错一个准。

📦 课程包含

  • 1 个浏览器内互动 Lab(Prompt Lab: constraints)
  • "加约束 vs 不加约束" 对比练习
  • 格式 / 长度 / 语气 三类约束模板
  • 约 30 分钟动手时间

✅ 学完能做什么

你能让 LLM 输出稳定的 JSON / markdown / 固定字数文本,直接嵌进你的后端或前端,不需要写一堆字符串处理代码兜底。

L10VIDEO

RAG

120min

🎯 这节课解决什么问题

LLM 为什么会"乱编"?为什么你问 2024 年的新闻它不知道?为什么公司内部文档它看不到?你如果不理解这三个天生缺陷,就不知道什么场景必须上 RAG。这节课把 RAG 的"为什么"讲透,后面 20+ 节 RAG 技术细节才有意义。

📖 你将学到

  • LLM 三大痛点 — Hallucination(编造事实)+ Knowledge Cutoff(知识截断)+ Private Data(私有数据),每一个都给真实案例
  • RAG 最小流程 — 问题 → Embed → 检索 → 拼 prompt → 生成,一张图看懂最短路径
  • RAG vs Fine-tune vs Prompt 决策 — 什么场景用哪个,为什么很多人一上来就想 Fine-tune 是错的

💡 适合谁

企业里负责"把 AI 接进现有业务"的工程师。你老板肯定会问"能不能让 AI 回答公司内部的问题"——这节课告诉你答案是"能,但得用 RAG,不是 Fine-tune"。

📦 课程包含

  • 2 小时视频覆盖 RAG 的 "Why + What"
  • LLM 三大痛点的 5 个真实翻车案例
  • RAG / Fine-tune / Prompt 决策树图
  • 衔接 L30 RAG 1 — Core Components 详细拆解

✅ 学完能做什么

你能向非技术同事解释"为什么需要 RAG",能判断一个业务需求该用 RAG 还是 Prompt Engineering 还是 Fine-tune,不会再把"想让 AI 知道新数据"误以为是 Fine-tune 问题。

L11VIDEO

GenAI Agents

120min

🎯 这节课解决什么问题

"AI Agent" 是 2025-2026 最火的概念,但 80% 的人连 Agent 和 Workflow 的区别都说不清。这节课用一个具体例子(订机票 Agent)把 Agent = LLM + 工具 + 记忆 + 循环的本质讲透,你学完就能判断自己的业务需求该不该上 Agent。

📖 你将学到

  • ReAct 推理循环 — Reason + Act 交替,LLM 如何"思考 → 决定调哪个工具 → 观察结果 → 继续" 一直到任务完成
  • Agent vs Workflow 边界 — 固定步骤用 Workflow,不确定推理用 Agent。盲目上 Agent 是过度设计
  • Tool Calling 基础 — 给 LLM 一个工具清单,它怎么决定用哪个

💡 适合谁

在公司听到"我们要做个 AI Agent"的产品会议时,想第一时间判断"这个需求配得上 Agent 还是用普通 Workflow 就够了"的工程师。

📦 课程包含

  • 2 小时视频覆盖 Agent 定义 + ReAct 循环
  • "订机票 Agent" 完整推理示例
  • Agent vs Workflow 决策表
  • 衔接 L34 Agents 实战课 + L35 ai-agent-patterns Lab

✅ 学完能做什么

你能画出一个 Agent 的推理循环图,能区分 Agent 和 Workflow 的适用场景,能判断一个业务需求值不值得花 3 倍的成本上 Agent(大部分不值得)。

L12VIDEO

Generative AI Ops

120min

🎯 这节课解决什么问题

你把 LLM 接进产品上线后会面对一堆新问题:Prompt 改了一次效果变差怎么回滚?输出质量怎么量化?月底成本账单突然爆了怎么追?这些问题传统 MLOps 没教过,因为 LLMOps 是新物种。这节课给你一个完整的能力地图。

📖 你将学到

  • LLMOps 六大能力 — Prompt 版本化 / Offline 评估 / Online tracing / 成本追踪 / Guardrails / A/B 实验
  • LLMOps vs MLOps 差异 — 模型是 API、"代码"是 prompt 文本、输出是概率性的、成本按 token 计——为什么传统 MLOps 工具链不够用
  • 最小起步套装 — Langfuse + Ragas + Git 存 Prompt 这三个搞定 80% 的 LLMOps 价值

💡 适合谁

已经有 LLM 应用要上线或刚上线的工程师。生产环境的第一周你就会遇到这节课讲的所有问题——提前学完能少吃几次亏。

📦 课程包含

  • 2 小时视频覆盖 LLMOps 完整能力地图
  • LangSmith / Langfuse / Ragas / Helicone / Guardrails 工具对比
  • 最小起步的 3 步落地方案
  • 衔接 L13 mlops-llmops Lab + L72 Ragas 评估 Lab

✅ 学完能做什么

你能给自己的 LLM 应用加上第一层 trace(每次请求都能回溯),能跑第一次 offline 评估(用 Ragas 量化 RAG 质量),能做 prompt 版本管理——三件事一做,你的 LLM 应用就从"玩具"变成"生产级"。

L13🧪 LAB

Lab: MLOps vs LLMOps

30min

🎯 这节课解决什么问题

上一节讲了 LLMOps 的六大能力,但"听懂 ≠ 会用"。这个 Lab 让你亲手跑一次完整的 LLMOps 流程:用一个小 RAG 应用触发 trace、写一个 eval 测试集、看真实的成本追踪面板——10 分钟内感受 LLMOps 的真实价值。

📖 你将学到

  • Langfuse trace 接入 — 替换 openai import 那一行代码,每次调用自动出现在面板里
  • Ragas 评估集 — 写 5 条测试问答,跑一次就知道你的 RAG 系统 faithfulness 多少
  • 成本面板 — 同一个任务用 GPT-4o 和 GPT-4o-mini 对比,亲眼看 16 倍的成本差

💡 适合谁

已经有 LLM 应用或打算上线 LLM 应用的工程师。没跑过 trace 的人会觉得"线上没事",跑过一次 trace 的人会发现每次调用都有改进空间。

📦 课程包含

  • 1 个浏览器内互动 Lab(LLM Lab: mlops-llmops)
  • Langfuse trace / Ragas eval / 成本追踪 三个面板的真实数据
  • 你可以直接抄进自己项目的集成代码片段
  • 约 30 分钟动手时间

✅ 学完能做什么

你能用一行代码替换给自己的项目加上完整 trace,能写一个最小评估集跑 faithfulness 检查,能把 LLMOps 从概念变成可验证的工程实践。

Part 2 — ML 基础与 Transformer 原理(L14-L25)
12 节课
L14VIDEO

Structured Data vs Unstructured Data

60min

🎯 这节课解决什么问题

企业数据里 80% 是非结构化的(邮件、合同、PDF、聊天记录),而这恰好是 LLM 最擅长的领域。但很多工程师还在用正则和规则引擎去硬扒这些文本——维护成本高、准确率 60%。搞清楚结构化 vs 非结构化的本质差别,你就知道 AI Engineer 的价值区在哪。

📖 你将学到

  • 三种数据形态 — 结构化 / 半结构化 / 非结构化,对应的存储和处理技术完全不同
  • LLM 的三大价值区 — Extraction(从非结构化抽结构化)/ Classification(打标签)/ Summarization(总结)
  • 真实案例 — 银行信贷申请邮件分类,从正则规则的 60% 准确率到 LLM 的 92%,开发时间从 3 周到 2 天

💡 适合谁

在公司看到一堆 PDF 合同 / 扫描件 / 邮件堆在那里没人处理的工程师。这些数据就是 AI Engineer 最大的价值点,前提是你知道怎么下手。

📦 课程包含

  • 60 分钟视频覆盖数据分类 + LLM 价值区
  • 非结构化 → 结构化的通用 Prompt 模板
  • 银行 / 电商 / 法律 三个行业的抽取案例
  • 衔接 L15 data-engineering Lab 动手练习

✅ 学完能做什么

你能识别公司里哪些数据是 LLM 能处理的"金矿",能用一个通用 Prompt 模板从任何非结构化文本里抽出结构化数据。下次老板说"我们有一堆合同没人看",你能立刻给出一个 2 天能 POC 的方案。

L15🧪 LAB

Lab: Data Engineering for LLM

30min

🎯 这节课解决什么问题

理论上 LLM 能从任何文本抽结构化数据——但真跑起来你会发现:长文档怎么拆?抽出来的 JSON 格式总是不稳?同一个字段不同文档里叫法不同怎么办?这个 Lab 让你亲手踩完这些真实工程坑。

📖 你将学到

  • Chunk 切分策略 — 太长塞不进 context,太短语义不完整,合适的 chunk 大小怎么定
  • JSON Schema 强制 — 用 OpenAI Structured Outputs 保证返回合法 JSON,直接 parse 不用兜底
  • 字段对齐 — "vendor" / "供应商" / "Supplier" 同一个字段三种叫法,用 few-shot 例子让 LLM 统一

💡 适合谁

要把 LLM 接进 ETL / 数据管道的数据工程师。或者要处理大批量非结构化文档的后端。

📦 课程包含

  • 1 个浏览器内互动 Lab(LLM Lab: data-engineering)
  • 3 个真实文档(合同 / 发票 / 邮件)+ 对应的抽取目标
  • Chunk 策略 + Schema 定义 + Few-shot 三步走模板
  • 约 30 分钟动手时间

✅ 学完能做什么

你能写一个从 PDF / 合同 / 邮件里抽结构化数据的 Python pipeline,output 是稳定的 JSON 可以直接进数据库。这是 AI Engineer 在企业里最常被要求做的事之一。

L16VIDEO

Introduction to Machine Learning

60min

🎯 这节课解决什么问题

你学 LLM 不需要会训模型,但你需要看懂别人的架构图 + 术语。"Loss function 在下降"、"过拟合"、"梯度爆炸"这些词如果你完全没概念,在读论文 / 看 Anthropic 博客的时候就会卡住。这节课用直观方式把 ML 核心概念讲透,不需要数学。

📖 你将学到

  • ML 本质 — 从数据里学一个函数 f(x)=y,训练 = 找参数,推理 = 用函数做预测
  • 三个必懂概念 — Loss Function(错多少)/ Gradient Descent(怎么改)/ Overfitting(记住训练集但不泛化)
  • 训练 vs 推理成本 — 训 GPT-4 花几千万美金,调一次 API 花几分钱,为什么

💡 适合谁

没学过 ML 但想看懂 LLM 原理的软件工程师。你不会需要写反向传播,但你需要能和机器学习工程师对话不怯场。

📦 课程包含

  • 60 分钟视频 + 零数学的直观讲解
  • "考试扣分 / 改学习方法 / 刷题变原题" 三个生活比喻
  • 训练 vs 推理成本对比
  • 衔接 L17 ai-ml-basics Lab 可视化练习

✅ 学完能做什么

你能看懂 ML 相关的博客、论文摘要和架构图,能和 ML 工程师讨论模型训练相关的基本问题,不再是"我只会调 API"的纯 AI Engineer。

L17🧪 LAB

Lab: AI / ML Basics

30min

🎯 这节课解决什么问题

上一节讲了 ML 的核心概念,但"听懂"和"看过"差一截。这个 Lab 让你在浏览器里可视化一个神经网络的训练过程:亲眼看 loss 怎么下降、过拟合是什么样、参数越大为什么效果越好。10 分钟让你对 ML 有真实的直觉。

📖 你将学到

  • 训练可视化 — 看 loss 曲线从高到低,亲眼感受"梯度下降"不是抽象概念
  • 过拟合现场 — 训练集 99% 但测试集 60% 的模型长什么样,怎么用 Dropout 缓解
  • Scaling Law — 小模型 vs 大模型在同一任务上的表现差异

💡 适合谁

刚学完 L16 ML 基础想立刻巩固的工程师。视觉型学习者尤其喜欢这个 Lab——看一次动画顶读 10 页博客。

📦 课程包含

  • 1 个浏览器内互动 Lab(LLM Lab: ai-ml-basics)
  • 3 个可视化场景:训练过程 / 过拟合 / Scaling Law
  • 不需要任何代码
  • 约 30 分钟动手时间

✅ 学完能做什么

"梯度下降" / "过拟合" / "正则化" 这些词从此不再是你读论文时的拦路虎,都是你亲眼看过的具体现象。

L18VIDEO

Supervised, Unsupervised, and Reinforcement Learning

60min

🎯 这节课解决什么问题

上一节讲了 ML 的基本概念,这节课讲三大学习范式——监督、无监督、强化学习。很多人分不清这三者的差别,看论文看到 "RLHF" 就懵。搞清楚每种范式的数据长什么样、目标是什么,你就知道 GPT-4 为什么需要三个训练阶段(Pre-training + SFT + RLHF)。

📖 你将学到

  • 三种范式对比 — Supervised(有答案)/ Unsupervised(没答案)/ RL(靠奖励),数据和目标完全不同
  • LLM 三阶段训练 — Pre-training(无监督)+ SFT(监督)+ RLHF(强化学习),为什么 LLM 同时用了三种范式
  • 为什么 RLHF 重要 — 没有 RLHF 的 GPT-3 你直接用会觉得"怪怪的",有了 RLHF 才变成 ChatGPT

💡 适合谁

看到 "RLHF / DPO / PPO" 这些术语就头晕的技术从业者。不需要会推导数学,但需要知道这些是什么、有什么用。

📦 课程包含

  • 60 分钟视频覆盖三大范式 + LLM 训练阶段
  • 三种范式的数据对比图
  • GPT-4 训练流程示意图
  • DPO 取代 RLHF 的 2025 年新趋势介绍

✅ 学完能做什么

看 Anthropic / OpenAI / Meta 的论文时不再看到 "RLHF" 就跳过。你能解释"为什么 ChatGPT 比 GPT-3 更听话"的本质原因,能判断一个任务该用监督还是强化学习。

L19VIDEO

Introduction to Deep Learning

60min

🎯 这节课解决什么问题

"深度学习" 听起来很高大上,但它的最小单元其实就一行公式:output = activation(weighted_sum + bias)。理解这一行后,整个神经网络就不再是黑盒。这节课用直观方式讲清神经元、激活函数、反向传播——不推公式,只讲"这些东西在做什么"。

📖 你将学到

  • 神经元本质 — 就是加权求和 + 激活函数,堆起来就是"深度"网络
  • ReLU 为什么这么重要 — 一个简单到让人怀疑的函数 max(0, x),支撑了整个现代深度学习
  • DL 起飞三要素 — 大数据(ImageNet)+ GPU 算力 + 算法改进,2012 AlexNet 为什么是 DL 元年

💡 适合谁

想读懂 Transformer 架构图但被"神经网络"吓到的工程师。看完这节你会发现 Transformer 其实就是"用 attention 堆起来的深度网络",没那么神秘。

📦 课程包含

  • 60 分钟视频 + 0 数学公式
  • 神经元 → 层 → 网络 的递进构造图
  • DL 起飞三要素的历史背景
  • 为下一节 NLP / Transformer 铺垫

✅ 学完能做什么

你能看懂任何神经网络架构图的基本结构,能解释 "深度学习为什么在 2012 年突然起飞",能把 Transformer 看成 "一种特殊结构的深度网络" 而不是魔法。

L20VIDEO

Natural Language Processing (NLP)

60min

🎯 这节课解决什么问题

LLM 出现前,NLP 是一个复杂的"任务拼盘"——分词、POS、NER、翻译、问答,每种任务一个专门的小模型,维护成本极高。LLM 出现后,这些任务几乎都能用一个模型 + prompt 搞定。理解这个转折,你就知道为什么传统 NLP 工具链正在被淘汰。

📖 你将学到

  • 传统 NLP Pipeline — Tokenization → POS Tagging → NER → Parsing → Task-specific Model,每一步一个小模型
  • LLM 一招通吃 — 分词 / 分类 / 翻译 / 问答 / 摘要 全部一个 prompt 搞定,为什么能做到
  • 传统 NLP 还有用吗 — 极低延迟(搜索引擎分词)和严格可解释(合规)场景传统工具仍然更快更准

💡 适合谁

过去学过传统 NLP(jieba / NLTK / SpaCy)的工程师,想搞清楚"为什么这些工具最近这么冷"。或者完全没学过 NLP 想直接跳到 LLM 时代的人。

📦 课程包含

  • 60 分钟视频覆盖 NLP 任务全景
  • 传统 NLP vs LLM 任务映射表
  • "通用 LLM vs 专用小模型" 何时选哪个

✅ 学完能做什么

你能判断一个 NLP 任务该用 LLM 还是传统工具,能理解 "为什么 LLM 能做所有 NLP 任务但不是每个任务都该用 LLM",这是成本优化的基础认知。

L21VIDEO

Transformer and Attention

60min

🎯 这节课解决什么问题

所有现代 LLM(GPT / Claude / Llama / Gemini)都基于 Transformer。看论文、看模型架构图、读 Anthropic / OpenAI 技术博客,你都会撞到 "Self-Attention"、"Multi-Head"、"Q·K·V"这些术语。这节课把 "Attention is All You Need" 论文的核心贡献讲透——没有公式,只有直觉。

📖 你将学到

  • RNN/LSTM 为什么不够 — 必须按顺序处理,GPU 利用率低,长距离依赖会"忘",这是 Transformer 取代它们的根本原因
  • Self-Attention 直觉 — 每个 token 同时看到整个序列,不需要"一个一个读",这是 GPU 并行的前提
  • Q·K·V 比喻 — Query = 搜索关键词、Key = 网页标题、Value = 网页内容,用搜索引擎类比一次看懂

💡 适合谁

看过 Transformer 架构图但一直没完全搞懂的工程师。或者想读懂 LLM 相关论文摘要的技术从业者。

📦 课程包含

  • 60 分钟视频 + 零公式
  • RNN vs Transformer 并行能力对比图
  • Q·K·V 的搜索引擎类比
  • "Attention 是 Scaling Law 的物理基础" 完整论证
  • 衔接 L22 llm-concepts Lab 可视化练习

✅ 学完能做什么

你能向同事用 5 句话解释 "Transformer 为什么取代 RNN",能看懂任何 LLM 论文里的 Attention 相关段落,能理解为什么 Transformer 是支撑 GPT-3 / GPT-4 / Claude 4 的核心架构。

L22🧪 LAB

Lab: LLM Concepts — Attention & Tokens

30min

🎯 这节课解决什么问题

上一节你学了 Attention 的理论,但"听过"和"看过" 差一截。这个 Lab 让你亲眼看 Attention 权重分布 + Token 拆分 —— 当你输入一句话,Transformer 内部到底怎么"读"它?10 分钟让你把所有 Transformer 术语从抽象变成可视化。

📖 你将学到

  • Token 可视化 — 你输入的句子被拆成几个 token?每个 token 怎么变成向量?context window 到底是什么感觉
  • Attention 热力图 — 输入一句话,看 Self-Attention 权重矩阵——每个 token 在"关注"哪些其他 token
  • Multi-Head 差异 — 同一个 attention 层不同 head 关注完全不同的语义信息

💡 适合谁

想把 Transformer 从"数学公式"变成"可观察现象"的工程师。视觉学习者特别受益,10 分钟的动手胜过读 10 篇博客。

📦 课程包含

  • 1 个浏览器内互动 Lab(LLM Lab: llm-concepts)
  • Token 拆分 + Attention 热力图两个交互面板
  • 3 个不同句子的对比实验
  • 约 30 分钟动手时间

✅ 学完能做什么

"Self-Attention"、"Multi-Head"、"Context Window" 这些词你看到都有视觉化的直觉,不再是 paper 里的符号。下次读 Anthropic 的 Interpretability 博客(他们经常可视化 attention)你不会再跳过技术段落。

L23VIDEO

Language Models (LM)

60min

🎯 这节课解决什么问题

"Language Model" 这个词被用得太随意——n-gram 是 LM、LSTM 是 LM、GPT 也是 LM。它们本质上在做同一件事:预测下一个 token。但从 n-gram 到 GPT 中间跨越了 50 年。搞清楚这个演化路径,你才能理解 Scaling Law 为什么这么震撼。

📖 你将学到

  • 三代语言模型 — 统计(n-gram)→ 神经(word2vec / LSTM)→ Transformer(GPT / BERT),每一代解决的痛点是什么
  • Perplexity 指标 — 怎么衡量一个语言模型"好不好",为什么越低越好
  • Scaling Law — OpenAI 2020 论文的核心发现:模型 + 数据 + 算力 都堆上去,效果呈幂律提升——这是 GPT-3 / GPT-4 军备竞赛的理论基础
  • 涌现能力 — 为什么 Scaling 到一定规模模型会"突然"会做某些事

💡 适合谁

想理解"为什么大家都在堆参数量"的技术从业者。Scaling Law 不是营销概念,是真实的可验证规律,理解它你就能预测未来 5 年的模型演化。

📦 课程包含

  • 60 分钟视频覆盖 LM 定义 + 三代演化 + Scaling Law
  • Perplexity 直观讲解 + 真实对比数据
  • 涌现能力的 5 个经典例子

✅ 学完能做什么

你能解释"为什么 Llama 3 405B 比 70B 强"(不只是"参数多",是 Scaling Law 的可预测性),能读懂 Kaplan 等人的 Scaling Law 论文的结论,能判断下一代模型大概率在哪个方向突破。

L24VIDEO

The Transformer Architecture

60min

🎯 这节课解决什么问题

Transformer 的完整结构图上有一堆模块:Embedding、Positional Encoding、Multi-Head Attention、Add & Norm、Feed-Forward、Residual Connection——每一个都有明确的角色。这节课把整张图拆开讲清楚,你就能看懂 90% 的 LLM 论文架构章节。

📖 你将学到

  • 一个 Transformer Block 的组件 — Attention + FFN + 两次 Add & Norm 的完整流程
  • 三种 Transformer 变体 — Encoder-only(BERT)/ Decoder-only(GPT)/ Encoder-Decoder(T5),各自适合什么任务
  • 为什么现在都是 Decoder-only — GPT / Claude / Llama / Mistral 全选了这条路线的原因
  • 残差连接的关键作用 — 没有残差,100+ 层的 LLM 根本训不起来

💡 适合谁

看 LLM 论文看到 "architecture" 章节就跳过的工程师。这节课帮你把跳过的段落补回来。

📦 课程包含

  • 60 分钟视频 + 完整 Transformer 架构图分解
  • Encoder / Decoder / Encoder-Decoder 三变体对比
  • 残差连接 + LayerNorm 的作用图解
  • BERT / GPT / T5 的典型应用场景

✅ 学完能做什么

你能看懂 GPT-4 / Claude / Llama 的架构图每一个模块在做什么,能解释为什么现代 LLM 都是 Decoder-only,能和 ML 工程师讨论 "为什么残差连接让深层网络可训"。

L25VIDEO

Input Embeddings

60min

🎯 这节课解决什么问题

LLM 不直接处理文字——它处理数字。Tokenizer 把文字变数字,Embedding 把数字变向量,Positional Encoding 告诉模型"谁在前谁在后"。这三步决定了 LLM 怎么"读"你的 prompt,也决定了你的 API 账单。理解它你就知道为什么一个中文字比一个英文单词贵 2 倍。

📖 你将学到

  • BPE 分词器 — 常用词一个 token、生僻词拆 subword,英文 1.3 token / 词,中文 1.5-2 token / 字
  • Embedding 矩阵 — 50K 词表 × 1536 维 = 一张超大查表,训练时一起学
  • Positional Encoding — 从原始 sin/cos 到现代 RoPE,为什么位置信息必须手动加
  • Context Window 的上限由来 — Attention O(n²) 复杂度 + 训练长度限制,为什么不能无限扩

💡 适合谁

想搞懂 "为什么我的 API 账单里 token 数和字数对不上" 的工程师。这节课让你对 token 计费有精确直觉。

📦 课程包含

  • 60 分钟视频覆盖 Tokenizer / Embedding / Positional Encoding
  • 中英文 token 数对比表
  • OpenAI tokenizer 在线工具使用教程
  • Context Window 从 GPT-3 的 2K 到 Claude 的 1M 的演化史

✅ 学完能做什么

你能精确预估一段文字会消耗多少 token,能决定什么时候该 RAG 什么时候能直接塞长 context,能理解 "为什么 1M context 很贵"——这是成本优化的底层知识。

Part 3 — Prompt 进阶 + 第一个 GPT(L26-L46)
21 节课
L26VIDEO

Prompting

60min

🎯 这节课解决什么问题

基础 prompt 你已经会写了——R-T-C-E 框架、给例子、加约束。但遇到复杂推理任务(数学题、多步决策、代码调试)基础写法不够用。这节课给你 4 个进阶技巧:CoT、Self-Consistency、ToT、ReAct,每个都有明确的适用场景。

📖 你将学到

  • Chain-of-Thought — "请一步一步分析" 这一句话为什么能让数学题准确率翻倍
  • Self-Consistency — 采样 5 次投票,贵但稳,适合高精度场景
  • Tree-of-Thought — 多候选 + 自评价 + 搜索,适合数独、24 点、路径规划
  • ReAct — Thought + Action + Observation 循环,这就是 Agent 的骨架
  • 技巧选型决策树 — 什么场景用哪个,别滥用

💡 适合谁

基础 prompt 已经熟练、想把 LLM 用在需要"推理"的任务上的工程师。

📦 课程包含

  • 60 分钟视频覆盖 4 大进阶技巧
  • 每个技巧的"有 vs 无" prompt 对比
  • 真实案例:CoT 在 GSM8K 数学题上的准确率提升数据
  • 衔接 L27 chain-of-thought Lab 动手练习

✅ 学完能做什么

你能把需要多步推理的复杂任务从"LLM 做不来"变成"LLM 能做但要加 CoT"。面对任何新任务你都知道该用 4 种技巧里的哪一个,不用瞎试。

L27🧪 LAB

Lab: Chain-of-Thought

30min

🎯 这节课解决什么问题

CoT 听起来很玄——"让 LLM 一步一步想"。但它到底能把准确率从多少提到多少?你亲眼看一次才有真实感受。这个 Lab 给你一道数学题,分别用 "直接问" 和 "加 CoT" 两种 prompt 跑,准确率差异让你服气。

📖 你将学到

  • 直接问 vs CoT 对比 — 同一道数学题两种 prompt 的输出完全不同
  • "请一步一步分析" 的魔法短语 — 为什么这一句话的效果能超过很多复杂技巧
  • CoT 的局限 — 太简单的任务不需要 CoT,反而会浪费 token

💡 适合谁

想把 CoT 从"听过"变成"会用"的工程师。做完这个 Lab 你永远不会忘记 "step-by-step" 是最便宜最好用的 prompt 技巧。

📦 课程包含

  • 1 个浏览器内互动 Lab(Prompt Lab: chain-of-thought)
  • 5 个数学题 / 逻辑题对比场景
  • CoT vs 直接问的准确率实时统计
  • 约 30 分钟动手时间

✅ 学完能做什么

下次遇到任何需要推理的任务,你会自动加上 "请一步一步分析" 这一句话。这是你整个 AI Engineer 生涯里用得最多的一个技巧。

L28VIDEO

Fine-Tuning

60min

🎯 这节课解决什么问题

"为什么不 Fine-tune 一个自己的 GPT?" 是每个新入门的人都会问的问题。但 99% 的情况 Fine-tune 是错的选择——贵、慢、容易废。这节课给你一个明确的决策树:Prompt Engineering → RAG → Fine-tune,什么时候该跳到下一级。

📖 你将学到

  • 三种方案成本对比 — Prompt(小时级开发)vs RAG(天级)vs Fine-tune(周级 + 训练费)
  • 决策树 — 问题能改 prompt 解决吗?不行就上 RAG,还不行才 Fine-tune,反着来就是烧钱
  • LoRA / QLoRA 低成本微调 — 为什么消费级 GPU 也能微调 7B 模型,内存占用降 10 倍以上
  • Fine-tune 该做什么不该做什么 — 学行为模式(风格 / 格式)可以,灌新知识不要用 Fine-tune

💡 适合谁

老板跟你说"我们 Fine-tune 一个模型吧"的工程师。这节课帮你判断这个想法是不是对的,以及如何有礼貌地说服老板改用 RAG。

📦 课程包含

  • 60 分钟视频 + 完整决策树
  • 三种方案的真实成本估算
  • LoRA / QLoRA 技术原理(无公式)
  • 衔接 L29 fine-tuning-qlora Lab 实操

✅ 学完能做什么

面对任何"要不要 Fine-tune"的需求,你能在 5 分钟内给出判断 + 替代方案。这会在公司里直接节省几万到几十万的算力费。

L29🧪 LAB

Lab: Fine-Tuning with LoRA / QLoRA

30min

🎯 这节课解决什么问题

Full Fine-tuning 一个 7B 模型需要 24GB+ GPU,大部分人没有。LoRA 用一个巧妙的技巧绕开这个限制:冻结原模型、只训一个小 adapter 矩阵。QLoRA 更狠,先把原模型 4-bit 量化再训 adapter。这个 Lab 让你亲手跑一次 QLoRA 微调流程。

📖 你将学到

  • LoRA 原理 — 在原权重矩阵旁加一个 low-rank 分解的 adapter,训练时只调 adapter
  • QLoRA 更省 — 16-bit 权重压到 4-bit,24GB 显存能微调 65B 的 Llama 2
  • 训练一个小数据集 — 用 10-50 条样本做 instruction tuning,观察模型行为变化
  • 评估 adapter 效果 — 怎么知道微调有没有用

💡 适合谁

手头有一点 GPU 资源(或者想用 Colab / Modal 免费 GPU)想第一次试 Fine-tune 的工程师。或者想在简历上写"做过 LLM 微调"的人。

📦 课程包含

  • 1 个浏览器内互动 Lab(LLM Lab: fine-tuning-qlora)
  • HuggingFace TRL + PEFT 完整代码
  • 训练数据样本 + 评估脚本
  • 约 30 分钟动手时间

✅ 学完能做什么

你能在 Colab / Modal 上跑通一个 7B 模型的 QLoRA 微调,能判断一个业务场景值不值得微调,能在面试时自信地说"我做过 LoRA 微调"。

L30VIDEO

RAG 1 — Core Components

60min

🎯 这节课解决什么问题

RAG 这个词你听了 10 遍了,但真去搭一个你不知道从哪开始——Loader?Splitter?Embedder?每个都是什么?哪个必须要、哪个可以跳过?这节课把 RAG 拆成 6 个核心组件,每个组件讲清楚"做什么 + 选型 + 常见坑"。

📖 你将学到

  • 6 大核心组件 — Loader → Splitter → Embedder → Vector Store → Retriever → Prompt Assembly,少一个都不行
  • 每个组件的选型矩阵 — Loader: LlamaParse / Unstructured / PyPDF;Splitter: Recursive / Semantic;Embedder: OpenAI / BGE / Cohere;Store: Pinecone / Qdrant / Chroma
  • Chunk 大小的权衡 — 太小语义丢,太大注意力稀释,500-800 字 + 100-200 字 overlap 是起步推荐
  • 最小 Prompt 组装模板 — 怎么把 chunks + question 拼成 LLM 能用的 prompt

💡 适合谁

听过 RAG 但没搭过的工程师。这节课是你从 0 到 1 的基础,后面 15 节 RAG 相关课都建立在这 6 个组件上。

📦 课程包含

  • 60 分钟视频 + 完整组件图
  • 每个组件的工具选型矩阵
  • Chunk 策略的真实案例对比
  • 衔接 L31 rag-feature-pipeline Lab 动手搭

✅ 学完能做什么

你能画出一个完整的 RAG 系统架构图并解释每个组件的作用,能独立做选型决策。后面 L37 Project 2 "RAG from Scratch" 的基础就是这节课。

L31🧪 LAB

Lab: RAG Feature Pipeline

30min

🎯 这节课解决什么问题

上一节你学了 RAG 的 6 个组件,这个 Lab 让你动手搭前 4 个——Loader / Splitter / Embedder / Vector Store。这一步叫 "Ingestion Pipeline",是所有 RAG 系统的离线起点。跑完你会发现原来 RAG 的 Ingestion 没那么神秘。

📖 你将学到

  • Loader 实操 — 用 LlamaParse 或 PyPDF 把一份 PDF 变成纯文本
  • Splitter 实操 — 用 LangChain RecursiveCharacterTextSplitter 切 chunk,观察切分效果
  • Embedder + Store 组合 — OpenAI embedding → ChromaDB,一个完整的 ingest 流程

💡 适合谁

想第一次亲手搭 RAG ingestion 的工程师。做完这个你对 RAG 的前半段就有完整的信心。

📦 课程包含

  • 1 个浏览器内互动 Lab(LLM Lab: rag-feature-pipeline)
  • 3 份真实 PDF 样本
  • 完整可运行的 ingestion Python 代码
  • 约 30 分钟动手时间

✅ 学完能做什么

你能独立写一个从 PDF 到 ChromaDB 的 ingestion 脚本,这是所有 RAG 系统的前半段。配上下一节的 Query Pipeline,你就能搭完整的 RAG 原型。

L32VIDEO

RAG 2 — Retrieval Strategies

60min

🎯 这节课解决什么问题

Naive RAG = 纯向量相似度 top-K 检索——够跑 demo 但离生产级差一截。这节课讲 4 个进阶检索策略:Hybrid Search、MMR、Re-ranking、Query Rewriting。每个都解决 Naive RAG 的一个真实痛点。

📖 你将学到

  • Hybrid Search — 向量 + BM25 加权融合,兼顾语义和关键词,解决"关键词丢失"问题
  • MMR — Maximal Marginal Relevance,既要相关又要多样,避免 top-5 全是重复内容
  • Re-ranking — 用 Cohere Rerank 做二次精排,top-K 精度提升 20%+
  • Query Rewriting — LLM 先改写用户模糊问题再检索,解决"这个怎么弄"这类无信息查询

💡 适合谁

已经搭过 Naive RAG 发现"检索不准"的工程师。这节课是你从 "能用" 到 "好用" 的关键一步。

📦 课程包含

  • 60 分钟视频 + 4 大策略详解
  • Naive vs Advanced 检索效果对比
  • 两阶段检索(粗召回 + 精排)架构图
  • 衔接 L33 rag-inference-pipeline Lab 实测

✅ 学完能做什么

你能为任何 Naive RAG 系统加上 Hybrid Search + Rerank,把检索质量拉到生产级。这是很多公司愿意付钱请 AI Engineer 做的事。

L33🧪 LAB

Lab: RAG Inference Pipeline

30min

🎯 这节课解决什么问题

上一节讲了 4 个进阶检索策略,这个 Lab 让你在浏览器里亲手对比它们的效果。同一个问题用 Similarity / MMR / Hybrid / Rerank 四种策略跑,top-5 结果有什么不同——一次看清楚。

📖 你将学到

  • 检索策略对比面板 — 4 种策略同屏显示 top-5 结果
  • MMR 多样性 — 看 top-5 从 "全是同一段落的邻居" 到 "覆盖不同主题"
  • Rerank 精度提升 — 粗召回 top-50 → 精排 top-5,准确率肉眼可见地提升

💡 适合谁

做 RAG 检索质量优化的工程师。这个 Lab 胜过读 10 篇论文。

📦 课程包含

  • 1 个浏览器内互动 Lab(LLM Lab: rag-inference-pipeline)
  • 4 种检索策略同屏对比
  • 真实文档集 + 3 个测试问题
  • 约 30 分钟动手时间

✅ 学完能做什么

你能凭直觉判断一个 RAG 系统"检索不准"的原因是在哪一步——向量召回低?BM25 缺了?没 rerank?每个问题都有对应的修复方向。

L34VIDEO

Agents

60min

🎯 这节课解决什么问题

"Agent" 这个词在 2025-2026 被用滥了,每个产品都自称 Agent。但真正能落地的 Agent 形态就那么几种:Function Calling / MCP Server / OpenAI Assistant API / LangGraph。这节课把它们从稳定性 / 开发成本 / 代表产品三个维度对比清楚,你就知道该选哪个。

📖 你将学到

  • Function Calling 基础 — 最稳定的 Agent 基础设施,OpenAI / Claude / Gemini 都支持
  • MCP Server — Anthropic 2024 提出的工具标准化协议,Claude Desktop / Cursor 都已支持
  • Claude Skills — 可复用工作流打包,适合团队协作
  • 5 种 Agent 形态对比 — 稳定性 + 开发成本 + 代表产品

💡 适合谁

听到 "我们要做个 AI Agent" 想认真做方案的工程师。或者想搞懂 MCP 为什么是 2025 最重要的协议的人。

📦 课程包含

  • 60 分钟视频覆盖 5 种 Agent 形态
  • Function Calling 完整代码示例
  • MCP Server 架构解释 + 生态现状
  • 衔接 L35 ai-agent-patterns Lab 动手

✅ 学完能做什么

面对任何 Agent 需求你能在 10 分钟内给出选型方案。你会知道 MCP 不只是"另一个协议",是类似 LSP 之于 IDE 的生态基础设施。

L35🧪 LAB

Lab: AI Agent Patterns

30min

🎯 这节课解决什么问题

上一节讲了 5 种 Agent 形态,这个 Lab 让你亲手实现一个最小的 ReAct Agent——LLM + 3 个工具 + Thought/Action/Observation 循环。跑一次你就会发现 "Agent 到底是怎么工作的"——不是魔法,是一个清晰的循环。

📖 你将学到

  • Tool Schema 定义 — 用 JSON Schema 告诉 LLM 有哪些工具可用
  • ReAct 循环 — Thought → Action → Observation 的 Python 实现
  • 终止条件 — 什么时候 Agent 该停下来,怎么避免死循环

💡 适合谁

想从 "Agent 用户" 变成 "Agent 开发者" 的工程师。做完这个 Lab 你以后看任何 Agent 框架(LangGraph / CrewAI)都不会怯场。

📦 课程包含

  • 1 个浏览器内互动 Lab(LLM Lab: ai-agent-patterns)
  • 最小 ReAct Agent 的完整 Python 代码
  • 3 个可用工具(搜索 / 计算器 / 查询)
  • 约 30 分钟动手时间

✅ 学完能做什么

你能从零写一个带 3 个工具的 Agent,不依赖 LangChain / CrewAI。这是理解所有 Agent 框架的底座。

L36VIDEO

Benefits and When to Use

60min

🎯 这节课解决什么问题

"把 LLM 上进来" 是很多公司的口号,但 LLM 不是万能的。选错场景上 LLM 是 AI Engineer 最贵的错误——不只是钱,还有产品信誉和监管风险。这节课给你 LLM 的"甜蜜区" vs "禁区" 清单,让你在老板问 "这个需求能用 AI 吗" 时能理性回答。

📖 你将学到

  • LLM 甜蜜区 — 非结构化文本处理、多轮对话、生成任务、模糊查询
  • LLM 禁区 — 精确计算、实时低延迟、100% 确定性、严监管、海量分类
  • 混合架构 — 90% 简单任务用规则 / 小 BERT,10% 复杂场景才上 LLM,降低 10 倍成本
  • 电商审核真实案例 — 怎么做到比纯 LLM 便宜 40 倍还更准

💡 适合谁

被要求 "把 LLM 接进业务" 的工程师。这节课能帮你识别哪些需求真的适合 LLM,哪些其实 regex 就够。

📦 课程包含

  • 60 分钟视频 + LLM 场景决策树
  • 甜蜜区 / 禁区 清单 + 真实案例
  • 混合架构的分层策略图

✅ 学完能做什么

面对任何 "我们来上 AI 吧" 的需求你能在 5 分钟内判断可行性,给出 "该上 LLM" 或 "别上 LLM" 的理由。这直接影响公司是不是要烧几十万的算力费。

L37INFORMATION

Define Your Success Criteria

60min

🎯 这节课解决什么问题

做 AI 项目最容易翻车的不是技术,是"没定义成功是什么"。模型跑出来看着还行 → 上线 → 用户吐槽 → 才发现评估维度不全。这节课给你一个三层评估体系,从模型层到产品层到业务层,避免"感觉还行就上线"。

📖 你将学到

  • 三层评估 — 模型层(Accuracy / F1 / Ragas)+ 产品层(CSAT / 完成率)+ 业务层(ROI / 成本节省)
  • 模型层指标 — Faithfulness / Answer Relevance / Context Precision / Hallucination Rate,Ragas 封装好
  • 产品层指标 — 为什么模型跑分 95% 还是用户不爽
  • 起步 5 指标套装 — Task Completion + Latency + Cost + 用户反馈 + Hallucination Rate,5 个指标铺一个 dashboard

💡 适合谁

要对自己的 AI 项目对老板 / 用户 / 投资人负责的人。没指标就没法迭代,没法迭代就只能永远"感觉还行"。

📦 课程包含

  • 60 分钟阅读 + 三层评估体系
  • RAG 特有的 Faithfulness 指标讲解
  • 起步 5 指标 dashboard 模板
  • 衔接 L72 llm-evaluation Lab 实操

✅ 学完能做什么

你能为任何 AI 项目定义 "成功是什么",能说服老板花时间建评估体系(而不是直接上线)。这是你从"实验者"变成"工程师"的分水岭。

L38VIDEO

Prompt Engineering: Best Practices

90min

🎯 这节课解决什么问题

L07 给你讲了 R-T-C-E 框架,这节课把框架升级成 6 条工程化准则——每一条都能解决一类真实生产 prompt 的问题。这不是"新手技巧集合",是从几百个生产级 prompt 里总结出来的铁律。

📖 你将学到

  • 准则 1 角色 + 任务 — 开头写清"你是谁、做什么",不让 LLM 猜
  • 准则 2 Few-shot 例子 — 比任何文字解释都管用,尤其是格式化输出
  • 准则 3 分隔符 — 防止 Prompt Injection,用 <<< ... >>> 包裹用户输入
  • 准则 4 结构化输出 — JSON Mode / Structured Outputs,不再用正则 parse 自然语言
  • 准则 5 "先想后答" — 显式要求 "先分析再给结论"
  • 准则 6 允许说"不知道" — 反直觉但最重要,对抗幻觉的第一道防线

💡 适合谁

已经会写基础 prompt、想写生产级 prompt 的技术从业者。这节课的准则你会反复用 10 年。

📦 课程包含

  • 90 分钟视频 + 6 大准则详解
  • 每条准则的好 vs 差 prompt 对比
  • 一个组合应用了 6 条准则的模板
  • 衔接 L39 / L40 两个动手 Lab

✅ 学完能做什么

你写的每一个生产 prompt 都会自动套用这 6 条准则,不会再犯 "LLM 输出 parse 不了" / "被 injection 攻击" / "AI 编造事实不说不知道" 这些典型错误。

L39🧪 LAB

Lab: Few-Shot

30min

🎯 这节课解决什么问题

"给 LLM 3 个例子它就能学会新的输出格式"——这是 Few-shot Learning 的魔力。但例子怎么选?放多少个?放哪个位置?这个 Lab 让你对比 Zero-shot、1-shot、3-shot 的输出差异,10 分钟让你对 Few-shot 有直觉。

📖 你将学到

  • Zero-shot vs Few-shot 差异 — 同一个任务,给 vs 不给例子的输出完全不同
  • 例子质量 > 数量 — 3 个好例子胜过 10 个水例子
  • 例子的典型性 — 覆盖边界 case 比只给 "标准" 答案有用

💡 适合谁

做数据抽取 / 分类 / 格式化输出的工程师。Few-shot 是你每天都会用的技巧。

📦 课程包含

  • 1 个浏览器内互动 Lab(Prompt Lab: few-shot)
  • Zero-shot / 1-shot / 3-shot 对比面板
  • 5 个真实任务(分类 / 抽取 / 转写)
  • 约 30 分钟动手时间

✅ 学完能做什么

你能在任何格式化输出任务上立刻想到"加 3 个例子",不再纠结"为什么 LLM 输出格式不稳"。这是从 prompt 初级到中级的标志技巧。

L40🧪 LAB

Lab: JSON Schema

30min

🎯 这节课解决什么问题

LLM 输出 JSON 是后端最头疼的事——你让它输出 JSON,它给你 ```json{...}``` 带了 markdown fence;它给你 "OK, here is the JSON: {...}" 带了解释文字;或者 JSON 本身格式就错。这个 Lab 让你用 OpenAI Structured Outputs 强制输出合法 JSON,不用再写正则兜底。

📖 你将学到

  • JSON Schema 定义 — 怎么告诉 LLM "我要的 JSON 长这样"
  • OpenAI Structured Outputs — 保证返回的 JSON 100% 符合 schema,不用再 parse 兜底
  • 嵌套结构 — 数组 / 对象 / 枚举类型怎么定义

💡 适合谁

要把 LLM 接进后端 API 的工程师。下游需要稳定的 JSON,你这里不 parse 错误就谢天谢地——这节 Lab 就是解决这个的。

📦 课程包含

  • 1 个浏览器内互动 Lab(Prompt Lab: json-schema)
  • 3 个从简单到复杂的 schema 定义
  • 普通 prompt vs Structured Outputs 对比
  • 约 30 分钟动手时间

✅ 学完能做什么

你能让 LLM 返回 100% 可 parse 的 JSON,后端代码不用写 10 行兜底逻辑。这直接让你的 LLM 应用可靠性跳一档。

L41VIDEO

Prompt Iteration through a UI

30min

🎯 这节课解决什么问题

直接在代码里改 prompt → 跑 → 看结果,一次迭代要 30 秒。用 Playground 可以压到 5 秒。这节课教你用 OpenAI / Claude / Google AI Studio 三大 Playground 做快速迭代,外加 temperature / top_p / max_tokens 这三个关键参数怎么调。

📖 你将学到

  • 三大 Playground 对比 — OpenAI(多模型对比)/ Claude Workbench(自动优化建议)/ Google AI Studio(免费 + Gemini 2.0)
  • temperature 的影响 — 0 = 确定性(数据抽取用)/ 0.7 = 默认 / 1.0+ = 创意
  • top_p 与 temperature 的区别 — 为什么一般不同时调两个
  • max_tokens 怎么估 — 设太小会截断,设太大浪费成本

💡 适合谁

每天都要写 prompt 的技术从业者。迭代速度从 30 秒到 5 秒,一天能多迭代 20 次。

📦 课程包含

  • 30 分钟视频覆盖三大 Playground 实操
  • 参数调优对不同任务的影响对比表
  • "从 Playground 到代码" 的复制流程
  • 衔接 L42 model-parameters Lab

✅ 学完能做什么

你能用 Playground 在 10 分钟内迭代出一个生产可用的 prompt,然后复制进代码立刻能跑。这个速度在做 prompt 调优时非常关键。

L42🧪 LAB

Lab: Model Parameters

30min

🎯 这节课解决什么问题

temperature / top_p / max_tokens 听起来很简单,但你可能没真正感受过它们的影响。这个 Lab 让你把同一个 prompt 在不同参数下跑几次,亲眼看到输出的稳定性 / 创意度 / 长度如何被参数精确控制。

📖 你将学到

  • Temperature 对比 — 0 / 0.3 / 0.7 / 1.0 四档同一个 prompt 跑 5 次,看输出一致性
  • top_p 采样 — 为什么 top_p 和 temperature 一般选一个调
  • max_tokens 溢出 — 故意设小让输出被截断,理解 finish_reason="length" 是什么

💡 适合谁

已经知道这些参数但没真正对比过的工程师。10 分钟让你对参数有精确的数字直觉。

📦 课程包含

  • 1 个浏览器内互动 Lab(Prompt Lab: model-parameters)
  • 4 档 temperature + 同一个 prompt 的输出对比
  • finish_reason 字段的真实 case 展示
  • 约 30 分钟动手时间

✅ 学完能做什么

面对任何 prompt 任务你能第一眼就给出 "这个用 temperature=0 / 这个用 0.7" 的判断。从此调参不再靠玄学,是有明确依据的工程决策。

L43LAB

Project — Build & Share Your First GPT in OpenAI GPT Store

120min

🎯 这节课解决什么问题

课程前 42 节课你学了 prompt / LLM / agent 基础。现在是时候交第一个作品了——在 OpenAI GPT Builder 里打造并发布你的第一个 GPT。不写代码、全程可视化配置、终点是一个 GPT Store 分享链接 + 3 个真实用户反馈。这是你以后面试时能拿出来的第一个"我做过"。

📖 你将学到

  • Step 1 选主题 — 从真实工作场景出发,3 句话能说清目标用户和边界
  • Step 2 配置 Instructions — 用 R-T-C-E 框架写 system prompt,控制在 1500 字以内
  • Step 3 上传 Knowledge — 精选 3-5 个相关文档做 knowledge base,精而不多
  • Step 4 发布与收集反馈 — 拿到 GPT Store 链接,发给 3 个真实用户,整理反馈

💡 适合谁

想在 4 周内有一个"真实上线"的 AI 作品,而不是只跑过 Jupyter Notebook 的人。面试时 "我发布过 GPT 到 GPT Store" 比 "我做过 Python tutorial" 有说服力得多。

📦 课程包含

  • 120 分钟项目指导视频
  • 4 个 Step 的详细操作流程(含截图)
  • 10 个好主题建议 + 10 个避坑的坏主题例子
  • 反馈收集模板

✅ 学完交付物

✅ 一个 GPT Store 分享链接
✅ 3 份用户真实反馈(截图 / 文字)
✅ 一份迭代总结(你根据反馈改了哪些 Instructions)
这是你整个课程的第一个可展示作品。

L44INFORMATION

ChatGPT Prompt Set

60min

🎯 这节课解决什么问题

Prompt Engineering 不是每次从零写——大部分日常任务有固定模板,你需要的是一个自己的 Prompt 库。这节课给你 5 大场景的 40+ 模板:写作、代码、数据、营销、学习,全部经过真实业务验证,可以直接复制使用。

📖 你将学到

  • 写作类模板 — 邮件改写 / 文案优化 / 长文总结
  • 代码类模板 — 代码解释 / 代码审查 / 单元测试生成
  • 数据类模板 — SQL 生成 / Excel 公式 / 数据分析
  • 营销类模板 — LinkedIn 帖子 / SEO 优化 / A/B 文案
  • 学习类模板 — 概念解释 / 测验生成 / 类比教学

💡 适合谁

每天都会用 AI 做重复任务的技术从业者。你现在可能每次都重写 prompt,这节课之后你会有一个自己的 prompt 库,开箱即用。

📦 课程包含

  • 60 分钟讲解 + 40+ 个可复制模板
  • 每个模板标注:用途 / 输入格式 / 预期输出
  • 自建 prompt 库的建议(Notion / Obsidian / Git repo)
  • 衔接 L45 business-writing Lab 动手练习

✅ 学完能做什么

你会有一份 40+ 个模板的起步 prompt 库,每次遇到重复任务直接查库不用重写。每天能省 30-60 分钟的 prompt 撰写时间。

L45🧪 LAB

Lab: Business Writing

30min

🎯 这节课解决什么问题

上一节给你 40+ 个模板,这个 Lab 让你用其中一个(Business Writing 商务写作)跑一次完整流程——改写一封真实的工作邮件,对比原版和工程化版的输出差异。10 分钟让你把模板用法变成肌肉记忆。

📖 你将学到

  • 模板怎么改 — 你拿到一个通用模板后怎么根据你的具体场景调整
  • 语气控制 — 正式 / 轻松 / 道歉 / 强势,一句话切换
  • 真实案例 — 一封"拖延交付的邮件"怎么改得专业又不失礼

💡 适合谁

每天要写英文 / 中文商务邮件的人。练习一次你就会把 AI 当成默认的邮件辅助工具。

📦 课程包含

  • 1 个浏览器内互动 Lab(Prompt Lab: business-writing)
  • 5 种真实邮件场景(道歉 / 跟进 / 拒绝 / 争取 / 感谢)
  • 模板库 + 可直接复制的 prompt
  • 约 30 分钟动手时间

✅ 学完能做什么

你能在 2 分钟内把任何工作邮件需求转成专业输出,不用再纠结"这样写会不会太生硬 / 太软"。这是每天都能省时间的技能。

L46INFORMATION

GenAI Toolbox

60min

🎯 这节课解决什么问题

AI 工具每周都在变——上周的 SOTA 这周就过时。你需要一份按场景分类的工具清单,而不是"哪个最强"的榜单。这节课给你 2026 年的主流 GenAI 工具箱,按对话 / 搜索 / 文档 / 代码 / 设计 / Agent 分类,外加个人生产力组合推荐。

📖 你将学到

  • 对话类 — ChatGPT / Claude / Gemini / Grok 各自的特色和适用场景
  • 搜索类 — Perplexity / Google AI Mode / You.com,带引用的调研利器
  • 文档类 — NotebookLM(上传 PDF 做问答、生成播客)/ Claude Projects
  • 代码类 — Cursor / Claude Code / Copilot / Windsurf 对比
  • 图像 / 视频 / 音频 / Agent — Midjourney / Runway / ElevenLabs / Replit Agent 等
  • 个人生产力最佳组合 — 月花费约 $60 的 5 件套推荐

💡 适合谁

每次在 X / 小红书看到新 AI 工具就想试试的人。这节课帮你从"工具收藏家"变成"工具使用者"——只用 3-5 个深度用好。

📦 课程包含

  • 60 分钟覆盖 30+ 工具
  • 按场景 + 按预算的选型矩阵
  • "不要用的工具" 反向清单
  • 个人生产力 5 件套组合推荐

✅ 学完能做什么

你会有一份适合自己工作的 5 件套工具组合,不再被"这个更强"的新闻动摇。深度用 5 个工具 >> 浅度用 20 个。

Part 4 — RAG 工程实战与生产部署(L47-L74)
28 节课
L47VIDEO

Understanding LLMs — Capabilities, Limits & Engineering Solutions

30min

🎯 这节课解决什么问题

LLM 再强也有天生缺陷——上下文塞不下、数学推理烂、不知道最新信息、输出不确定。这节课把 4 大硬伤列清楚,每个配一个工程化对策。理解这些,你就知道为什么 RAG / Tool Use / JSON Mode 这些技术会出现。

📖 你将学到

  • 硬伤 1 上下文溢出 → Context Compression / RAG
  • 硬伤 2 数学推理烂 → Tool Use(调计算器 / Python Interpreter)
  • 硬伤 3 知识截断 → RAG / Web Search Tool
  • 硬伤 4 输出不确定 → JSON Mode / Structured Outputs / temperature=0

💡 适合谁

已经用过 LLM 撞过墙的工程师。你知道 LLM 有问题但不知道怎么系统性解决——这节课给你一个对照表。

📦 课程包含

  • 30 分钟视频 + 4 大硬伤对照表
  • 每个硬伤的真实翻车案例
  • 对应的工程化解决方案

✅ 学完能做什么

面对 LLM 的任何"翻车"你能立刻诊断原因(上下文 / 数学 / 知识 / 确定性),然后给出对应的工程化修复方案。这是资深 AI Engineer 的日常工作。

L48VIDEO

RAG 基本架构

30min

🎯 这节课解决什么问题

前面讲的都是"最小 RAG"——一个 Loader + Vector Store + Retriever 就能跑。但企业级 RAG 架构远比这复杂。这节课给你完整的双管道架构图:Ingestion Pipeline(离线跑批)+ Query Pipeline(在线实时)+ 各层的技术栈推荐。

📖 你将学到

  • 双管道架构 — Ingestion(离线、可重跑、吞吐优先)vs Query(在线、延迟敏感、不能错)
  • Ingestion 全流程 — 源文档 → Loader → Cleaner → Splitter → Metadata → Embedder → Vector Store
  • Query 全流程 — 问题 → Query Rewriter → Embedder → Retriever → Filter → Reranker → Prompt Builder → LLM → Post-processor
  • 为什么必须分开 — 频率 / 延迟 / 可重跑 / 指标都不一样

💡 适合谁

想从"能跑 Demo RAG"跨到"能上线企业 RAG"的工程师。企业级架构和 demo 架构差的不只是量级。

📦 课程包含

  • 30 分钟视频 + 完整双管道架构图
  • 每一层的典型技术栈
  • 2026 年生产级 RAG 标准组合推荐

✅ 学完能做什么

你能画一张企业级 RAG 架构图并解释每一层的职责。面试被问 "你会怎么设计一个 RAG 系统" 你能给出完整答案。

L49VIDEO

Embedding 嵌入模型

30min

🎯 这节课解决什么问题

RAG 的效果上限很大程度由 Embedding 模型决定——embedding 不行,后面怎么优化都白搭。但 OpenAI 3-small / 3-large / Cohere v3 / BGE-M3 哪个好?中文场景怎么选?这节课给你一个选型决策框架。

📖 你将学到

  • 主流模型对比 — OpenAI / Cohere / BGE / E5 / voyage 各自的特点
  • MTEB 榜单 — Embedding 模型的权威评测榜单,选型前必看
  • Matryoshka Embeddings — 维度可截断,512 维跟 1536 维精度只差一点点,存储省 3 倍
  • Query vs Document 区分 — Cohere v3 的独特设计,检索精度明显提升
  • 选型决策 — 英文 / 中文 / 代码 / 多语言 分别推荐什么

💡 适合谁

要搭 RAG 系统但纠结 "Embedding 用哪个" 的工程师。这节课给你一个可直接用的选型流程。

📦 课程包含

  • 30 分钟视频 + 模型对比矩阵
  • MTEB 榜单使用教程
  • 中文 / 英文 / 代码 / 多语言 场景的推荐组合

✅ 学完能做什么

你能根据业务场景(语言 / 预算 / 规模 / 合规)快速决定用哪个 Embedding 模型。不再是"随便选一个 OpenAI",是有理有据的工程决策。

L50VIDEO

向量数据库

30min

🎯 这节课解决什么问题

你有 100 万向量,要在 50 毫秒内找到 top-10 最相似的——这是向量数据库解决的核心问题。但 Pinecone / Weaviate / Qdrant / ChromaDB / pgvector 哪个适合你?这节课给你一个选型决策表,外加 HNSW 索引的直观原理。

📖 你将学到

  • 6 大向量库对比 — ChromaDB(原型)/ Qdrant(中型生产)/ Pinecone(托管省心)/ Milvus(超大规模)/ pgvector(复用 PG)/ Weaviate
  • HNSW 索引原理 — 分层图搜索,O(log N) 近似最近邻,为什么能做到 50ms 查百万
  • Metadata Filter — 生产级向量库必须支持的能力:按时间 / 分类 / 作者过滤
  • 选型决策 — 原型 / 中型 / 企业 / 已有 PG / 超大规模 分别推荐什么

💡 适合谁

第一次做 RAG 选向量库的工程师。这节课让你避免"一上来就上 Pinecone"的过度选型。

📦 课程包含

  • 30 分钟视频 + 6 大向量库对比
  • HNSW 索引的可视化原理
  • Metadata Filter 代码示例
  • 选型决策流程图

✅ 学完能做什么

你能根据项目规模和团队情况选对向量库。原型用 ChromaDB 几分钟跑起来,中型生产切 Qdrant 自部署,这些决策都有依据。

L51VIDEO

Native RAG 存在的问题

30min

🎯 这节课解决什么问题

搭一个"hello world" RAG 很容易,10 行 LangChain 就够了。但上线后你会遇到一堆真实问题:召回不准、Chunk 切错、幻觉、答非所问、多跳失败。这节课把 Naive RAG 的 8 大翻车现场列清楚,让你提前知道坑在哪。

📖 你将学到

  • 召回率低 — 相关文档没检索到,解法在 Hybrid Search + Query Rewriting
  • Chunk 切断语义 — 一句话被拆两半,解法在 Semantic Splitter
  • 元数据丢失 — "2024 年的 XX" 找不到,解法在 Metadata Filter
  • 多跳问题失效 — "A 的老板的公司",解法在 Agentic RAG
  • 幻觉 — LLM 编造文档里没有的内容,解法在 Faithfulness 约束
  • top-K 依赖过重 / 无法拒答 / 查询歧义 等另外 3 个坑

💡 适合谁

已经搭过或要搭 RAG 的工程师。这节课帮你"提前踩坑",避免上线后才发现问题。

📦 课程包含

  • 30 分钟视频 + 8 大痛点详解
  • 每个痛点的真实案例 + 解决方向
  • 为 L52-L54 的 Advanced RAG 铺垫

✅ 学完能做什么

面对任何 RAG 翻车现场你能第一眼诊断属于 8 大坑里的哪一个,然后给出对应的修复方向。这是区分"搭过 RAG demo"和"做过 RAG 项目"的分水岭。

L52VIDEO

Advanced RAG & Agentic RAG

30min

🎯 这节课解决什么问题

Naive RAG 应付不了复杂问题。Advanced RAG + Agentic RAG 给你 4 个进阶技巧:Query Rewriting、Query Decomposition、HyDE、Self-RAG。加上 Agentic RAG 让 LLM 自主决定"什么时候检索、检索什么、检索几次"——从"一次性检索生成"跨到"可控的多轮推理"。

📖 你将学到

  • Query Rewriting — 把"这玩意怎么用" 改成"如何配置 Python venv 使用 .venv"
  • Query Decomposition — 把"对比 RAG 和 Fine-tune 成本" 拆成 4 个子查询并行检索
  • HyDE — 先让 LLM 生成一个假答案,用假答案检索(向量分布更接近)
  • Self-RAG — 检索后让 LLM 自评估 "相关吗?够用吗?要不要再检一次?"
  • Agentic RAG 核心思路 — 把"检索"当工具,Agent 动态决策

💡 适合谁

已经搭过 Naive RAG 发现"问题一复杂就翻车"的工程师。这节课是从"能用"到"好用"的关键一步。

📦 课程包含

  • 30 分钟视频 + 4 大技巧详解
  • Agentic RAG vs Naive RAG 成本 / 质量对比
  • 每种技巧的适用场景判断
  • 衔接 L53 agentic-rag Lab 动手

✅ 学完能做什么

你能诊断一个 RAG 系统需要哪种 Advanced 技巧,能判断什么场景值得上 Agentic RAG(贵 3-5 倍但质量提升 30-50%)。

L53🧪 LAB

Lab: Agentic RAG

30min

🎯 这节课解决什么问题

上一节讲了 Agentic RAG 的理论,这个 Lab 让你亲眼对比 Naive 和 Agentic:同一个复杂问题("去年 Q3 财报提到的三个风险,现在有几个已经发生"),Naive 检索一次就答,Agentic 会自主多次检索 + 交叉验证。差距不是一点点。

📖 你将学到

  • Naive vs Agentic 对比 — 同一复杂问题的两种输出
  • Agent 决策日志 — 看 Agent 怎么判断"我需要再检一次"
  • 成本对比 — Agentic 的延迟和 token 消耗确实更高,但质量值回票价

💡 适合谁

做企业知识库 / 高价值 RAG 应用的工程师。对这类场景 Agentic RAG 是值得投入的。

📦 课程包含

  • 1 个浏览器内互动 Lab(LLM Lab: agentic-rag)
  • Naive vs Agentic 同屏对比
  • Agent 决策日志可视化
  • 约 30 分钟动手时间

✅ 学完能做什么

你能判断一个 RAG 场景值不值得上 Agentic RAG,能向老板解释 "贵 3 倍但质量翻倍" 的取舍。这是企业 RAG 项目里最关键的决策之一。

L54VIDEO

Contextual RAG

30min

🎯 这节课解决什么问题

Anthropic 2024 年 9 月提出的 Contextual Retrieval 是近两年 RAG 领域最简单也最有效的改进——在 chunk 做 embedding 前,先用 LLM 给每个 chunk 生成一段上下文描述拼到前面。不改架构、只加一步 LLM 调用,显著降低检索失败率。

📖 你将学到

  • 问题根源 — Chunk 脱离原文后缺少上下文,"净利润增长 28%" 不知道是哪家公司哪个季度
  • Contextual 做法 — 用 LLM 给每个 chunk 生成 50-100 字的"它在原文中的位置和意义"
  • Prompt Caching 降本 — 整个文档只被 LLM 读一次(缓存),后面每个 chunk 只付"chunk + context"的钱
  • 实际效果 — 几乎不改架构,只在 ingestion 阶段多跑一次 LLM,检索准确率明显提升(具体数字见 Anthropic 原 blog)

💡 适合谁

已经有 RAG 系统想做一次"低改动高回报"优化的工程师。这是 2024 年性价比最高的 RAG 改进之一。

📦 课程包含

  • 30 分钟视频 + Contextual Retrieval 原理
  • Contextual 化的 Prompt 模板
  • 成本估算 + Prompt Caching 技巧

✅ 学完能做什么

你能给自己的 RAG 系统加上 Contextual Retrieval 这一层,几乎零架构改动但召回质量显著提升。这是可以立刻在当前项目里落地的改进。

L55LAB

Project — Build RAG from Scratch in Python

120min

🎯 这节课解决什么问题

这是课程的第二个 Project,也是最硬核的一个。不用 LangChain / LlamaIndex,纯 Python 从 0 到 1 搭 RAG——让你搞清楚每一行代码在做什么。做完这个 Project 你就是真懂 RAG 的人,以后用不用框架都由你决定。

📖 你将学到

  • 为什么不用框架 — 框架会藏太多细节,你以为你懂 RAG 其实只懂 LangChain
  • Step 1 数据准备 — 选 3-5 个 markdown 文档,写一个简单 text splitter
  • Step 2 向量化 — OpenAI embedding API 把 chunk 变向量,保存到本地
  • Step 3 检索 — 纯 numpy 实现 cosine similarity,不用任何向量库
  • Step 4 生成 + 提交 — 拼 prompt 调 chat completion,GitHub 提交完整代码

💡 适合谁

对"RAG 黑盒"不满意的工程师。做完这个 Project 你能看懂任何 RAG 框架的源代码。

📦 课程包含

  • 120 分钟完整 Project 指导
  • ~100 行纯 Python 完整代码框架
  • 数据 / 代码 / 验证 三阶段的详细步骤
  • 进阶挑战(换 FAISS / 加 metadata / 实现 Contextual RAG)

✅ 学完交付物

✅ GitHub 完整仓库(代码 + README)
✅ 3 组真实问答测试截图
✅ README 包含架构图 + 已知限制
这是第二个能写进简历的作品:不用任何 RAG 框架独立实现的 RAG 系统。

L56🧪 LAB

Lab: RAG from Scratch

30min

🎯 这节课解决什么问题

Project 2 需要你自己写代码,但如果你想先"预览"一下 RAG from Scratch 长什么样——这个 Lab 给你一个浏览器内直接能跑的最小 RAG 实现。不用配环境,5 分钟看完整流程。

📖 你将学到

  • 最小 RAG 代码 — Loader + Splitter + Embedder + Retriever + Generator 五件套的简化版
  • Cosine Similarity 实现 — 不用任何向量库,纯 numpy 怎么算相似度
  • Prompt 拼接 — 如何把 chunks + question 拼成 LLM 能用的 prompt

💡 适合谁

想在做 Project 2 之前先"看一眼完整版"的人。或者想把这段代码作为模板改造自己 RAG 系统的工程师。

📦 课程包含

  • 1 个浏览器内互动 Lab(LLM Lab: rag-from-scratch)
  • 完整可运行的最小 RAG 代码
  • 每一步的详细注释
  • 约 30 分钟动手时间

✅ 学完能做什么

你会有一段 100 行以内的 RAG 模板代码可以随时拿来改造。配上 Project 2 的深度练习,你对 RAG 的理解会跳一个级别。

L57INFORMATION

RAG Builder Toolbox

60min

🎯 这节课解决什么问题

自己从零搭 RAG 是学习用的——真要做生产系统通常会用框架。但 LangChain / LlamaIndex / Haystack / Cohere Chat 哪个适合你?这节课给你选型表:每个框架的强项 / 弱项 / 代表场景。

📖 你将学到

  • LangChain — 生态最广 / LCEL 组合性好 / LangSmith / LangGraph,但抽象层厚、版本混乱
  • LlamaIndex — 文档 RAG 最专、索引种类多,但 Agent 能力弱于 LangGraph
  • Haystack — 企业级 Pipeline 清晰、模块化,但生态小
  • Cohere Chat — 托管服务几行代码上线、内置 Rerank / Citations,但绑定 Cohere
  • LCEL 核心语法 — prompt | model | parser 这种 pipe 风格,学会这个看懂 LangChain 90%

💡 适合谁

纠结 "RAG 该用哪个框架" 的工程师。这节课给你决策依据,不再盲选。

📦 课程包含

  • 60 分钟视频 + 4 大框架对比
  • LCEL 语法速成
  • LlamaIndex 三行 RAG 代码示例
  • 选型建议(原型 / workflow / 企业 / 托管 分别推荐)

✅ 学完能做什么

你能根据项目特点快速选框架。快速原型上 LlamaIndex,复杂 workflow 上 LangGraph,不想运维上 Cohere Chat——每个决策都有理由。

L58🧪 LAB

Lab: LLM Tooling Comparison

30min

🎯 这节课解决什么问题

同样一个 RAG 需求,用 LangChain 写 100 行,用 LlamaIndex 写 30 行,用 Haystack 写 50 行——代码量和灵活度的差别肉眼可见。这个 Lab 让你亲手对比三种框架的同一个实现,10 分钟让你有选型直觉。

📖 你将学到

  • 同任务三实现 — 一个简单的 PDF 问答任务,三种框架分别写
  • 代码量对比 — LlamaIndex 最短、LangChain 最灵活、Haystack 最结构化
  • 调试体验 — 出错时每个框架的信息清晰度完全不同

💡 适合谁

想在 RAG 框架上"下一个决定"的工程师。对比一次胜过读 10 篇对比文章。

📦 课程包含

  • 1 个浏览器内互动 Lab(LLM Lab: llm-tooling)
  • 同一个 RAG 任务的三种框架实现
  • 代码量 / 灵活度 / 调试体验对比
  • 约 30 分钟动手时间

✅ 学完能做什么

你能凭直觉判断"这个项目用哪个框架",不再纠结"听说 LangChain 复杂"、"听说 LlamaIndex 只能做文档"。自己跑过对比后你有真实的判断依据。

L59INFORMATION

AI Resource Hub

60min

🎯 这节课解决什么问题

AI 领域每周都有新东西——新模型、新框架、新技巧。信息爆炸时代最重要的能力不是"看得多",是"看得对"。这节课给你一份 AI Engineer 必逛的信息源清单,按每日 / 每周 / 每月 / 每季度分层,帮你建立可持续的跟进节奏。

📖 你将学到

  • 必逛平台 — HuggingFace / Papers with Code / LMSYS Arena / arxiv-sanity / GitHub Trending
  • 必订阅周刊 — The Batch(Andrew Ng)/ Import AI / Latent Space / Simon Willison / 官方 blog
  • 社交平台跟进 — X 上跟谁 / Reddit 哪些 sub / Discord 哪些群
  • 学习节奏 — 每天 15 分钟 / 每周 30 分钟 / 每月 2-3 小时精读 / 每季度重建技术栈
  • 信息过滤原则 — 只看有 code 的内容、警惕 benchmark 刷榜、重工具轻理论

💡 适合谁

有信息焦虑的 AI 从业者。这节课帮你从"不停刷 Twitter"变成"有计划地跟进",学到的更多焦虑更少。

📦 课程包含

  • 60 分钟覆盖完整信息源清单
  • 按频率分层的学习节奏建议
  • 信息过滤的 4 条原则
  • "不要试图全学" 的心法

✅ 学完能做什么

你会有一套可持续的 AI 学习节奏表,知道每天看什么每周看什么每月深入什么,不再被"这个新工具我还没看"的焦虑困扰。

L60VIDEO

What Are API Rate Limits? — OpenAI

30min

🎯 这节课解决什么问题

你写好了应用,上线前跑了几次都 OK——上线后用户一多立刻 429 错误。OpenAI 的 Rate Limit 不是"请求数"这么简单,它有 RPM / TPM / RPD / Batch 四个维度,任何一个超了都触发 429。这节课帮你搞清楚完整机制 + 正确的退避策略。

📖 你将学到

  • 4 个限额维度 — RPM(请求/分钟)/ TPM(token/分钟)/ RPD(请求/天)/ Batch(独立额度)
  • Tier 升级机制 — OpenAI 根据消费 + 账户时长自动升 Tier,不需要申请
  • 429 退避策略 — Exponential backoff + 随机抖动的标准实现
  • 生产级优化 — 多 Key 池化 / Azure 兜底 / 客户端 rate limiter / Batch API 半价

💡 适合谁

要把 LLM 应用上生产环境的工程师。没处理过 Rate Limit 的人,用户一多就吃瘪。

📦 课程包含

  • 30 分钟视频 + 4 大限额详解
  • 退避策略的完整 Python 代码
  • 生产级优化 checklist
  • 衔接 L61 cost-optimization Lab

✅ 学完能做什么

你能写一个生产级的 API 调用 wrapper,自动处理 429、自动重试、自动降级。上线后用户量涨 10 倍也能扛住。

L61🧪 LAB

Lab: Cost Optimization

30min

🎯 这节课解决什么问题

LLM 应用的成本可以非常快地失控——一个客服机器人一个月烧几万块很常见。这个 Lab 让你亲手实现 4 大降本策略:小模型分流 / Prompt Caching / Batch API / 语义缓存。对比优化前后的成本数字,让你知道"调 prompt 也是调成本"。

📖 你将学到

  • 小模型分流 — 简单请求走 mini 模型,复杂的才上旗舰
  • Prompt Caching — 把"静态"部分放前面,缓存打折
  • 语义缓存 — 类似 query 直接返回,命中率能到 30%+
  • 成本对比 — 优化前后的真实 token 和费用数据

💡 适合谁

看到每月 OpenAI 账单吓一跳的工程师。或者老板说"这个成本降不下来我们就下线"的团队。

📦 课程包含

  • 1 个浏览器内互动 Lab(Prompt Lab: cost-optimization)
  • 4 大降本策略的实际对比
  • 优化前后成本 dashboard
  • 约 30 分钟动手时间

✅ 学完能做什么

你能把一个月 $10000 的 LLM 账单砍到 $3000,同时保持质量不下降。这是 AI Engineer 在公司里最被看重的能力之一。

L62VIDEO

Azure OpenAI — Quotas, Rate Limiting, and PTUs

30min

🎯 这节课解决什么问题

企业为什么不直接用 OpenAI 而要用 Azure OpenAI?三个原因:数据驻留 / 企业合规 / 配额保障。这节课把 Azure OpenAI 的 Standard vs PTU 讲清楚,外加选 Region 和企业部署的常见坑——如果你在企业里做 AI 项目,这是绕不过去的。

📖 你将学到

  • Standard vs PTU — 按量 vs 预付容量,延迟 / 吞吐 / 价格差异
  • Region 选择优先级 — 数据驻留合规 → 模型可用性 → 延迟
  • 多国合规 — 新加坡 PDPA / 日本 APPI / 澳洲 Privacy Act / 欧盟 GDPR / 美国 HIPAA
  • Deployment 概念 — Azure 里调用模型要先创建 Deployment,和 OpenAI 直接调的差异
  • 企业部署常见坑 — 初始配额太小 / Content Filter 误拦 / PTU 起步贵 / Region 模型不同步

💡 适合谁

在大公司 / 金融 / 医疗 / 政府这类严监管环境做 AI 项目的工程师。这节课的每一个坑你都迟早会踩。

📦 课程包含

  • 30 分钟视频 + Azure OpenAI 完整概念
  • Standard vs PTU 决策表
  • Region 选择决策流程
  • 企业部署 checklist

✅ 学完能做什么

你能为公司设计一个符合合规要求的 Azure OpenAI 部署方案。面对"数据不能出 XX 国"的硬约束你知道怎么满足。

L63VIDEO

PDF Parsing

30min

🎯 这节课解决什么问题

企业 RAG 最常见的文档格式是 PDF,而 PDF 解析是最容易翻车的一环。选错工具,后面所有优化都白搭。这节课给你 PyPDF / PDFPlumber / Unstructured / LlamaParse / Azure DI / GPT-4V 六种工具的选型对比,外加扫描件 / 多栏 / 表格的特殊处理。

📖 你将学到

  • 6 种 PDF 工具对比 — 纯文本 / 表格 / 扫描件 / 多栏 各自的胜出者
  • 纯文字 PDF — PyPDF 或 PDFPlumber 免费够用
  • 复杂表格 PDF — LlamaParse 或 Azure DI,输出 markdown 表格最干净
  • 扫描件 PDF — OCR(Tesseract / PaddleOCR)vs GPT-4V 的选择
  • 多栏文档 — 为什么 PyPDF 会读乱,怎么保留 layout 信息

💡 适合谁

要做企业文档 RAG 的工程师。公司给你一堆 PDF 让你做问答,前 1 小时你会卡在"怎么把 PDF 变成干净文本"——这节课让你跳过这个坑。

📦 课程包含

  • 30 分钟视频 + 6 工具对比矩阵
  • 3 种场景(纯文字 / 表格 / 扫描)的推荐组合
  • LlamaParse 代码示例
  • 多栏 / OCR 的进阶处理

✅ 学完能做什么

你能为任何 PDF 场景选对工具。纯文字 PDF 秒跑、复杂表格用 LlamaParse、扫描件 OCR + Vision 双路兜底——每种都有明确路径。

L64VIDEO

Invoice Processing

30min

🎯 这节课解决什么问题

发票抽取是企业 AI 落地最高频的场景之一——每家公司都有一堆 PDF / 图片发票要录入系统。这节课给你完整的 LLM + Vision 抽取流程,包括多国税制(澳洲 GST / 新加坡 GST / 日本消费税 / 美国 Sales Tax / 马来西亚 SST / 中国增值税 / 欧盟 VAT)的处理方式。

📖 你将学到

  • 抽取流程 — PDF / 图片 → OCR 或 Vision → GPT-4o + JSON Schema → 结构化数据
  • 通用 Schema 设计 — country + currency + tax_id + tax_rate + amount 字段组合,支持多国
  • 7 地区税制对照 — AU / SG / JP / US / MY / CN / EU,税种 / 税号 / 备注
  • 3 个常见坑 — 多税率混合 / 货币符号歧义 / 日中发票特殊版式
  • 准确率实测 — GPT-4o + JSON Schema 在清晰英文发票上 95-98%

💡 适合谁

在企业里被要求"自动化发票录入"的 AI Engineer。或者做跨境业务需要处理多国发票的团队。

📦 课程包含

  • 30 分钟视频 + 完整抽取流程
  • 通用 JSON Schema 模板(支持多国)
  • 7 地区税制对照表
  • Prompt 约束模板

✅ 学完能做什么

你能独立做一个支持多国的发票抽取系统。不管是澳洲 GST 还是日本消費税还是美国 Sales Tax,你都知道 Prompt 怎么写、Schema 怎么定、怎么避坑。

L65VIDEO

Budgeting and API Costs

60min

🎯 这节课解决什么问题

LLM 应用上线后成本很容易失控。这节课讲清 Token 计费的三档(Input / Cached / Output)+ 怎么估月度成本 + 4 大降本策略的底层逻辑。搞懂这些,你就能在 PRD 阶段就估出一个靠谱的成本数字,而不是上线后被账单吓一跳。

📖 你将学到

  • 成本三档结构 — Input / Cached Input(打折)/ Output(通常是 Input 的 3-5 倍)
  • 估算公式 — 单次成本 × DAU × 日均请求 × 30 = 月成本
  • 真实案例 — 一个客服机器人的成本拆解从 $12000 到 $3000 的优化路径
  • 4 大降本策略详解 — 小模型分流 / Prompt Caching / Batch API / 语义缓存
  • 监控指标 — 平均成本 / P99 输出 / 缓存命中率 / 模型分布

💡 适合谁

要为 LLM 项目做预算估算的 AI Engineer / 技术负责人。也适合在老板问 "这个会花多少钱" 时想给出专业回答的人。

📦 课程包含

  • 60 分钟视频 + 成本结构详解
  • 估算 Excel 模板
  • 4 大策略的实际效果数据
  • 衔接 L66 inference-optimization Lab

✅ 学完能做什么

你能为任何 LLM 项目给出靠谱的月度成本估算,能提前规划降本路径。这是 AI Engineer 进阶到"能对成本负责"的标志。

L66🧪 LAB

Lab: Inference Optimization

30min

🎯 这节课解决什么问题

推理优化听起来很高级,其实是一些可执行的具体技巧:batching / caching / model routing。这个 Lab 让你对比应用前后的吞吐和成本变化,让"降本 3-5 倍"从口号变成可验证的数字。

📖 你将学到

  • Batching — 多个请求合并成一批发送,延迟换吞吐
  • Caching — 精确缓存 + 语义缓存两层
  • Model Routing — 简单请求走 mini,复杂请求走旗舰
  • 优化前后对比 — 延迟 / 吞吐 / 成本三维度真实数据

💡 适合谁

要把 LLM 应用做到高并发 / 低成本的工程师。

📦 课程包含

  • 1 个浏览器内互动 Lab(LLM Lab: inference-optimization)
  • Batching / Caching / Routing 三种优化的对比
  • 优化效果可视化
  • 约 30 分钟动手时间

✅ 学完能做什么

你能为一个 LLM 应用设计完整的推理优化方案,从"能跑"跨到"能高并发低成本地跑"。

L67LAB

Project — Shipping a Rate-Unlimited, PDF-Upload-Ready RAG App

90min

🎯 这节课解决什么问题

这是课程的最后一个 Project,也是最接近真实工作的一个:你要做一个可以上线的 PDF RAG 应用,支持上传、处理 Rate Limit、监控 Token 成本、有前端 UI。交付物是一个可以演示给朋友看的 GitHub 仓库 + 3 分钟演示视频。

📖 你将学到

  • Step 1 Streamlit UI — 150 行代码搞定上传 + 提问 + 回答 + 引用显示
  • Step 2 Azure OpenAI 接入 — Deployment 配置 + 两个模型(embedding + chat)
  • Step 3 ChromaDB 向量存储 — 本地启动 + 多文档 ingest
  • Step 4 Rate Limit + 成本监控 — 退避重试 + 本地 token counter,让每次调用都可见
  • 进阶挑战 — 引用展示 / Cohere Rerank / Langfuse trace / 多租户

💡 适合谁

想做一个"能发给朋友试用"的真实 AI 作品的工程师。这比任何教程练习都能展示你的能力。

📦 课程包含

  • 90 分钟完整 Project 指导
  • 完整可运行的 Python 代码模板
  • Azure OpenAI 配置 + ChromaDB 启动 + Streamlit 部署流程
  • 可选的生产级进阶改造方向

✅ 学完交付物

✅ GitHub 完整仓库 + README
✅ 3 分钟演示视频
.env.example + requirements.txt
✅ 可部署到 Streamlit Cloud(免费)或 Azure Container Apps
这是你整个课程的收官作品——能用、能演示、能写进简历。

L68🧪 LAB

Lab: RAG QA Application

30min

🎯 这节课解决什么问题

Project 3 是需要你自己搭的完整 PDF RAG 应用。这个 Lab 是它的浏览器预览版——让你在 5 分钟内体验完整流程:上传 → ingest → 提问 → 看引用。跑一次你就知道 Project 3 要达到什么目标。

📖 你将学到

  • 完整 QA Application 流程 — Upload → Embed → Retrieve → Generate → Citation
  • 引用显示 — 每个回答标注是从哪个 chunk 来的,提升信任感
  • 多文档查询 — 同一个问题跨多个 PDF 找答案

💡 适合谁

要做 Project 3 之前想先"看效果"的人。或者做完 Project 3 想对比一下完整版的工程师。

📦 课程包含

  • 1 个浏览器内互动 Lab(LLM Lab: rag-qa-application)
  • 可直接上传 PDF 的 UI
  • 带引用的答案展示
  • 约 30 分钟动手时间

✅ 学完能做什么

你对 PDF RAG 应用的完整用户体验有清晰预期,做 Project 3 时知道目标在哪,不会跑到一半才发现少做了关键功能。

L69INFORMATION

End-to-End RAG Toolbox

60min

🎯 这节课解决什么问题

真实生产 RAG 系统的工具链覆盖 6 层:Ingest → Chunk → Embed → Vector Store → Retrieval → Observability。每一层都有多个选择。这节课给你一份按层分类的工具清单 + 2 个组合推荐(MVP 组合 和 企业级组合),选型时直接查表。

📖 你将学到

  • 6 层架构 — 每一层的职责和代表工具
  • Orchestration 层 — LangChain / LlamaIndex / Haystack / DSPy 的差异
  • MVP 组合推荐 — 最便宜 / 最简单 / 能跑通的搭配
  • 企业级组合 — 高并发 / 合规敏感场景的标准组合
  • 避坑指南 — 不要从 LangChain 开始入门 / 向量库别上来就 Pinecone

💡 适合谁

要做 RAG 系统选型的技术负责人 / AI Engineer。或者给老板做 PRD 要说明"技术栈为什么选这些"的人。

📦 课程包含

  • 60 分钟覆盖 6 层完整工具图
  • MVP 组合 + 企业级组合对比
  • 选型决策的 4 条原则
  • 为 L70 LangChain / L71 Production RAG 铺垫

✅ 学完能做什么

面对任何 RAG 项目的技术栈选型,你能在 10 分钟内给出完整方案。不再纠结 "这个是最好的吗",每个选择都有理由。

L70VIDEO

Introduction to LangChain

60min

🎯 这节课解决什么问题

LangChain 是 RAG / Agent 最流行的框架,也是被吐槽最多的——抽象层厚、版本变动大、学习曲线陡。这节课帮你避开这些坑,只学真正有用的部分:LCEL 语法 + 核心抽象 + LangGraph Agent。学完你就能看懂 LangChain 90% 的代码。

📖 你将学到

  • LCEL 语法prompt | model | parser 这种 pipe 风格,现代 LangChain 的核心
  • 5 个核心概念 — Runnable / Chain / Retriever / Agent / Memory
  • 完整 RAG Chain 示例 — 20 行代码跑通一个带 retriever 的 RAG
  • 要不要用 LangChain 的判断 — 适合团队项目 / 不适合小项目和性能敏感场景
  • LangGraph 现代 Agent 框架 — 用 StateGraph 做复杂 Agent 流程

💡 适合谁

想学 LangChain 但被它的复杂度吓到的工程师。这节课帮你只学"必须会"的部分,跳过 "看着都会用不到" 的抽象。

📦 课程包含

  • 60 分钟视频 + LCEL 语法速成
  • 完整 RAG Chain 的 20 行代码
  • LangGraph StateGraph 示例
  • "要不要用 LangChain" 决策表

✅ 学完能做什么

你能读懂 LangChain 90% 的生产代码,能写出一个带 Retriever 的 LCEL Chain。对于复杂 Agent,你知道用 LangGraph 不要用老的 LangChain Agent。

L71INFORMATION

Production RAG Toolbox

60min

🎯 这节课解决什么问题

Project 3 让你搭了一个能跑的 RAG。要把它变成能跑一年的生产系统,还需要 4 个能力:Evaluation / Observability / Caching / Guardrails。这节课给你一个完整工具箱 + 落地顺序建议。

📖 你将学到

  • Evaluation — Ragas — Faithfulness / Answer Relevance / Context Precision 等 RAG 特有指标
  • Observability — Langfuse — 一行代码接入,面板看每次请求的完整 trace + 成本
  • Caching — GPTCache — 精确缓存 + 语义缓存,客服场景命中率 30%+
  • Guardrails — Input / Output Guard — 防 injection / 过滤 PII / 校验 output
  • 落地顺序 — 先 trace(知道哪里有问题)→ 加 eval(量化)→ 加 cache(降本)→ 加 guard(保底线)

💡 适合谁

已经有 RAG 项目上线或准备上线的工程师。这 4 个能力不是"可选加分项",是上线后必须有的。

📦 课程包含

  • 60 分钟覆盖 4 大生产能力
  • Ragas / Langfuse / GPTCache / Guardrails 完整代码示例
  • 4 周落地计划(每周加一层)
  • 衔接 L72 llm-evaluation Lab

✅ 学完能做什么

你能为一个 Demo 级 RAG 加上生产级的 4 大能力,让它从"能跑"变成"能跑一年"。这是企业 RAG 项目从 POC 到 Production 的关键一步。

L72🧪 LAB

Lab: LLM Evaluation with Ragas

30min

🎯 这节课解决什么问题

"我觉得效果还行"不是评估。Ragas 是 RAG 评估的事实标准——用几行代码跑完 Faithfulness / Answer Relevance / Context Precision 等指标,给你一个量化的分数。这个 Lab 让你亲手用 Ragas 评估一个 RAG 系统。

📖 你将学到

  • Ragas 四大核心指标 — Faithfulness / Answer Relevance / Context Precision / Context Recall
  • 写测试集 — 30-50 条 question + ground_truth,是评估的起点
  • 跑一次评估 — 看 dashboard 上 4 个指标的真实数字
  • Prompt 改动后回归 — 改了 prompt 再跑一次,知道效果涨了还是跌了

💡 适合谁

要对 RAG 效果负责的工程师 / 产品经理。没有指标就没法迭代,有指标了才能"有依据地改"。

📦 课程包含

  • 1 个浏览器内互动 Lab(LLM Lab: llm-evaluation)
  • Ragas 4 大指标的完整代码
  • 10 条测试集示例
  • 约 30 分钟动手时间

✅ 学完能做什么

你能为自己的 RAG 系统写一个最小评估集(30 条)+ 跑 Ragas,每次改 prompt / 换模型都能量化地知道效果变化。这是资深 AI Engineer 的日常工作。

L73VIDEO

用 AWS 构建 RAG 应用

60min

🎯 这节课解决什么问题

前面讲的都是"从零搭 RAG",这节课给你另一条路线:用云厂商的全托管组件。AWS Bedrock Knowledge Base 让你只需要把文档放 S3,剩下全自动——解析 + chunk + embed + 存储都是托管的。对于"要快上线"的企业场景这是最省心的路径。

📖 你将学到

  • AWS RAG 栈 — S3 + Bedrock Knowledge Base + OpenSearch Serverless + Lambda + API Gateway
  • Knowledge Base 的价值 — 只要把文档放 S3,剩下全自动
  • retrieve_and_generate API — 一个 API 调用搞定检索 + 生成 + 引用
  • AWS vs 自建对比 — 开发时间 / 运维成本 / 定制化 / 单次成本的取舍
  • 其他云厂商方案 — Azure AI Search / GCP Vertex AI Search / Cohere Chat

💡 适合谁

已经在 AWS 生态里的企业工程师。或者要"一周上线 RAG" 不想自己维护向量库的团队。

📦 课程包含

  • 60 分钟视频覆盖完整 AWS RAG 栈
  • Knowledge Base 配置流程
  • retrieve_and_generate 完整代码
  • 自建 vs AWS 方案对比表
  • 课程收官寄语 + 下一步推荐

✅ 学完能做什么

你能为 AWS 生态的公司设计一个全托管 RAG 方案,把上线时间从"几周"压到"几天"。也能判断什么场景值得自建、什么场景该用托管。

L74🧪 LAB

Lab: Model Deployment

30min

🎯 这节课解决什么问题

课程的最后一个 Lab——模型部署。不管你用哪家云、哪个框架,最终都要把一个模型(或 LLM 应用)变成生产级 endpoint。这个 Lab 给你一个最小的部署流程 + Rate Limit / Logging / Monitoring 三件套的集成示例。

📖 你将学到

  • 最小部署流程 — 从本地代码到可调用的 HTTP endpoint
  • Rate Limit 中间件 — 防止被刷爆
  • Logging + 错误追踪 — 每次请求都可以回溯
  • Health Check — 让负载均衡器知道服务存活

💡 适合谁

想把 LLM 应用真正"上生产"的工程师。Demo 跑通是一回事,上线让几千个用户用又是另一回事——这节 Lab 帮你把中间的差距补上。

📦 课程包含

  • 1 个浏览器内互动 Lab(LLM Lab: model-deployment)
  • 从本地到生产的完整部署流程
  • Rate Limit + Logging + Health Check 模板代码
  • 约 30 分钟动手时间

✅ 学完能做什么

你能把一个 LLM 应用从 Jupyter Notebook 变成生产级 HTTP endpoint,支持速率限制、可追溯、可监控。这是课程结束时你手上应该具备的完整能力闭环。