基础 prompt 你已经会写了——R-T-C-E 框架、给例子、加约束。但遇到复杂推理任务(数学题、多步决策、代码调试)基础写法不够用。这节课给你 4 个进阶技巧:CoT、Self-Consistency、ToT、ReAct,每个都有明确的适用场景。
基础 prompt 已经熟练、想把 LLM 用在需要"推理"的任务上的工程师。
你能把需要多步推理的复杂任务从"LLM 做不来"变成"LLM 能做但要加 CoT"。面对任何新任务你都知道该用 4 种技巧里的哪一个,不用瞎试。
CoT 听起来很玄——"让 LLM 一步一步想"。但它到底能把准确率从多少提到多少?你亲眼看一次才有真实感受。这个 Lab 给你一道数学题,分别用 "直接问" 和 "加 CoT" 两种 prompt 跑,准确率差异让你服气。
想把 CoT 从"听过"变成"会用"的工程师。做完这个 Lab 你永远不会忘记 "step-by-step" 是最便宜最好用的 prompt 技巧。
下次遇到任何需要推理的任务,你会自动加上 "请一步一步分析" 这一句话。这是你整个 AI Engineer 生涯里用得最多的一个技巧。
"为什么不 Fine-tune 一个自己的 GPT?" 是每个新入门的人都会问的问题。但 99% 的情况 Fine-tune 是错的选择——贵、慢、容易废。这节课给你一个明确的决策树:Prompt Engineering → RAG → Fine-tune,什么时候该跳到下一级。
老板跟你说"我们 Fine-tune 一个模型吧"的工程师。这节课帮你判断这个想法是不是对的,以及如何有礼貌地说服老板改用 RAG。
面对任何"要不要 Fine-tune"的需求,你能在 5 分钟内给出判断 + 替代方案。这会在公司里直接节省几万到几十万的算力费。
Full Fine-tuning 一个 7B 模型需要 24GB+ GPU,大部分人没有。LoRA 用一个巧妙的技巧绕开这个限制:冻结原模型、只训一个小 adapter 矩阵。QLoRA 更狠,先把原模型 4-bit 量化再训 adapter。这个 Lab 让你亲手跑一次 QLoRA 微调流程。
手头有一点 GPU 资源(或者想用 Colab / Modal 免费 GPU)想第一次试 Fine-tune 的工程师。或者想在简历上写"做过 LLM 微调"的人。
你能在 Colab / Modal 上跑通一个 7B 模型的 QLoRA 微调,能判断一个业务场景值不值得微调,能在面试时自信地说"我做过 LoRA 微调"。
RAG 这个词你听了 10 遍了,但真去搭一个你不知道从哪开始——Loader?Splitter?Embedder?每个都是什么?哪个必须要、哪个可以跳过?这节课把 RAG 拆成 6 个核心组件,每个组件讲清楚"做什么 + 选型 + 常见坑"。
听过 RAG 但没搭过的工程师。这节课是你从 0 到 1 的基础,后面 15 节 RAG 相关课都建立在这 6 个组件上。
你能画出一个完整的 RAG 系统架构图并解释每个组件的作用,能独立做选型决策。后面 L37 Project 2 "RAG from Scratch" 的基础就是这节课。
上一节你学了 RAG 的 6 个组件,这个 Lab 让你动手搭前 4 个——Loader / Splitter / Embedder / Vector Store。这一步叫 "Ingestion Pipeline",是所有 RAG 系统的离线起点。跑完你会发现原来 RAG 的 Ingestion 没那么神秘。
想第一次亲手搭 RAG ingestion 的工程师。做完这个你对 RAG 的前半段就有完整的信心。
你能独立写一个从 PDF 到 ChromaDB 的 ingestion 脚本,这是所有 RAG 系统的前半段。配上下一节的 Query Pipeline,你就能搭完整的 RAG 原型。
Naive RAG = 纯向量相似度 top-K 检索——够跑 demo 但离生产级差一截。这节课讲 4 个进阶检索策略:Hybrid Search、MMR、Re-ranking、Query Rewriting。每个都解决 Naive RAG 的一个真实痛点。
已经搭过 Naive RAG 发现"检索不准"的工程师。这节课是你从 "能用" 到 "好用" 的关键一步。
你能为任何 Naive RAG 系统加上 Hybrid Search + Rerank,把检索质量拉到生产级。这是很多公司愿意付钱请 AI Engineer 做的事。
上一节讲了 4 个进阶检索策略,这个 Lab 让你在浏览器里亲手对比它们的效果。同一个问题用 Similarity / MMR / Hybrid / Rerank 四种策略跑,top-5 结果有什么不同——一次看清楚。
做 RAG 检索质量优化的工程师。这个 Lab 胜过读 10 篇论文。
你能凭直觉判断一个 RAG 系统"检索不准"的原因是在哪一步——向量召回低?BM25 缺了?没 rerank?每个问题都有对应的修复方向。
"Agent" 这个词在 2025-2026 被用滥了,每个产品都自称 Agent。但真正能落地的 Agent 形态就那么几种:Function Calling / MCP Server / OpenAI Assistant API / LangGraph。这节课把它们从稳定性 / 开发成本 / 代表产品三个维度对比清楚,你就知道该选哪个。
听到 "我们要做个 AI Agent" 想认真做方案的工程师。或者想搞懂 MCP 为什么是 2025 最重要的协议的人。
面对任何 Agent 需求你能在 10 分钟内给出选型方案。你会知道 MCP 不只是"另一个协议",是类似 LSP 之于 IDE 的生态基础设施。
上一节讲了 5 种 Agent 形态,这个 Lab 让你亲手实现一个最小的 ReAct Agent——LLM + 3 个工具 + Thought/Action/Observation 循环。跑一次你就会发现 "Agent 到底是怎么工作的"——不是魔法,是一个清晰的循环。
想从 "Agent 用户" 变成 "Agent 开发者" 的工程师。做完这个 Lab 你以后看任何 Agent 框架(LangGraph / CrewAI)都不会怯场。
你能从零写一个带 3 个工具的 Agent,不依赖 LangChain / CrewAI。这是理解所有 Agent 框架的底座。
"把 LLM 上进来" 是很多公司的口号,但 LLM 不是万能的。选错场景上 LLM 是 AI Engineer 最贵的错误——不只是钱,还有产品信誉和监管风险。这节课给你 LLM 的"甜蜜区" vs "禁区" 清单,让你在老板问 "这个需求能用 AI 吗" 时能理性回答。
被要求 "把 LLM 接进业务" 的工程师。这节课能帮你识别哪些需求真的适合 LLM,哪些其实 regex 就够。
面对任何 "我们来上 AI 吧" 的需求你能在 5 分钟内判断可行性,给出 "该上 LLM" 或 "别上 LLM" 的理由。这直接影响公司是不是要烧几十万的算力费。
做 AI 项目最容易翻车的不是技术,是"没定义成功是什么"。模型跑出来看着还行 → 上线 → 用户吐槽 → 才发现评估维度不全。这节课给你一个三层评估体系,从模型层到产品层到业务层,避免"感觉还行就上线"。
要对自己的 AI 项目对老板 / 用户 / 投资人负责的人。没指标就没法迭代,没法迭代就只能永远"感觉还行"。
你能为任何 AI 项目定义 "成功是什么",能说服老板花时间建评估体系(而不是直接上线)。这是你从"实验者"变成"工程师"的分水岭。
L07 给你讲了 R-T-C-E 框架,这节课把框架升级成 6 条工程化准则——每一条都能解决一类真实生产 prompt 的问题。这不是"新手技巧集合",是从几百个生产级 prompt 里总结出来的铁律。
已经会写基础 prompt、想写生产级 prompt 的技术从业者。这节课的准则你会反复用 10 年。
你写的每一个生产 prompt 都会自动套用这 6 条准则,不会再犯 "LLM 输出 parse 不了" / "被 injection 攻击" / "AI 编造事实不说不知道" 这些典型错误。
"给 LLM 3 个例子它就能学会新的输出格式"——这是 Few-shot Learning 的魔力。但例子怎么选?放多少个?放哪个位置?这个 Lab 让你对比 Zero-shot、1-shot、3-shot 的输出差异,10 分钟让你对 Few-shot 有直觉。
做数据抽取 / 分类 / 格式化输出的工程师。Few-shot 是你每天都会用的技巧。
你能在任何格式化输出任务上立刻想到"加 3 个例子",不再纠结"为什么 LLM 输出格式不稳"。这是从 prompt 初级到中级的标志技巧。
LLM 输出 JSON 是后端最头疼的事——你让它输出 JSON,它给你 ```json{...}``` 带了 markdown fence;它给你 "OK, here is the JSON: {...}" 带了解释文字;或者 JSON 本身格式就错。这个 Lab 让你用 OpenAI Structured Outputs 强制输出合法 JSON,不用再写正则兜底。
要把 LLM 接进后端 API 的工程师。下游需要稳定的 JSON,你这里不 parse 错误就谢天谢地——这节 Lab 就是解决这个的。
你能让 LLM 返回 100% 可 parse 的 JSON,后端代码不用写 10 行兜底逻辑。这直接让你的 LLM 应用可靠性跳一档。
直接在代码里改 prompt → 跑 → 看结果,一次迭代要 30 秒。用 Playground 可以压到 5 秒。这节课教你用 OpenAI / Claude / Google AI Studio 三大 Playground 做快速迭代,外加 temperature / top_p / max_tokens 这三个关键参数怎么调。
每天都要写 prompt 的技术从业者。迭代速度从 30 秒到 5 秒,一天能多迭代 20 次。
你能用 Playground 在 10 分钟内迭代出一个生产可用的 prompt,然后复制进代码立刻能跑。这个速度在做 prompt 调优时非常关键。
temperature / top_p / max_tokens 听起来很简单,但你可能没真正感受过它们的影响。这个 Lab 让你把同一个 prompt 在不同参数下跑几次,亲眼看到输出的稳定性 / 创意度 / 长度如何被参数精确控制。
已经知道这些参数但没真正对比过的工程师。10 分钟让你对参数有精确的数字直觉。
面对任何 prompt 任务你能第一眼就给出 "这个用 temperature=0 / 这个用 0.7" 的判断。从此调参不再靠玄学,是有明确依据的工程决策。
课程前 42 节课你学了 prompt / LLM / agent 基础。现在是时候交第一个作品了——在 OpenAI GPT Builder 里打造并发布你的第一个 GPT。不写代码、全程可视化配置、终点是一个 GPT Store 分享链接 + 3 个真实用户反馈。这是你以后面试时能拿出来的第一个"我做过"。
想在 4 周内有一个"真实上线"的 AI 作品,而不是只跑过 Jupyter Notebook 的人。面试时 "我发布过 GPT 到 GPT Store" 比 "我做过 Python tutorial" 有说服力得多。
✅ 一个 GPT Store 分享链接
✅ 3 份用户真实反馈(截图 / 文字)
✅ 一份迭代总结(你根据反馈改了哪些 Instructions)
这是你整个课程的第一个可展示作品。
Prompt Engineering 不是每次从零写——大部分日常任务有固定模板,你需要的是一个自己的 Prompt 库。这节课给你 5 大场景的 40+ 模板:写作、代码、数据、营销、学习,全部经过真实业务验证,可以直接复制使用。
每天都会用 AI 做重复任务的技术从业者。你现在可能每次都重写 prompt,这节课之后你会有一个自己的 prompt 库,开箱即用。
你会有一份 40+ 个模板的起步 prompt 库,每次遇到重复任务直接查库不用重写。每天能省 30-60 分钟的 prompt 撰写时间。
上一节给你 40+ 个模板,这个 Lab 让你用其中一个(Business Writing 商务写作)跑一次完整流程——改写一封真实的工作邮件,对比原版和工程化版的输出差异。10 分钟让你把模板用法变成肌肉记忆。
每天要写英文 / 中文商务邮件的人。练习一次你就会把 AI 当成默认的邮件辅助工具。
你能在 2 分钟内把任何工作邮件需求转成专业输出,不用再纠结"这样写会不会太生硬 / 太软"。这是每天都能省时间的技能。
AI 工具每周都在变——上周的 SOTA 这周就过时。你需要一份按场景分类的工具清单,而不是"哪个最强"的榜单。这节课给你 2026 年的主流 GenAI 工具箱,按对话 / 搜索 / 文档 / 代码 / 设计 / Agent 分类,外加个人生产力组合推荐。
每次在 X / 小红书看到新 AI 工具就想试试的人。这节课帮你从"工具收藏家"变成"工具使用者"——只用 3-5 个深度用好。
你会有一份适合自己工作的 5 件套工具组合,不再被"这个更强"的新闻动摇。深度用 5 个工具 >> 浅度用 20 个。