LLM 再强也有天生缺陷——上下文塞不下、数学推理烂、不知道最新信息、输出不确定。这节课把 4 大硬伤列清楚,每个配一个工程化对策。理解这些,你就知道为什么 RAG / Tool Use / JSON Mode 这些技术会出现。
已经用过 LLM 撞过墙的工程师。你知道 LLM 有问题但不知道怎么系统性解决——这节课给你一个对照表。
面对 LLM 的任何"翻车"你能立刻诊断原因(上下文 / 数学 / 知识 / 确定性),然后给出对应的工程化修复方案。这是资深 AI Engineer 的日常工作。
前面讲的都是"最小 RAG"——一个 Loader + Vector Store + Retriever 就能跑。但企业级 RAG 架构远比这复杂。这节课给你完整的双管道架构图:Ingestion Pipeline(离线跑批)+ Query Pipeline(在线实时)+ 各层的技术栈推荐。
想从"能跑 Demo RAG"跨到"能上线企业 RAG"的工程师。企业级架构和 demo 架构差的不只是量级。
你能画一张企业级 RAG 架构图并解释每一层的职责。面试被问 "你会怎么设计一个 RAG 系统" 你能给出完整答案。
RAG 的效果上限很大程度由 Embedding 模型决定——embedding 不行,后面怎么优化都白搭。但 OpenAI 3-small / 3-large / Cohere v3 / BGE-M3 哪个好?中文场景怎么选?这节课给你一个选型决策框架。
要搭 RAG 系统但纠结 "Embedding 用哪个" 的工程师。这节课给你一个可直接用的选型流程。
你能根据业务场景(语言 / 预算 / 规模 / 合规)快速决定用哪个 Embedding 模型。不再是"随便选一个 OpenAI",是有理有据的工程决策。
你有 100 万向量,要在 50 毫秒内找到 top-10 最相似的——这是向量数据库解决的核心问题。但 Pinecone / Weaviate / Qdrant / ChromaDB / pgvector 哪个适合你?这节课给你一个选型决策表,外加 HNSW 索引的直观原理。
第一次做 RAG 选向量库的工程师。这节课让你避免"一上来就上 Pinecone"的过度选型。
你能根据项目规模和团队情况选对向量库。原型用 ChromaDB 几分钟跑起来,中型生产切 Qdrant 自部署,这些决策都有依据。
搭一个"hello world" RAG 很容易,10 行 LangChain 就够了。但上线后你会遇到一堆真实问题:召回不准、Chunk 切错、幻觉、答非所问、多跳失败。这节课把 Naive RAG 的 8 大翻车现场列清楚,让你提前知道坑在哪。
已经搭过或要搭 RAG 的工程师。这节课帮你"提前踩坑",避免上线后才发现问题。
面对任何 RAG 翻车现场你能第一眼诊断属于 8 大坑里的哪一个,然后给出对应的修复方向。这是区分"搭过 RAG demo"和"做过 RAG 项目"的分水岭。
Naive RAG 应付不了复杂问题。Advanced RAG + Agentic RAG 给你 4 个进阶技巧:Query Rewriting、Query Decomposition、HyDE、Self-RAG。加上 Agentic RAG 让 LLM 自主决定"什么时候检索、检索什么、检索几次"——从"一次性检索生成"跨到"可控的多轮推理"。
已经搭过 Naive RAG 发现"问题一复杂就翻车"的工程师。这节课是从"能用"到"好用"的关键一步。
你能诊断一个 RAG 系统需要哪种 Advanced 技巧,能判断什么场景值得上 Agentic RAG(贵 3-5 倍但质量提升 30-50%)。
上一节讲了 Agentic RAG 的理论,这个 Lab 让你亲眼对比 Naive 和 Agentic:同一个复杂问题("去年 Q3 财报提到的三个风险,现在有几个已经发生"),Naive 检索一次就答,Agentic 会自主多次检索 + 交叉验证。差距不是一点点。
做企业知识库 / 高价值 RAG 应用的工程师。对这类场景 Agentic RAG 是值得投入的。
你能判断一个 RAG 场景值不值得上 Agentic RAG,能向老板解释 "贵 3 倍但质量翻倍" 的取舍。这是企业 RAG 项目里最关键的决策之一。
Anthropic 2024 年 9 月提出的 Contextual Retrieval 是近两年 RAG 领域最简单也最有效的改进——在 chunk 做 embedding 前,先用 LLM 给每个 chunk 生成一段上下文描述拼到前面。不改架构、只加一步 LLM 调用,显著降低检索失败率。
已经有 RAG 系统想做一次"低改动高回报"优化的工程师。这是 2024 年性价比最高的 RAG 改进之一。
你能给自己的 RAG 系统加上 Contextual Retrieval 这一层,几乎零架构改动但召回质量显著提升。这是可以立刻在当前项目里落地的改进。
这是课程的第二个 Project,也是最硬核的一个。不用 LangChain / LlamaIndex,纯 Python 从 0 到 1 搭 RAG——让你搞清楚每一行代码在做什么。做完这个 Project 你就是真懂 RAG 的人,以后用不用框架都由你决定。
对"RAG 黑盒"不满意的工程师。做完这个 Project 你能看懂任何 RAG 框架的源代码。
✅ GitHub 完整仓库(代码 + README)
✅ 3 组真实问答测试截图
✅ README 包含架构图 + 已知限制
这是第二个能写进简历的作品:不用任何 RAG 框架独立实现的 RAG 系统。
Project 2 需要你自己写代码,但如果你想先"预览"一下 RAG from Scratch 长什么样——这个 Lab 给你一个浏览器内直接能跑的最小 RAG 实现。不用配环境,5 分钟看完整流程。
想在做 Project 2 之前先"看一眼完整版"的人。或者想把这段代码作为模板改造自己 RAG 系统的工程师。
你会有一段 100 行以内的 RAG 模板代码可以随时拿来改造。配上 Project 2 的深度练习,你对 RAG 的理解会跳一个级别。
自己从零搭 RAG 是学习用的——真要做生产系统通常会用框架。但 LangChain / LlamaIndex / Haystack / Cohere Chat 哪个适合你?这节课给你选型表:每个框架的强项 / 弱项 / 代表场景。
纠结 "RAG 该用哪个框架" 的工程师。这节课给你决策依据,不再盲选。
你能根据项目特点快速选框架。快速原型上 LlamaIndex,复杂 workflow 上 LangGraph,不想运维上 Cohere Chat——每个决策都有理由。
同样一个 RAG 需求,用 LangChain 写 100 行,用 LlamaIndex 写 30 行,用 Haystack 写 50 行——代码量和灵活度的差别肉眼可见。这个 Lab 让你亲手对比三种框架的同一个实现,10 分钟让你有选型直觉。
想在 RAG 框架上"下一个决定"的工程师。对比一次胜过读 10 篇对比文章。
你能凭直觉判断"这个项目用哪个框架",不再纠结"听说 LangChain 复杂"、"听说 LlamaIndex 只能做文档"。自己跑过对比后你有真实的判断依据。
AI 领域每周都有新东西——新模型、新框架、新技巧。信息爆炸时代最重要的能力不是"看得多",是"看得对"。这节课给你一份 AI Engineer 必逛的信息源清单,按每日 / 每周 / 每月 / 每季度分层,帮你建立可持续的跟进节奏。
有信息焦虑的 AI 从业者。这节课帮你从"不停刷 Twitter"变成"有计划地跟进",学到的更多焦虑更少。
你会有一套可持续的 AI 学习节奏表,知道每天看什么每周看什么每月深入什么,不再被"这个新工具我还没看"的焦虑困扰。
你写好了应用,上线前跑了几次都 OK——上线后用户一多立刻 429 错误。OpenAI 的 Rate Limit 不是"请求数"这么简单,它有 RPM / TPM / RPD / Batch 四个维度,任何一个超了都触发 429。这节课帮你搞清楚完整机制 + 正确的退避策略。
要把 LLM 应用上生产环境的工程师。没处理过 Rate Limit 的人,用户一多就吃瘪。
你能写一个生产级的 API 调用 wrapper,自动处理 429、自动重试、自动降级。上线后用户量涨 10 倍也能扛住。
LLM 应用的成本可以非常快地失控——一个客服机器人一个月烧几万块很常见。这个 Lab 让你亲手实现 4 大降本策略:小模型分流 / Prompt Caching / Batch API / 语义缓存。对比优化前后的成本数字,让你知道"调 prompt 也是调成本"。
看到每月 OpenAI 账单吓一跳的工程师。或者老板说"这个成本降不下来我们就下线"的团队。
你能把一个月 $10000 的 LLM 账单砍到 $3000,同时保持质量不下降。这是 AI Engineer 在公司里最被看重的能力之一。
企业为什么不直接用 OpenAI 而要用 Azure OpenAI?三个原因:数据驻留 / 企业合规 / 配额保障。这节课把 Azure OpenAI 的 Standard vs PTU 讲清楚,外加选 Region 和企业部署的常见坑——如果你在企业里做 AI 项目,这是绕不过去的。
在大公司 / 金融 / 医疗 / 政府这类严监管环境做 AI 项目的工程师。这节课的每一个坑你都迟早会踩。
你能为公司设计一个符合合规要求的 Azure OpenAI 部署方案。面对"数据不能出 XX 国"的硬约束你知道怎么满足。
企业 RAG 最常见的文档格式是 PDF,而 PDF 解析是最容易翻车的一环。选错工具,后面所有优化都白搭。这节课给你 PyPDF / PDFPlumber / Unstructured / LlamaParse / Azure DI / GPT-4V 六种工具的选型对比,外加扫描件 / 多栏 / 表格的特殊处理。
要做企业文档 RAG 的工程师。公司给你一堆 PDF 让你做问答,前 1 小时你会卡在"怎么把 PDF 变成干净文本"——这节课让你跳过这个坑。
你能为任何 PDF 场景选对工具。纯文字 PDF 秒跑、复杂表格用 LlamaParse、扫描件 OCR + Vision 双路兜底——每种都有明确路径。
发票抽取是企业 AI 落地最高频的场景之一——每家公司都有一堆 PDF / 图片发票要录入系统。这节课给你完整的 LLM + Vision 抽取流程,包括多国税制(澳洲 GST / 新加坡 GST / 日本消费税 / 美国 Sales Tax / 马来西亚 SST / 中国增值税 / 欧盟 VAT)的处理方式。
在企业里被要求"自动化发票录入"的 AI Engineer。或者做跨境业务需要处理多国发票的团队。
你能独立做一个支持多国的发票抽取系统。不管是澳洲 GST 还是日本消費税还是美国 Sales Tax,你都知道 Prompt 怎么写、Schema 怎么定、怎么避坑。
LLM 应用上线后成本很容易失控。这节课讲清 Token 计费的三档(Input / Cached / Output)+ 怎么估月度成本 + 4 大降本策略的底层逻辑。搞懂这些,你就能在 PRD 阶段就估出一个靠谱的成本数字,而不是上线后被账单吓一跳。
要为 LLM 项目做预算估算的 AI Engineer / 技术负责人。也适合在老板问 "这个会花多少钱" 时想给出专业回答的人。
你能为任何 LLM 项目给出靠谱的月度成本估算,能提前规划降本路径。这是 AI Engineer 进阶到"能对成本负责"的标志。
推理优化听起来很高级,其实是一些可执行的具体技巧:batching / caching / model routing。这个 Lab 让你对比应用前后的吞吐和成本变化,让"降本 3-5 倍"从口号变成可验证的数字。
要把 LLM 应用做到高并发 / 低成本的工程师。
你能为一个 LLM 应用设计完整的推理优化方案,从"能跑"跨到"能高并发低成本地跑"。
这是课程的最后一个 Project,也是最接近真实工作的一个:你要做一个可以上线的 PDF RAG 应用,支持上传、处理 Rate Limit、监控 Token 成本、有前端 UI。交付物是一个可以演示给朋友看的 GitHub 仓库 + 3 分钟演示视频。
想做一个"能发给朋友试用"的真实 AI 作品的工程师。这比任何教程练习都能展示你的能力。
✅ GitHub 完整仓库 + README
✅ 3 分钟演示视频
✅ .env.example + requirements.txt
✅ 可部署到 Streamlit Cloud(免费)或 Azure Container Apps
这是你整个课程的收官作品——能用、能演示、能写进简历。
Project 3 是需要你自己搭的完整 PDF RAG 应用。这个 Lab 是它的浏览器预览版——让你在 5 分钟内体验完整流程:上传 → ingest → 提问 → 看引用。跑一次你就知道 Project 3 要达到什么目标。
要做 Project 3 之前想先"看效果"的人。或者做完 Project 3 想对比一下完整版的工程师。
你对 PDF RAG 应用的完整用户体验有清晰预期,做 Project 3 时知道目标在哪,不会跑到一半才发现少做了关键功能。
真实生产 RAG 系统的工具链覆盖 6 层:Ingest → Chunk → Embed → Vector Store → Retrieval → Observability。每一层都有多个选择。这节课给你一份按层分类的工具清单 + 2 个组合推荐(MVP 组合 和 企业级组合),选型时直接查表。
要做 RAG 系统选型的技术负责人 / AI Engineer。或者给老板做 PRD 要说明"技术栈为什么选这些"的人。
面对任何 RAG 项目的技术栈选型,你能在 10 分钟内给出完整方案。不再纠结 "这个是最好的吗",每个选择都有理由。
LangChain 是 RAG / Agent 最流行的框架,也是被吐槽最多的——抽象层厚、版本变动大、学习曲线陡。这节课帮你避开这些坑,只学真正有用的部分:LCEL 语法 + 核心抽象 + LangGraph Agent。学完你就能看懂 LangChain 90% 的代码。
prompt | model | parser 这种 pipe 风格,现代 LangChain 的核心想学 LangChain 但被它的复杂度吓到的工程师。这节课帮你只学"必须会"的部分,跳过 "看着都会用不到" 的抽象。
你能读懂 LangChain 90% 的生产代码,能写出一个带 Retriever 的 LCEL Chain。对于复杂 Agent,你知道用 LangGraph 不要用老的 LangChain Agent。
Project 3 让你搭了一个能跑的 RAG。要把它变成能跑一年的生产系统,还需要 4 个能力:Evaluation / Observability / Caching / Guardrails。这节课给你一个完整工具箱 + 落地顺序建议。
已经有 RAG 项目上线或准备上线的工程师。这 4 个能力不是"可选加分项",是上线后必须有的。
你能为一个 Demo 级 RAG 加上生产级的 4 大能力,让它从"能跑"变成"能跑一年"。这是企业 RAG 项目从 POC 到 Production 的关键一步。
"我觉得效果还行"不是评估。Ragas 是 RAG 评估的事实标准——用几行代码跑完 Faithfulness / Answer Relevance / Context Precision 等指标,给你一个量化的分数。这个 Lab 让你亲手用 Ragas 评估一个 RAG 系统。
要对 RAG 效果负责的工程师 / 产品经理。没有指标就没法迭代,有指标了才能"有依据地改"。
你能为自己的 RAG 系统写一个最小评估集(30 条)+ 跑 Ragas,每次改 prompt / 换模型都能量化地知道效果变化。这是资深 AI Engineer 的日常工作。
前面讲的都是"从零搭 RAG",这节课给你另一条路线:用云厂商的全托管组件。AWS Bedrock Knowledge Base 让你只需要把文档放 S3,剩下全自动——解析 + chunk + embed + 存储都是托管的。对于"要快上线"的企业场景这是最省心的路径。
已经在 AWS 生态里的企业工程师。或者要"一周上线 RAG" 不想自己维护向量库的团队。
你能为 AWS 生态的公司设计一个全托管 RAG 方案,把上线时间从"几周"压到"几天"。也能判断什么场景值得自建、什么场景该用托管。
课程的最后一个 Lab——模型部署。不管你用哪家云、哪个框架,最终都要把一个模型(或 LLM 应用)变成生产级 endpoint。这个 Lab 给你一个最小的部署流程 + Rate Limit / Logging / Monitoring 三件套的集成示例。
想把 LLM 应用真正"上生产"的工程师。Demo 跑通是一回事,上线让几千个用户用又是另一回事——这节 Lab 帮你把中间的差距补上。
你能把一个 LLM 应用从 Jupyter Notebook 变成生产级 HTTP endpoint,支持速率限制、可追溯、可监控。这是课程结束时你手上应该具备的完整能力闭环。