你看过十几个 AI 教程视频、收藏过几十个 Prompt 合集、订阅过几个 Newsletter——然后下周你什么都没记住。知识太碎、路径太乱、不知道从哪开始。这节课不是让你再看一堆内容,是帮你把"4 周后要成为入门 AI Engineer"这件事拆成可执行的每周任务。
如果你是软件工程师/后端/全栈/DevOps/数据工程师,想系统学 AI Engineer 但每次打开教程看十分钟就走神——这节课会帮你定一个你真能跟完的节奏表。
你会有一份写好的 4 周学习计划表,OpenAI + Claude + Google AI Studio 三个账号开好,知道每周要看哪几节课、每周要产出什么。不再是"慢慢看",是"有目标地冲"。
你已经写过 Python,但 AI 相关的开发环境跟你熟悉的"装 pip、跑脚本"不完全一样——OpenAI API Key 怎么申请?额度要充多少?.env 怎么放才不会被 push 到 GitHub?这节课帮你把这些"第一次才会踩"的坑一次性踩完。
.env + dotenv + .gitignore 三件套,一次配好永不再犯会用 pip、能在终端跑 Python 脚本、但从没调过 OpenAI API 的人。不需要你会装 Docker 或配 CUDA。
你的电脑上有一个能跑的 Python venv,.env 里有可用的 OpenAI Key,跑 python hello.py 能看到 GPT-4o-mini 返回的真实回答。后面 72 节课的所有代码都能在这套环境里直接跑。
"调 OpenAI API 很简单"——这句话 99% 的教程都说过。但真跑起来你会发现:response 长什么样?token 用了多少?temperature 为什么跟聊天里看到的不一样?这个 Lab 让你亲眼看到这些东西,而不是继续把 LLM 当黑盒。
choices[0].message.content 之外还有哪些字段,finish_reason 是什么意思usage.prompt_tokens 和 completion_tokens 怎么算成本,1 次调用烧多少钱temperature=0 vs 0.7 vs 1.0 下输出完全不同,亲眼对比想把 LLM 从"黑魔法"变成"可预测的 API"的软件工程师。10 分钟内你就会对 LLM 的输入输出有 90% 的直觉。
你能独立写一段调用 OpenAI / Claude / Gemini 的 Python 代码,看懂 response 的每一个字段,知道你这次请求花了多少钱、用了多少 token。LLM 不再是魔法,就是一个有明确 schema 的 HTTP API。
你身边的人已经在用 AI 写代码、写文档、做数据分析了,但你打开 ChatGPT 不知道让它做什么——"高级搜索引擎"的定位很难拉开差距。这节课给你 12 个真实生产力场景,每个都有具体的 prompt 模板和工具组合,下课你就能开始用。
每天用 AI 但总觉得"用得不够深"的技术从业者。你知道 ChatGPT,但你可能从没用过 NotebookLM 上传 PDF 做问答、从没用 Perplexity 做带引用的调研。
你会至少挑出 3 个自己工作里能立刻用上的高频场景,每个都知道该用哪个工具 + 怎么写 prompt。不再是"随便问问 ChatGPT",是"有固定 playbook 的专业用户"。
上一节你学了"12 个生产力场景",但知道场景不等于会写 prompt。你可能还是习惯对 AI 说"帮我写个邮件"——这节 Lab 强迫你立刻写一个"专业化"的第一次对话:同样的需求,加上角色 + 任务 + 约束 + 例子,输出质量拉开一档。
每次跟 AI 对话都要来回改 5 遍才拿到想要的输出的人。或者总是觉得"AI 好像不太懂我意思"的人。
你能在 30 秒内把一个模糊的需求改写成包含角色 + 任务 + 约束 + 例子的专业 prompt,第一次就拿到能用的输出,不用来回改。这是你整个 Prompt Engineering 生涯的第一块肌肉记忆。
"生成式 AI"这四个字被滥用到失去意义——每个产品都自称 GenAI,但它们背后可能是完全不同的技术路线。你如果分不清 LLM vs Diffusion vs VLM 的本质差异,就很难判断一个 AI 产品到底能做什么不能做什么。
想在同事讨论 AI 产品时"听得懂"的技术人。你不需要能训模型,但你需要能在 5 分钟内判断"这个产品背后用了什么模型、靠不靠谱"。
下次产品经理问"这个需求用 AI 能做吗",你能在 30 秒内给出判断:该用哪类模型、为什么、预期的成本和局限是什么。能看懂 Gartner / a16z 的 AI 报告,不再被 Marketing 话术带偏。
Prompt Engineering 不是"会写中文就行"——同一个需求用错的 prompt 写法可能让模型的准确率差 30%+。这节课给你一个工程化的框架(R-T-C-E 四要素),让每次写 prompt 都像写函数一样有结构、可复用、可调试。
已经会简单用 ChatGPT 但想从"会用"跳到"会写生产级 prompt"的技术从业者。下一步你要把 prompt 写进代码里,这节课是基础。
你能写出结构化的、可复用的 prompt,不用再来回改 5 遍。对任何新任务,你都能在 1 分钟内套用 R-T-C-E 写出第一版 prompt,后面就是微调。
你经常发现自己写的 prompt "差一点"——AI 明白大方向但总是漏关键细节。比如你让它帮你写邮件,它用词太书面;让它总结文档,它总结得太长。问题不是它不会做,是你没写清楚"任务是什么"。
经常需要改 prompt 才能拿到可用输出的人。或者总是纠结"AI 为什么不直接给我要的结果"的人。
你能把任何模糊需求转写成 AI 能 1 次就做对的明确任务。从此写 prompt 不再是"来回改"的艺术,是"第 1 次就写对"的工程。
你的 prompt 写得不错,但 AI 输出总是"长度不对、格式不对、语气不对"——就是不好嵌进你的业务系统。问题不是 AI 没理解任务,是你没给它"交付标准"。这节课让你学会用约束把输出收敛到可复用的形状。
想把 LLM 接进自己产品的软件工程师。如果你的后端需要稳定的 JSON 输出,这节 Lab 是必看——约束写不好,下游 JSON parse 一错一个准。
你能让 LLM 输出稳定的 JSON / markdown / 固定字数文本,直接嵌进你的后端或前端,不需要写一堆字符串处理代码兜底。
LLM 为什么会"乱编"?为什么你问 2024 年的新闻它不知道?为什么公司内部文档它看不到?你如果不理解这三个天生缺陷,就不知道什么场景必须上 RAG。这节课把 RAG 的"为什么"讲透,后面 20+ 节 RAG 技术细节才有意义。
企业里负责"把 AI 接进现有业务"的工程师。你老板肯定会问"能不能让 AI 回答公司内部的问题"——这节课告诉你答案是"能,但得用 RAG,不是 Fine-tune"。
你能向非技术同事解释"为什么需要 RAG",能判断一个业务需求该用 RAG 还是 Prompt Engineering 还是 Fine-tune,不会再把"想让 AI 知道新数据"误以为是 Fine-tune 问题。
"AI Agent" 是 2025-2026 最火的概念,但 80% 的人连 Agent 和 Workflow 的区别都说不清。这节课用一个具体例子(订机票 Agent)把 Agent = LLM + 工具 + 记忆 + 循环的本质讲透,你学完就能判断自己的业务需求该不该上 Agent。
在公司听到"我们要做个 AI Agent"的产品会议时,想第一时间判断"这个需求配得上 Agent 还是用普通 Workflow 就够了"的工程师。
你能画出一个 Agent 的推理循环图,能区分 Agent 和 Workflow 的适用场景,能判断一个业务需求值不值得花 3 倍的成本上 Agent(大部分不值得)。
你把 LLM 接进产品上线后会面对一堆新问题:Prompt 改了一次效果变差怎么回滚?输出质量怎么量化?月底成本账单突然爆了怎么追?这些问题传统 MLOps 没教过,因为 LLMOps 是新物种。这节课给你一个完整的能力地图。
已经有 LLM 应用要上线或刚上线的工程师。生产环境的第一周你就会遇到这节课讲的所有问题——提前学完能少吃几次亏。
你能给自己的 LLM 应用加上第一层 trace(每次请求都能回溯),能跑第一次 offline 评估(用 Ragas 量化 RAG 质量),能做 prompt 版本管理——三件事一做,你的 LLM 应用就从"玩具"变成"生产级"。
上一节讲了 LLMOps 的六大能力,但"听懂 ≠ 会用"。这个 Lab 让你亲手跑一次完整的 LLMOps 流程:用一个小 RAG 应用触发 trace、写一个 eval 测试集、看真实的成本追踪面板——10 分钟内感受 LLMOps 的真实价值。
已经有 LLM 应用或打算上线 LLM 应用的工程师。没跑过 trace 的人会觉得"线上没事",跑过一次 trace 的人会发现每次调用都有改进空间。
你能用一行代码替换给自己的项目加上完整 trace,能写一个最小评估集跑 faithfulness 检查,能把 LLMOps 从概念变成可验证的工程实践。