企业数据里 80% 是非结构化的(邮件、合同、PDF、聊天记录),而这恰好是 LLM 最擅长的领域。但很多工程师还在用正则和规则引擎去硬扒这些文本——维护成本高、准确率 60%。搞清楚结构化 vs 非结构化的本质差别,你就知道 AI Engineer 的价值区在哪。
在公司看到一堆 PDF 合同 / 扫描件 / 邮件堆在那里没人处理的工程师。这些数据就是 AI Engineer 最大的价值点,前提是你知道怎么下手。
你能识别公司里哪些数据是 LLM 能处理的"金矿",能用一个通用 Prompt 模板从任何非结构化文本里抽出结构化数据。下次老板说"我们有一堆合同没人看",你能立刻给出一个 2 天能 POC 的方案。
理论上 LLM 能从任何文本抽结构化数据——但真跑起来你会发现:长文档怎么拆?抽出来的 JSON 格式总是不稳?同一个字段不同文档里叫法不同怎么办?这个 Lab 让你亲手踩完这些真实工程坑。
要把 LLM 接进 ETL / 数据管道的数据工程师。或者要处理大批量非结构化文档的后端。
你能写一个从 PDF / 合同 / 邮件里抽结构化数据的 Python pipeline,output 是稳定的 JSON 可以直接进数据库。这是 AI Engineer 在企业里最常被要求做的事之一。
你学 LLM 不需要会训模型,但你需要看懂别人的架构图 + 术语。"Loss function 在下降"、"过拟合"、"梯度爆炸"这些词如果你完全没概念,在读论文 / 看 Anthropic 博客的时候就会卡住。这节课用直观方式把 ML 核心概念讲透,不需要数学。
没学过 ML 但想看懂 LLM 原理的软件工程师。你不会需要写反向传播,但你需要能和机器学习工程师对话不怯场。
你能看懂 ML 相关的博客、论文摘要和架构图,能和 ML 工程师讨论模型训练相关的基本问题,不再是"我只会调 API"的纯 AI Engineer。
上一节讲了 ML 的核心概念,但"听懂"和"看过"差一截。这个 Lab 让你在浏览器里可视化一个神经网络的训练过程:亲眼看 loss 怎么下降、过拟合是什么样、参数越大为什么效果越好。10 分钟让你对 ML 有真实的直觉。
刚学完 L16 ML 基础想立刻巩固的工程师。视觉型学习者尤其喜欢这个 Lab——看一次动画顶读 10 页博客。
"梯度下降" / "过拟合" / "正则化" 这些词从此不再是你读论文时的拦路虎,都是你亲眼看过的具体现象。
上一节讲了 ML 的基本概念,这节课讲三大学习范式——监督、无监督、强化学习。很多人分不清这三者的差别,看论文看到 "RLHF" 就懵。搞清楚每种范式的数据长什么样、目标是什么,你就知道 GPT-4 为什么需要三个训练阶段(Pre-training + SFT + RLHF)。
看到 "RLHF / DPO / PPO" 这些术语就头晕的技术从业者。不需要会推导数学,但需要知道这些是什么、有什么用。
看 Anthropic / OpenAI / Meta 的论文时不再看到 "RLHF" 就跳过。你能解释"为什么 ChatGPT 比 GPT-3 更听话"的本质原因,能判断一个任务该用监督还是强化学习。
"深度学习" 听起来很高大上,但它的最小单元其实就一行公式:output = activation(weighted_sum + bias)。理解这一行后,整个神经网络就不再是黑盒。这节课用直观方式讲清神经元、激活函数、反向传播——不推公式,只讲"这些东西在做什么"。
想读懂 Transformer 架构图但被"神经网络"吓到的工程师。看完这节你会发现 Transformer 其实就是"用 attention 堆起来的深度网络",没那么神秘。
你能看懂任何神经网络架构图的基本结构,能解释 "深度学习为什么在 2012 年突然起飞",能把 Transformer 看成 "一种特殊结构的深度网络" 而不是魔法。
LLM 出现前,NLP 是一个复杂的"任务拼盘"——分词、POS、NER、翻译、问答,每种任务一个专门的小模型,维护成本极高。LLM 出现后,这些任务几乎都能用一个模型 + prompt 搞定。理解这个转折,你就知道为什么传统 NLP 工具链正在被淘汰。
过去学过传统 NLP(jieba / NLTK / SpaCy)的工程师,想搞清楚"为什么这些工具最近这么冷"。或者完全没学过 NLP 想直接跳到 LLM 时代的人。
你能判断一个 NLP 任务该用 LLM 还是传统工具,能理解 "为什么 LLM 能做所有 NLP 任务但不是每个任务都该用 LLM",这是成本优化的基础认知。
所有现代 LLM(GPT / Claude / Llama / Gemini)都基于 Transformer。看论文、看模型架构图、读 Anthropic / OpenAI 技术博客,你都会撞到 "Self-Attention"、"Multi-Head"、"Q·K·V"这些术语。这节课把 "Attention is All You Need" 论文的核心贡献讲透——没有公式,只有直觉。
看过 Transformer 架构图但一直没完全搞懂的工程师。或者想读懂 LLM 相关论文摘要的技术从业者。
你能向同事用 5 句话解释 "Transformer 为什么取代 RNN",能看懂任何 LLM 论文里的 Attention 相关段落,能理解为什么 Transformer 是支撑 GPT-3 / GPT-4 / Claude 4 的核心架构。
上一节你学了 Attention 的理论,但"听过"和"看过" 差一截。这个 Lab 让你亲眼看 Attention 权重分布 + Token 拆分 —— 当你输入一句话,Transformer 内部到底怎么"读"它?10 分钟让你把所有 Transformer 术语从抽象变成可视化。
想把 Transformer 从"数学公式"变成"可观察现象"的工程师。视觉学习者特别受益,10 分钟的动手胜过读 10 篇博客。
"Self-Attention"、"Multi-Head"、"Context Window" 这些词你看到都有视觉化的直觉,不再是 paper 里的符号。下次读 Anthropic 的 Interpretability 博客(他们经常可视化 attention)你不会再跳过技术段落。
"Language Model" 这个词被用得太随意——n-gram 是 LM、LSTM 是 LM、GPT 也是 LM。它们本质上在做同一件事:预测下一个 token。但从 n-gram 到 GPT 中间跨越了 50 年。搞清楚这个演化路径,你才能理解 Scaling Law 为什么这么震撼。
想理解"为什么大家都在堆参数量"的技术从业者。Scaling Law 不是营销概念,是真实的可验证规律,理解它你就能预测未来 5 年的模型演化。
你能解释"为什么 Llama 3 405B 比 70B 强"(不只是"参数多",是 Scaling Law 的可预测性),能读懂 Kaplan 等人的 Scaling Law 论文的结论,能判断下一代模型大概率在哪个方向突破。
Transformer 的完整结构图上有一堆模块:Embedding、Positional Encoding、Multi-Head Attention、Add & Norm、Feed-Forward、Residual Connection——每一个都有明确的角色。这节课把整张图拆开讲清楚,你就能看懂 90% 的 LLM 论文架构章节。
看 LLM 论文看到 "architecture" 章节就跳过的工程师。这节课帮你把跳过的段落补回来。
你能看懂 GPT-4 / Claude / Llama 的架构图每一个模块在做什么,能解释为什么现代 LLM 都是 Decoder-only,能和 ML 工程师讨论 "为什么残差连接让深层网络可训"。
LLM 不直接处理文字——它处理数字。Tokenizer 把文字变数字,Embedding 把数字变向量,Positional Encoding 告诉模型"谁在前谁在后"。这三步决定了 LLM 怎么"读"你的 prompt,也决定了你的 API 账单。理解它你就知道为什么一个中文字比一个英文单词贵 2 倍。
想搞懂 "为什么我的 API 账单里 token 数和字数对不上" 的工程师。这节课让你对 token 计费有精确直觉。
你能精确预估一段文字会消耗多少 token,能决定什么时候该 RAG 什么时候能直接塞长 context,能理解 "为什么 1M context 很贵"——这是成本优化的底层知识。