Part 2 — ML 基础与 Transformer 原理

12 节课详细介绍

L14VIDEO

Structured Data vs Unstructured Data

60min

🎯 这节课解决什么问题

企业数据里 80% 是非结构化的（邮件、合同、PDF、聊天记录），而这恰好是 LLM 最擅长的领域。但很多工程师还在用正则和规则引擎去硬扒这些文本——维护成本高、准确率 60%。搞清楚结构化 vs 非结构化的本质差别，你就知道 AI Engineer 的价值区在哪。

📖 你将学到

三种数据形态 — 结构化 / 半结构化 / 非结构化，对应的存储和处理技术完全不同
LLM 的三大价值区 — Extraction（从非结构化抽结构化）/ Classification（打标签）/ Summarization（总结）
真实案例 — 银行信贷申请邮件分类，从正则规则的 60% 准确率到 LLM 的 92%，开发时间从 3 周到 2 天

💡 适合谁

在公司看到一堆 PDF 合同 / 扫描件 / 邮件堆在那里没人处理的工程师。这些数据就是 AI Engineer 最大的价值点，前提是你知道怎么下手。

📦 课程包含

60 分钟视频覆盖数据分类 + LLM 价值区
非结构化 → 结构化的通用 Prompt 模板
银行 / 电商 / 法律三个行业的抽取案例
衔接 L15 data-engineering Lab 动手练习

✅ 学完能做什么

你能识别公司里哪些数据是 LLM 能处理的"金矿"，能用一个通用 Prompt 模板从任何非结构化文本里抽出结构化数据。下次老板说"我们有一堆合同没人看"，你能立刻给出一个 2 天能 POC 的方案。

L15🧪 LAB

Lab: Data Engineering for LLM

30min

🎯 这节课解决什么问题

理论上 LLM 能从任何文本抽结构化数据——但真跑起来你会发现：长文档怎么拆？抽出来的 JSON 格式总是不稳？同一个字段不同文档里叫法不同怎么办？这个 Lab 让你亲手踩完这些真实工程坑。

📖 你将学到

Chunk 切分策略 — 太长塞不进 context，太短语义不完整，合适的 chunk 大小怎么定
JSON Schema 强制 — 用 OpenAI Structured Outputs 保证返回合法 JSON，直接 parse 不用兜底
字段对齐 — "vendor" / "供应商" / "Supplier" 同一个字段三种叫法，用 few-shot 例子让 LLM 统一

💡 适合谁

要把 LLM 接进 ETL / 数据管道的数据工程师。或者要处理大批量非结构化文档的后端。

📦 课程包含

1 个浏览器内互动 Lab（LLM Lab: data-engineering）
3 个真实文档（合同 / 发票 / 邮件）+ 对应的抽取目标
Chunk 策略 + Schema 定义 + Few-shot 三步走模板
约 30 分钟动手时间

✅ 学完能做什么

你能写一个从 PDF / 合同 / 邮件里抽结构化数据的 Python pipeline，output 是稳定的 JSON 可以直接进数据库。这是 AI Engineer 在企业里最常被要求做的事之一。

L16VIDEO

Introduction to Machine Learning

60min

🎯 这节课解决什么问题

你学 LLM 不需要会训模型，但你需要看懂别人的架构图 + 术语。"Loss function 在下降"、"过拟合"、"梯度爆炸"这些词如果你完全没概念，在读论文 / 看 Anthropic 博客的时候就会卡住。这节课用直观方式把 ML 核心概念讲透，不需要数学。

📖 你将学到

ML 本质 — 从数据里学一个函数 f(x)=y，训练 = 找参数，推理 = 用函数做预测
三个必懂概念 — Loss Function（错多少）/ Gradient Descent（怎么改）/ Overfitting（记住训练集但不泛化）
训练 vs 推理成本 — 训 GPT-4 花几千万美金，调一次 API 花几分钱，为什么

💡 适合谁

没学过 ML 但想看懂 LLM 原理的软件工程师。你不会需要写反向传播，但你需要能和机器学习工程师对话不怯场。

📦 课程包含

60 分钟视频 + 零数学的直观讲解
"考试扣分 / 改学习方法 / 刷题变原题" 三个生活比喻
训练 vs 推理成本对比
衔接 L17 ai-ml-basics Lab 可视化练习

✅ 学完能做什么

你能看懂 ML 相关的博客、论文摘要和架构图，能和 ML 工程师讨论模型训练相关的基本问题，不再是"我只会调 API"的纯 AI Engineer。

L17🧪 LAB

Lab: AI / ML Basics

30min

🎯 这节课解决什么问题

上一节讲了 ML 的核心概念，但"听懂"和"看过"差一截。这个 Lab 让你在浏览器里可视化一个神经网络的训练过程：亲眼看 loss 怎么下降、过拟合是什么样、参数越大为什么效果越好。10 分钟让你对 ML 有真实的直觉。

📖 你将学到

训练可视化 — 看 loss 曲线从高到低，亲眼感受"梯度下降"不是抽象概念
过拟合现场 — 训练集 99% 但测试集 60% 的模型长什么样，怎么用 Dropout 缓解
Scaling Law — 小模型 vs 大模型在同一任务上的表现差异

💡 适合谁

刚学完 L16 ML 基础想立刻巩固的工程师。视觉型学习者尤其喜欢这个 Lab——看一次动画顶读 10 页博客。

📦 课程包含

1 个浏览器内互动 Lab（LLM Lab: ai-ml-basics）
3 个可视化场景：训练过程 / 过拟合 / Scaling Law
不需要任何代码
约 30 分钟动手时间

✅ 学完能做什么

"梯度下降" / "过拟合" / "正则化" 这些词从此不再是你读论文时的拦路虎，都是你亲眼看过的具体现象。

L18VIDEO

Supervised, Unsupervised, and Reinforcement Learning

60min

🎯 这节课解决什么问题

上一节讲了 ML 的基本概念，这节课讲三大学习范式——监督、无监督、强化学习。很多人分不清这三者的差别，看论文看到 "RLHF" 就懵。搞清楚每种范式的数据长什么样、目标是什么，你就知道 GPT-4 为什么需要三个训练阶段（Pre-training + SFT + RLHF）。

📖 你将学到

三种范式对比 — Supervised（有答案）/ Unsupervised（没答案）/ RL（靠奖励），数据和目标完全不同
LLM 三阶段训练 — Pre-training（无监督）+ SFT（监督）+ RLHF（强化学习），为什么 LLM 同时用了三种范式
为什么 RLHF 重要 — 没有 RLHF 的 GPT-3 你直接用会觉得"怪怪的"，有了 RLHF 才变成 ChatGPT

💡 适合谁

看到 "RLHF / DPO / PPO" 这些术语就头晕的技术从业者。不需要会推导数学，但需要知道这些是什么、有什么用。

📦 课程包含

60 分钟视频覆盖三大范式 + LLM 训练阶段
三种范式的数据对比图
GPT-4 训练流程示意图
DPO 取代 RLHF 的 2025 年新趋势介绍

✅ 学完能做什么

看 Anthropic / OpenAI / Meta 的论文时不再看到 "RLHF" 就跳过。你能解释"为什么 ChatGPT 比 GPT-3 更听话"的本质原因，能判断一个任务该用监督还是强化学习。

L19VIDEO

Introduction to Deep Learning

60min

🎯 这节课解决什么问题

"深度学习" 听起来很高大上，但它的最小单元其实就一行公式：output = activation(weighted_sum + bias)。理解这一行后，整个神经网络就不再是黑盒。这节课用直观方式讲清神经元、激活函数、反向传播——不推公式，只讲"这些东西在做什么"。

📖 你将学到

神经元本质 — 就是加权求和 + 激活函数，堆起来就是"深度"网络
ReLU 为什么这么重要 — 一个简单到让人怀疑的函数 max(0, x)，支撑了整个现代深度学习
DL 起飞三要素 — 大数据（ImageNet）+ GPU 算力 + 算法改进，2012 AlexNet 为什么是 DL 元年

💡 适合谁

想读懂 Transformer 架构图但被"神经网络"吓到的工程师。看完这节你会发现 Transformer 其实就是"用 attention 堆起来的深度网络"，没那么神秘。

📦 课程包含

60 分钟视频 + 0 数学公式
神经元 → 层 → 网络的递进构造图
DL 起飞三要素的历史背景
为下一节 NLP / Transformer 铺垫

✅ 学完能做什么

你能看懂任何神经网络架构图的基本结构，能解释 "深度学习为什么在 2012 年突然起飞"，能把 Transformer 看成 "一种特殊结构的深度网络" 而不是魔法。

L20VIDEO

Natural Language Processing (NLP)

60min

🎯 这节课解决什么问题

LLM 出现前，NLP 是一个复杂的"任务拼盘"——分词、POS、NER、翻译、问答，每种任务一个专门的小模型，维护成本极高。LLM 出现后，这些任务几乎都能用一个模型 + prompt 搞定。理解这个转折，你就知道为什么传统 NLP 工具链正在被淘汰。

📖 你将学到

传统 NLP Pipeline — Tokenization → POS Tagging → NER → Parsing → Task-specific Model，每一步一个小模型
LLM 一招通吃 — 分词 / 分类 / 翻译 / 问答 / 摘要全部一个 prompt 搞定，为什么能做到
传统 NLP 还有用吗 — 极低延迟（搜索引擎分词）和严格可解释（合规）场景传统工具仍然更快更准

💡 适合谁

过去学过传统 NLP（jieba / NLTK / SpaCy）的工程师，想搞清楚"为什么这些工具最近这么冷"。或者完全没学过 NLP 想直接跳到 LLM 时代的人。

📦 课程包含

60 分钟视频覆盖 NLP 任务全景
传统 NLP vs LLM 任务映射表
"通用 LLM vs 专用小模型" 何时选哪个

✅ 学完能做什么

你能判断一个 NLP 任务该用 LLM 还是传统工具，能理解 "为什么 LLM 能做所有 NLP 任务但不是每个任务都该用 LLM"，这是成本优化的基础认知。

L21VIDEO

Transformer and Attention

60min

🎯 这节课解决什么问题

所有现代 LLM（GPT / Claude / Llama / Gemini）都基于 Transformer。看论文、看模型架构图、读 Anthropic / OpenAI 技术博客，你都会撞到 "Self-Attention"、"Multi-Head"、"Q·K·V"这些术语。这节课把 "Attention is All You Need" 论文的核心贡献讲透——没有公式，只有直觉。

📖 你将学到

RNN/LSTM 为什么不够 — 必须按顺序处理，GPU 利用率低，长距离依赖会"忘"，这是 Transformer 取代它们的根本原因
Self-Attention 直觉 — 每个 token 同时看到整个序列，不需要"一个一个读"，这是 GPU 并行的前提
Q·K·V 比喻 — Query = 搜索关键词、Key = 网页标题、Value = 网页内容，用搜索引擎类比一次看懂

💡 适合谁

看过 Transformer 架构图但一直没完全搞懂的工程师。或者想读懂 LLM 相关论文摘要的技术从业者。

📦 课程包含

60 分钟视频 + 零公式
RNN vs Transformer 并行能力对比图
Q·K·V 的搜索引擎类比
"Attention 是 Scaling Law 的物理基础" 完整论证
衔接 L22 llm-concepts Lab 可视化练习

✅ 学完能做什么

你能向同事用 5 句话解释 "Transformer 为什么取代 RNN"，能看懂任何 LLM 论文里的 Attention 相关段落，能理解为什么 Transformer 是支撑 GPT-3 / GPT-4 / Claude 4 的核心架构。

L22🧪 LAB

Lab: LLM Concepts — Attention & Tokens

30min

🎯 这节课解决什么问题

上一节你学了 Attention 的理论，但"听过"和"看过" 差一截。这个 Lab 让你亲眼看 Attention 权重分布 + Token 拆分 —— 当你输入一句话，Transformer 内部到底怎么"读"它？10 分钟让你把所有 Transformer 术语从抽象变成可视化。

📖 你将学到

Token 可视化 — 你输入的句子被拆成几个 token？每个 token 怎么变成向量？context window 到底是什么感觉
Attention 热力图 — 输入一句话，看 Self-Attention 权重矩阵——每个 token 在"关注"哪些其他 token
Multi-Head 差异 — 同一个 attention 层不同 head 关注完全不同的语义信息

💡 适合谁

想把 Transformer 从"数学公式"变成"可观察现象"的工程师。视觉学习者特别受益，10 分钟的动手胜过读 10 篇博客。

📦 课程包含

1 个浏览器内互动 Lab（LLM Lab: llm-concepts）
Token 拆分 + Attention 热力图两个交互面板
3 个不同句子的对比实验
约 30 分钟动手时间

✅ 学完能做什么

"Self-Attention"、"Multi-Head"、"Context Window" 这些词你看到都有视觉化的直觉，不再是 paper 里的符号。下次读 Anthropic 的 Interpretability 博客（他们经常可视化 attention）你不会再跳过技术段落。

L23VIDEO

Language Models (LM)

60min

🎯 这节课解决什么问题

"Language Model" 这个词被用得太随意——n-gram 是 LM、LSTM 是 LM、GPT 也是 LM。它们本质上在做同一件事：预测下一个 token。但从 n-gram 到 GPT 中间跨越了 50 年。搞清楚这个演化路径，你才能理解 Scaling Law 为什么这么震撼。

📖 你将学到

三代语言模型 — 统计（n-gram）→ 神经（word2vec / LSTM）→ Transformer（GPT / BERT），每一代解决的痛点是什么
Perplexity 指标 — 怎么衡量一个语言模型"好不好"，为什么越低越好
Scaling Law — OpenAI 2020 论文的核心发现：模型 + 数据 + 算力都堆上去，效果呈幂律提升——这是 GPT-3 / GPT-4 军备竞赛的理论基础
涌现能力 — 为什么 Scaling 到一定规模模型会"突然"会做某些事

💡 适合谁

想理解"为什么大家都在堆参数量"的技术从业者。Scaling Law 不是营销概念，是真实的可验证规律，理解它你就能预测未来 5 年的模型演化。

📦 课程包含

60 分钟视频覆盖 LM 定义 + 三代演化 + Scaling Law
Perplexity 直观讲解 + 真实对比数据
涌现能力的 5 个经典例子

✅ 学完能做什么

你能解释"为什么 Llama 3 405B 比 70B 强"（不只是"参数多"，是 Scaling Law 的可预测性），能读懂 Kaplan 等人的 Scaling Law 论文的结论，能判断下一代模型大概率在哪个方向突破。

L24VIDEO

The Transformer Architecture

60min

🎯 这节课解决什么问题

Transformer 的完整结构图上有一堆模块：Embedding、Positional Encoding、Multi-Head Attention、Add & Norm、Feed-Forward、Residual Connection——每一个都有明确的角色。这节课把整张图拆开讲清楚，你就能看懂 90% 的 LLM 论文架构章节。

📖 你将学到

一个 Transformer Block 的组件 — Attention + FFN + 两次 Add & Norm 的完整流程
三种 Transformer 变体 — Encoder-only（BERT）/ Decoder-only（GPT）/ Encoder-Decoder（T5），各自适合什么任务
为什么现在都是 Decoder-only — GPT / Claude / Llama / Mistral 全选了这条路线的原因
残差连接的关键作用 — 没有残差，100+ 层的 LLM 根本训不起来

💡 适合谁

看 LLM 论文看到 "architecture" 章节就跳过的工程师。这节课帮你把跳过的段落补回来。

📦 课程包含

60 分钟视频 + 完整 Transformer 架构图分解
Encoder / Decoder / Encoder-Decoder 三变体对比
残差连接 + LayerNorm 的作用图解
BERT / GPT / T5 的典型应用场景

✅ 学完能做什么

你能看懂 GPT-4 / Claude / Llama 的架构图每一个模块在做什么，能解释为什么现代 LLM 都是 Decoder-only，能和 ML 工程师讨论 "为什么残差连接让深层网络可训"。

L25VIDEO

Input Embeddings

60min

🎯 这节课解决什么问题

LLM 不直接处理文字——它处理数字。Tokenizer 把文字变数字，Embedding 把数字变向量，Positional Encoding 告诉模型"谁在前谁在后"。这三步决定了 LLM 怎么"读"你的 prompt，也决定了你的 API 账单。理解它你就知道为什么一个中文字比一个英文单词贵 2 倍。

📖 你将学到

BPE 分词器 — 常用词一个 token、生僻词拆 subword，英文 1.3 token / 词，中文 1.5-2 token / 字
Embedding 矩阵 — 50K 词表 × 1536 维 = 一张超大查表，训练时一起学
Positional Encoding — 从原始 sin/cos 到现代 RoPE，为什么位置信息必须手动加
Context Window 的上限由来 — Attention O(n²) 复杂度 + 训练长度限制，为什么不能无限扩

💡 适合谁

想搞懂 "为什么我的 API 账单里 token 数和字数对不上" 的工程师。这节课让你对 token 计费有精确直觉。

📦 课程包含

60 分钟视频覆盖 Tokenizer / Embedding / Positional Encoding
中英文 token 数对比表
OpenAI tokenizer 在线工具使用教程
Context Window 从 GPT-3 的 2K 到 Claude 的 1M 的演化史

✅ 学完能做什么

你能精确预估一段文字会消耗多少 token，能决定什么时候该 RAG 什么时候能直接塞长 context，能理解 "为什么 1M context 很贵"——这是成本优化的底层知识。