Part 2 — ML 基础与 Transformer 原理

L14 - L25 · 12 节课
12 节课详细介绍
L14VIDEO

Structured Data vs Unstructured Data

60min

🎯 这节课解决什么问题

企业数据里 80% 是非结构化的(邮件、合同、PDF、聊天记录),而这恰好是 LLM 最擅长的领域。但很多工程师还在用正则和规则引擎去硬扒这些文本——维护成本高、准确率 60%。搞清楚结构化 vs 非结构化的本质差别,你就知道 AI Engineer 的价值区在哪。

📖 你将学到

  • 三种数据形态 — 结构化 / 半结构化 / 非结构化,对应的存储和处理技术完全不同
  • LLM 的三大价值区 — Extraction(从非结构化抽结构化)/ Classification(打标签)/ Summarization(总结)
  • 真实案例 — 银行信贷申请邮件分类,从正则规则的 60% 准确率到 LLM 的 92%,开发时间从 3 周到 2 天

💡 适合谁

在公司看到一堆 PDF 合同 / 扫描件 / 邮件堆在那里没人处理的工程师。这些数据就是 AI Engineer 最大的价值点,前提是你知道怎么下手。

📦 课程包含

  • 60 分钟视频覆盖数据分类 + LLM 价值区
  • 非结构化 → 结构化的通用 Prompt 模板
  • 银行 / 电商 / 法律 三个行业的抽取案例
  • 衔接 L15 data-engineering Lab 动手练习

✅ 学完能做什么

你能识别公司里哪些数据是 LLM 能处理的"金矿",能用一个通用 Prompt 模板从任何非结构化文本里抽出结构化数据。下次老板说"我们有一堆合同没人看",你能立刻给出一个 2 天能 POC 的方案。

L15🧪 LAB

Lab: Data Engineering for LLM

30min

🎯 这节课解决什么问题

理论上 LLM 能从任何文本抽结构化数据——但真跑起来你会发现:长文档怎么拆?抽出来的 JSON 格式总是不稳?同一个字段不同文档里叫法不同怎么办?这个 Lab 让你亲手踩完这些真实工程坑。

📖 你将学到

  • Chunk 切分策略 — 太长塞不进 context,太短语义不完整,合适的 chunk 大小怎么定
  • JSON Schema 强制 — 用 OpenAI Structured Outputs 保证返回合法 JSON,直接 parse 不用兜底
  • 字段对齐 — "vendor" / "供应商" / "Supplier" 同一个字段三种叫法,用 few-shot 例子让 LLM 统一

💡 适合谁

要把 LLM 接进 ETL / 数据管道的数据工程师。或者要处理大批量非结构化文档的后端。

📦 课程包含

  • 1 个浏览器内互动 Lab(LLM Lab: data-engineering)
  • 3 个真实文档(合同 / 发票 / 邮件)+ 对应的抽取目标
  • Chunk 策略 + Schema 定义 + Few-shot 三步走模板
  • 约 30 分钟动手时间

✅ 学完能做什么

你能写一个从 PDF / 合同 / 邮件里抽结构化数据的 Python pipeline,output 是稳定的 JSON 可以直接进数据库。这是 AI Engineer 在企业里最常被要求做的事之一。

L16VIDEO

Introduction to Machine Learning

60min

🎯 这节课解决什么问题

你学 LLM 不需要会训模型,但你需要看懂别人的架构图 + 术语。"Loss function 在下降"、"过拟合"、"梯度爆炸"这些词如果你完全没概念,在读论文 / 看 Anthropic 博客的时候就会卡住。这节课用直观方式把 ML 核心概念讲透,不需要数学。

📖 你将学到

  • ML 本质 — 从数据里学一个函数 f(x)=y,训练 = 找参数,推理 = 用函数做预测
  • 三个必懂概念 — Loss Function(错多少)/ Gradient Descent(怎么改)/ Overfitting(记住训练集但不泛化)
  • 训练 vs 推理成本 — 训 GPT-4 花几千万美金,调一次 API 花几分钱,为什么

💡 适合谁

没学过 ML 但想看懂 LLM 原理的软件工程师。你不会需要写反向传播,但你需要能和机器学习工程师对话不怯场。

📦 课程包含

  • 60 分钟视频 + 零数学的直观讲解
  • "考试扣分 / 改学习方法 / 刷题变原题" 三个生活比喻
  • 训练 vs 推理成本对比
  • 衔接 L17 ai-ml-basics Lab 可视化练习

✅ 学完能做什么

你能看懂 ML 相关的博客、论文摘要和架构图,能和 ML 工程师讨论模型训练相关的基本问题,不再是"我只会调 API"的纯 AI Engineer。

L17🧪 LAB

Lab: AI / ML Basics

30min

🎯 这节课解决什么问题

上一节讲了 ML 的核心概念,但"听懂"和"看过"差一截。这个 Lab 让你在浏览器里可视化一个神经网络的训练过程:亲眼看 loss 怎么下降、过拟合是什么样、参数越大为什么效果越好。10 分钟让你对 ML 有真实的直觉。

📖 你将学到

  • 训练可视化 — 看 loss 曲线从高到低,亲眼感受"梯度下降"不是抽象概念
  • 过拟合现场 — 训练集 99% 但测试集 60% 的模型长什么样,怎么用 Dropout 缓解
  • Scaling Law — 小模型 vs 大模型在同一任务上的表现差异

💡 适合谁

刚学完 L16 ML 基础想立刻巩固的工程师。视觉型学习者尤其喜欢这个 Lab——看一次动画顶读 10 页博客。

📦 课程包含

  • 1 个浏览器内互动 Lab(LLM Lab: ai-ml-basics)
  • 3 个可视化场景:训练过程 / 过拟合 / Scaling Law
  • 不需要任何代码
  • 约 30 分钟动手时间

✅ 学完能做什么

"梯度下降" / "过拟合" / "正则化" 这些词从此不再是你读论文时的拦路虎,都是你亲眼看过的具体现象。

L18VIDEO

Supervised, Unsupervised, and Reinforcement Learning

60min

🎯 这节课解决什么问题

上一节讲了 ML 的基本概念,这节课讲三大学习范式——监督、无监督、强化学习。很多人分不清这三者的差别,看论文看到 "RLHF" 就懵。搞清楚每种范式的数据长什么样、目标是什么,你就知道 GPT-4 为什么需要三个训练阶段(Pre-training + SFT + RLHF)。

📖 你将学到

  • 三种范式对比 — Supervised(有答案)/ Unsupervised(没答案)/ RL(靠奖励),数据和目标完全不同
  • LLM 三阶段训练 — Pre-training(无监督)+ SFT(监督)+ RLHF(强化学习),为什么 LLM 同时用了三种范式
  • 为什么 RLHF 重要 — 没有 RLHF 的 GPT-3 你直接用会觉得"怪怪的",有了 RLHF 才变成 ChatGPT

💡 适合谁

看到 "RLHF / DPO / PPO" 这些术语就头晕的技术从业者。不需要会推导数学,但需要知道这些是什么、有什么用。

📦 课程包含

  • 60 分钟视频覆盖三大范式 + LLM 训练阶段
  • 三种范式的数据对比图
  • GPT-4 训练流程示意图
  • DPO 取代 RLHF 的 2025 年新趋势介绍

✅ 学完能做什么

看 Anthropic / OpenAI / Meta 的论文时不再看到 "RLHF" 就跳过。你能解释"为什么 ChatGPT 比 GPT-3 更听话"的本质原因,能判断一个任务该用监督还是强化学习。

L19VIDEO

Introduction to Deep Learning

60min

🎯 这节课解决什么问题

"深度学习" 听起来很高大上,但它的最小单元其实就一行公式:output = activation(weighted_sum + bias)。理解这一行后,整个神经网络就不再是黑盒。这节课用直观方式讲清神经元、激活函数、反向传播——不推公式,只讲"这些东西在做什么"。

📖 你将学到

  • 神经元本质 — 就是加权求和 + 激活函数,堆起来就是"深度"网络
  • ReLU 为什么这么重要 — 一个简单到让人怀疑的函数 max(0, x),支撑了整个现代深度学习
  • DL 起飞三要素 — 大数据(ImageNet)+ GPU 算力 + 算法改进,2012 AlexNet 为什么是 DL 元年

💡 适合谁

想读懂 Transformer 架构图但被"神经网络"吓到的工程师。看完这节你会发现 Transformer 其实就是"用 attention 堆起来的深度网络",没那么神秘。

📦 课程包含

  • 60 分钟视频 + 0 数学公式
  • 神经元 → 层 → 网络 的递进构造图
  • DL 起飞三要素的历史背景
  • 为下一节 NLP / Transformer 铺垫

✅ 学完能做什么

你能看懂任何神经网络架构图的基本结构,能解释 "深度学习为什么在 2012 年突然起飞",能把 Transformer 看成 "一种特殊结构的深度网络" 而不是魔法。

L20VIDEO

Natural Language Processing (NLP)

60min

🎯 这节课解决什么问题

LLM 出现前,NLP 是一个复杂的"任务拼盘"——分词、POS、NER、翻译、问答,每种任务一个专门的小模型,维护成本极高。LLM 出现后,这些任务几乎都能用一个模型 + prompt 搞定。理解这个转折,你就知道为什么传统 NLP 工具链正在被淘汰。

📖 你将学到

  • 传统 NLP Pipeline — Tokenization → POS Tagging → NER → Parsing → Task-specific Model,每一步一个小模型
  • LLM 一招通吃 — 分词 / 分类 / 翻译 / 问答 / 摘要 全部一个 prompt 搞定,为什么能做到
  • 传统 NLP 还有用吗 — 极低延迟(搜索引擎分词)和严格可解释(合规)场景传统工具仍然更快更准

💡 适合谁

过去学过传统 NLP(jieba / NLTK / SpaCy)的工程师,想搞清楚"为什么这些工具最近这么冷"。或者完全没学过 NLP 想直接跳到 LLM 时代的人。

📦 课程包含

  • 60 分钟视频覆盖 NLP 任务全景
  • 传统 NLP vs LLM 任务映射表
  • "通用 LLM vs 专用小模型" 何时选哪个

✅ 学完能做什么

你能判断一个 NLP 任务该用 LLM 还是传统工具,能理解 "为什么 LLM 能做所有 NLP 任务但不是每个任务都该用 LLM",这是成本优化的基础认知。

L21VIDEO

Transformer and Attention

60min

🎯 这节课解决什么问题

所有现代 LLM(GPT / Claude / Llama / Gemini)都基于 Transformer。看论文、看模型架构图、读 Anthropic / OpenAI 技术博客,你都会撞到 "Self-Attention"、"Multi-Head"、"Q·K·V"这些术语。这节课把 "Attention is All You Need" 论文的核心贡献讲透——没有公式,只有直觉。

📖 你将学到

  • RNN/LSTM 为什么不够 — 必须按顺序处理,GPU 利用率低,长距离依赖会"忘",这是 Transformer 取代它们的根本原因
  • Self-Attention 直觉 — 每个 token 同时看到整个序列,不需要"一个一个读",这是 GPU 并行的前提
  • Q·K·V 比喻 — Query = 搜索关键词、Key = 网页标题、Value = 网页内容,用搜索引擎类比一次看懂

💡 适合谁

看过 Transformer 架构图但一直没完全搞懂的工程师。或者想读懂 LLM 相关论文摘要的技术从业者。

📦 课程包含

  • 60 分钟视频 + 零公式
  • RNN vs Transformer 并行能力对比图
  • Q·K·V 的搜索引擎类比
  • "Attention 是 Scaling Law 的物理基础" 完整论证
  • 衔接 L22 llm-concepts Lab 可视化练习

✅ 学完能做什么

你能向同事用 5 句话解释 "Transformer 为什么取代 RNN",能看懂任何 LLM 论文里的 Attention 相关段落,能理解为什么 Transformer 是支撑 GPT-3 / GPT-4 / Claude 4 的核心架构。

L22🧪 LAB

Lab: LLM Concepts — Attention & Tokens

30min

🎯 这节课解决什么问题

上一节你学了 Attention 的理论,但"听过"和"看过" 差一截。这个 Lab 让你亲眼看 Attention 权重分布 + Token 拆分 —— 当你输入一句话,Transformer 内部到底怎么"读"它?10 分钟让你把所有 Transformer 术语从抽象变成可视化。

📖 你将学到

  • Token 可视化 — 你输入的句子被拆成几个 token?每个 token 怎么变成向量?context window 到底是什么感觉
  • Attention 热力图 — 输入一句话,看 Self-Attention 权重矩阵——每个 token 在"关注"哪些其他 token
  • Multi-Head 差异 — 同一个 attention 层不同 head 关注完全不同的语义信息

💡 适合谁

想把 Transformer 从"数学公式"变成"可观察现象"的工程师。视觉学习者特别受益,10 分钟的动手胜过读 10 篇博客。

📦 课程包含

  • 1 个浏览器内互动 Lab(LLM Lab: llm-concepts)
  • Token 拆分 + Attention 热力图两个交互面板
  • 3 个不同句子的对比实验
  • 约 30 分钟动手时间

✅ 学完能做什么

"Self-Attention"、"Multi-Head"、"Context Window" 这些词你看到都有视觉化的直觉,不再是 paper 里的符号。下次读 Anthropic 的 Interpretability 博客(他们经常可视化 attention)你不会再跳过技术段落。

L23VIDEO

Language Models (LM)

60min

🎯 这节课解决什么问题

"Language Model" 这个词被用得太随意——n-gram 是 LM、LSTM 是 LM、GPT 也是 LM。它们本质上在做同一件事:预测下一个 token。但从 n-gram 到 GPT 中间跨越了 50 年。搞清楚这个演化路径,你才能理解 Scaling Law 为什么这么震撼。

📖 你将学到

  • 三代语言模型 — 统计(n-gram)→ 神经(word2vec / LSTM)→ Transformer(GPT / BERT),每一代解决的痛点是什么
  • Perplexity 指标 — 怎么衡量一个语言模型"好不好",为什么越低越好
  • Scaling Law — OpenAI 2020 论文的核心发现:模型 + 数据 + 算力 都堆上去,效果呈幂律提升——这是 GPT-3 / GPT-4 军备竞赛的理论基础
  • 涌现能力 — 为什么 Scaling 到一定规模模型会"突然"会做某些事

💡 适合谁

想理解"为什么大家都在堆参数量"的技术从业者。Scaling Law 不是营销概念,是真实的可验证规律,理解它你就能预测未来 5 年的模型演化。

📦 课程包含

  • 60 分钟视频覆盖 LM 定义 + 三代演化 + Scaling Law
  • Perplexity 直观讲解 + 真实对比数据
  • 涌现能力的 5 个经典例子

✅ 学完能做什么

你能解释"为什么 Llama 3 405B 比 70B 强"(不只是"参数多",是 Scaling Law 的可预测性),能读懂 Kaplan 等人的 Scaling Law 论文的结论,能判断下一代模型大概率在哪个方向突破。

L24VIDEO

The Transformer Architecture

60min

🎯 这节课解决什么问题

Transformer 的完整结构图上有一堆模块:Embedding、Positional Encoding、Multi-Head Attention、Add & Norm、Feed-Forward、Residual Connection——每一个都有明确的角色。这节课把整张图拆开讲清楚,你就能看懂 90% 的 LLM 论文架构章节。

📖 你将学到

  • 一个 Transformer Block 的组件 — Attention + FFN + 两次 Add & Norm 的完整流程
  • 三种 Transformer 变体 — Encoder-only(BERT)/ Decoder-only(GPT)/ Encoder-Decoder(T5),各自适合什么任务
  • 为什么现在都是 Decoder-only — GPT / Claude / Llama / Mistral 全选了这条路线的原因
  • 残差连接的关键作用 — 没有残差,100+ 层的 LLM 根本训不起来

💡 适合谁

看 LLM 论文看到 "architecture" 章节就跳过的工程师。这节课帮你把跳过的段落补回来。

📦 课程包含

  • 60 分钟视频 + 完整 Transformer 架构图分解
  • Encoder / Decoder / Encoder-Decoder 三变体对比
  • 残差连接 + LayerNorm 的作用图解
  • BERT / GPT / T5 的典型应用场景

✅ 学完能做什么

你能看懂 GPT-4 / Claude / Llama 的架构图每一个模块在做什么,能解释为什么现代 LLM 都是 Decoder-only,能和 ML 工程师讨论 "为什么残差连接让深层网络可训"。

L25VIDEO

Input Embeddings

60min

🎯 这节课解决什么问题

LLM 不直接处理文字——它处理数字。Tokenizer 把文字变数字,Embedding 把数字变向量,Positional Encoding 告诉模型"谁在前谁在后"。这三步决定了 LLM 怎么"读"你的 prompt,也决定了你的 API 账单。理解它你就知道为什么一个中文字比一个英文单词贵 2 倍。

📖 你将学到

  • BPE 分词器 — 常用词一个 token、生僻词拆 subword,英文 1.3 token / 词,中文 1.5-2 token / 字
  • Embedding 矩阵 — 50K 词表 × 1536 维 = 一张超大查表,训练时一起学
  • Positional Encoding — 从原始 sin/cos 到现代 RoPE,为什么位置信息必须手动加
  • Context Window 的上限由来 — Attention O(n²) 复杂度 + 训练长度限制,为什么不能无限扩

💡 适合谁

想搞懂 "为什么我的 API 账单里 token 数和字数对不上" 的工程师。这节课让你对 token 计费有精确直觉。

📦 课程包含

  • 60 分钟视频覆盖 Tokenizer / Embedding / Positional Encoding
  • 中英文 token 数对比表
  • OpenAI tokenizer 在线工具使用教程
  • Context Window 从 GPT-3 的 2K 到 Claude 的 1M 的演化史

✅ 学完能做什么

你能精确预估一段文字会消耗多少 token,能决定什么时候该 RAG 什么时候能直接塞长 context,能理解 "为什么 1M context 很贵"——这是成本优化的底层知识。