Phase 4: 模型优化 + AI Evals + 毕业

Week 10 · Open-Weight Models + Fine-Tuning 直播

10.1

Open-Weight Models + Model Routing

直播

📖 教学内容

2026 Open-Weight 模型格局：
- DeepSeek：1M context window，$0.14/M tokens，性价比碾压闭源
- Qwen 3.5：397B MoE 架构，支持 201 种语言，中文任务最强
- Llama 4：89% GPT-4.5 性能，Meta 生态加持
- 企业 Open-Weight 采用率从 2024 年的 23% 飙升到 67%

Model Routing 策略：
- 核心思路：80% 简单请求走便宜的 Open-Weight 模型，20% 复杂任务走 GPT-4o/Claude
- Router 实现：根据 query 复杂度、token 长度、任务类型自动分流
- 成本计算：自建推理服务 vs API 调用的 break-even point

本地部署选项：
- vLLM：生产级推理服务器，支持 continuous batching
- Ollama：本地开发测试，一行命令跑模型
- Together AI：托管推理服务，免运维

vLLMOllamaTogether AIHuggingFace Hub

🔬 Lab 实操

1. 下载 DeepSeek/Qwen 模型，用 vLLM 部署本地推理服务
2. 实现 Model Router：根据 query 复杂度自动选择模型
3. 对比：Open-Weight 本地推理 vs API 调用的延迟和成本
4. 压测：不同并发量下 vLLM 的吞吐和延迟表现

🤖 Router 分流准确率验证

📋 作业

为 ISA 实现 Model Routing：
- 简单问题（FAQ、闲聊）走 DeepSeek
- 复杂问题（多步推理、代码生成）走 Claude
- 提交成本分析报告：对比纯 API vs Routing 方案的月度成本

👨‍🏫 架构 Review

10.2

Fine-Tuning: QLoRA + Unsloth

直播

📖 教学内容

何时 Fine-Tuning vs RAG vs Prompt：
- RAG：知识更新频繁、需要引用来源、数据量大
- Fine-Tuning：固定输出模式、低延迟要求、特定风格/格式
- Prompt Engineering：快速迭代、不需要训练资源
- 组合拳：Fine-Tuned Model + RAG 是生产环境常见方案

PEFT + QLoRA 原理：
- LoRA：低秩分解，只训练 A×B 矩阵，参数量减少 99%+
- QLoRA = 4-bit 量化 + LoRA，消费级 GPU 可用
- rank、alpha、target_modules 参数怎么选

2026 微调加速工具：
- Unsloth：2x 训练速度、60% 更少显存，社区最流行的微调加速库
- LLaMA-Factory：Web GUI 微调，不写代码也能 Fine-Tune

SDG (Synthetic Data Generation)：
- 用 GPT-4o 生成训练数据 + 质量过滤 pipeline
- 微调全流程：数据准备 → QLoRA 配置 → 训练 → 评估 → 合并导出 → HuggingFace 发布

UnslothQLoRALLaMA-FactoryHuggingFaceGoogle Colab

🔬 Lab 实操

1. 用 Unsloth + QLoRA 在 Colab 上微调 Llama 4 / Qwen 3.5
2. 对比 Unsloth vs 标准 PEFT 的训练速度和显存占用
3. 用 SDG 生成 500 条训练数据 + 质量过滤 pipeline
4. 评估微调前后的效果：perplexity、task-specific metrics

🤖 训练指标验证

📋 作业

提交 Fine-Tuning 完整报告：
- 训练配置（hyperparameters）
- Loss 曲线截图
- 微调前后的对比评测
- 上传模型到 HuggingFace Hub

👨‍🏫 Fine-Tuning 结果 Review

📹 Week 10 自学内容

INFO

Open-Weight Model Landscape 2026

DeepSeek vs Qwen vs Llama vs Mistral — 性能、成本、License 对比

INFO

Fine-Tuning Toolkit 对比

Unsloth vs LLaMA-Factory vs Axolotl — 哪个适合你的场景

INFO

Model Routing 最佳实践

按复杂度分流请求，用 20% 的成本覆盖 80% 的场景

Week 11 · AI Evaluation Engineering + Safety 直播

11.1

AI Evaluation Engineering

直播

📖 教学内容

"AI Eval Engineer" 已经是独立岗位，评估能力和开发能力同等重要。你写的 Agent 好不好，不是靠感觉，是靠数据。

三层评估框架：
1. Offline Evals — 用测试集跑批量评估（Accuracy, F1, BLEU, BERTScore）
2. Online Evals — 生产环境实时质量监控，catch regression
3. Human Evals — 人工抽检 + 标注，校准自动评估的偏差

幻觉检测：
- Faithfulness 评分：LLM 输出和 Context 的一致性
- Cross-reference 验证：多源交叉检查
- Source attribution：输出能否追溯到原始文档

自动化 Eval Pipeline：
- CI/CD 集成：每次 Prompt/Model 变更自动跑评估
- 基线管理：跟踪分数趋势，防止质量退化

LangSmithBraintrustRAGASDeepEval

🔬 Lab 实操

1. 构建完整 Eval Pipeline：100 条测试用例 → 自动评估 → 生成报告
2. 实现幻觉检测器：检查 LLM 输出是否忠实于 Context
3. 对比 LangSmith vs Braintrust 的评估体验和易用性
4. 将 Eval 集成到 CI — Prompt 变更自动触发评估

🤖 Eval 分数验证

📋 作业

为 ISA 项目构建自动化 Eval Pipeline：
- Eval 配置文件 + 100 条测试用例
- 基线分数记录
- 至少一轮优化后的分数
- 改进分析报告：哪些 case 提升了、为什么

👨‍🏫 Eval Pipeline Review

11.2

Safety, Guardrails + Red-teaming

直播

📖 教学内容

AI Safety 不是学术话题，是生产必需品。你的 Agent 上线后，用户会用你想不到的方式使用它。

Input Guardrails：
- Prompt Injection 检测：识别恶意指令注入
- PII 过滤：自动检测并脱敏个人信息
- Topic 限制：让 Agent 只回答业务范围内的问题

Output Guardrails：
- 内容过滤：阻止有害、偏见内容输出
- 格式验证：确保输出符合预期 schema
- Confidence 阈值：低置信度时主动说"我不确定"

Red-teaming 实战：
- 系统性攻击你自己的 AI 系统
- Jailbreak 测试、边界情况枚举、对抗性输入生成
- 目标：上线前发现问题，而不是让用户帮你发现

合规要求：
- EU AI Act、NIST AI RMF — 对你的系统意味着什么
- 不是"要不要合规"，是"客户会问你合不合规"

Guardrails AINeMo GuardrailsLangSmith

🔬 Lab 实操

1. 为 ISA 添加 Input/Output Guardrails
2. Red-team 你自己的 Agent：用 10 种攻击手法测试，记录成功/失败
3. 实现 PII 检测 + 自动脱敏 pipeline
4. 写 Guardrails 配置文件 + 对应测试用例

🤖 攻击测试通过率

📋 作业

提交 Safety 报告：
- 10 种攻击手法 + 每种的防御措施
- 攻击通过率（目标 < 10%）
- Guardrails 配置文件 + 测试用例
- PII 脱敏 demo

👨‍🏫 Safety Review

📹 Week 11 自学内容

INFO

AI Eval Tools 全景 2026

LangSmith vs Braintrust vs RAGAS vs DeepEval vs Maxim — 选型指南

INFO

Red-teaming Playbook

常见 LLM 攻击手法和防御策略，含 10+ 实战案例

INFO

EU AI Act 开发者指南

AI 合规要求速查：哪些条款影响你的系统设计

Week 12 · P3 Demo Day + 职业发展直播 · Demo Day

12.1

P3 职业孵化器 Demo Day

直播 · Demo Day

📖 展示内容

每组 15-20 分钟展示：

1. 问题定义 — 解决什么问题、为什么重要
2. 技术架构 — 用了哪些技术、为什么这么选
3. Live Demo — 现场演示核心功能
4. 技术亮点 — 最有技术含量的部分
5. 反思 — 踩了什么坑、如何改进

🔬 评审标准

技术 (40%)：架构设计、代码质量、工程化程度

产品 (30%)：解决真实问题、用户体验

展示 (20%)：清晰表达、Demo 流畅度

创新 (10%)：有没有做出竞品没有的东西

2026 加分项：用了 Agent SDK + GraphRAG + Eval Pipeline + Agent Memory

👨‍🏫 老师 + 嘉宾评审

📋 提交

- GitHub 仓库（含 README）
- Demo URL 或视频
- 技术文档
- 演示 PPT

优秀项目有机会作为 JR Academy showcase 展示

12.2

AI Engineer 职业路径 + 简历 Workshop

直播

📖 教学内容

2026 AI Engineer 岗位图谱：
- AI Engineer — 全栈 AI 应用开发
- AI Agent Developer — 专注 Agent 系统设计
- AI Eval Engineer — 评估、质量保障、Red-teaming
- AI Platform Engineer — 基础设施、MLOps、模型部署

薪资数据（澳洲市场）：
- Junior: $100-150K
- Mid: $150-220K
- Senior: $220-350K+

面试准备：
- System Design for AI：设计一个 RAG 系统、设计一个 Agent
- 技术深度题：RAG 优化策略、Agent 架构设计、Eval 方法论
- 行为面试：如何处理 AI 幻觉问题、如何选择模型

🔬 互动环节

LinkedIn & CV Workshop：
- 用 12 周学到的技术栈重写简历
- LinkedIn profile 优化：突出 AI Engineer 关键词
- 项目描述怎么写才有说服力

1v1 简历点评（时间允许的情况下）

👨‍🏫 简历 Review

📋 毕业产出

完成 12 周后，你拥有：
- 7 个 GitHub 实战项目
- ISA 全栈 AI 应用（Context Engineering + RAG + GraphRAG + Agent + Memory + Eval）
- P3 职业孵化项目作品
- 更新后的技术简历

📹 补充学习材料

VIDEO

LinkedIn & CV

LinkedIn profile 优化和 AI Engineer 简历写法

VIDEO

往期 P3 项目案例

往期优秀 P3 职业孵化项目案例分享

INFO

AI 模型对比参考

GPT-4o vs Claude 4 vs Gemini 2.5 vs DeepSeek — 2026 性能对比

INFO

LLM API 入门

各家 LLM API 快速入门指南

INFO

Context Engineering Playbook

从 Prompt Engineering 到 Context Engineering 的方法论升级

INFO

RAG 系统入门

RAG 系统设计和实现参考

INFO

Agent SDK 对比参考

OpenAI Agents SDK vs LangGraph vs CrewAI vs Mastra — 选型指南

INFO

Evaluation & Quality Monitoring

LLM 应用评估和质量监控体系