Phase 4: 模型优化 + AI Evals + 毕业

Week 10-12 · 直播 + 项目 · Open-Weight Models + Fine-Tuning + Eval + 毕业展示
Week 10 · Open-Weight Models + Fine-Tuning 直播
10.1

Open-Weight Models + Model Routing

直播
📖 教学内容

2026 Open-Weight 模型格局
- DeepSeek:1M context window,$0.14/M tokens,性价比碾压闭源
- Qwen 3.5:397B MoE 架构,支持 201 种语言,中文任务最强
- Llama 4:89% GPT-4.5 性能,Meta 生态加持
- 企业 Open-Weight 采用率从 2024 年的 23% 飙升到 67%

Model Routing 策略
- 核心思路:80% 简单请求走便宜的 Open-Weight 模型,20% 复杂任务走 GPT-4o/Claude
- Router 实现:根据 query 复杂度、token 长度、任务类型自动分流
- 成本计算:自建推理服务 vs API 调用的 break-even point

本地部署选项
- vLLM:生产级推理服务器,支持 continuous batching
- Ollama:本地开发测试,一行命令跑模型
- Together AI:托管推理服务,免运维

vLLMOllamaTogether AIHuggingFace Hub
🔬 Lab 实操

1. 下载 DeepSeek/Qwen 模型,用 vLLM 部署本地推理服务
2. 实现 Model Router:根据 query 复杂度自动选择模型
3. 对比:Open-Weight 本地推理 vs API 调用的延迟和成本
4. 压测:不同并发量下 vLLM 的吞吐和延迟表现

🤖 Router 分流准确率验证
📋 作业

为 ISA 实现 Model Routing:
- 简单问题(FAQ、闲聊)走 DeepSeek
- 复杂问题(多步推理、代码生成)走 Claude
- 提交成本分析报告:对比纯 API vs Routing 方案的月度成本

👨‍🏫 架构 Review
10.2

Fine-Tuning: QLoRA + Unsloth

直播
📖 教学内容

何时 Fine-Tuning vs RAG vs Prompt
- RAG:知识更新频繁、需要引用来源、数据量大
- Fine-Tuning:固定输出模式、低延迟要求、特定风格/格式
- Prompt Engineering:快速迭代、不需要训练资源
- 组合拳:Fine-Tuned Model + RAG 是生产环境常见方案

PEFT + QLoRA 原理
- LoRA:低秩分解,只训练 A×B 矩阵,参数量减少 99%+
- QLoRA = 4-bit 量化 + LoRA,消费级 GPU 可用
- rank、alpha、target_modules 参数怎么选

2026 微调加速工具
- Unsloth:2x 训练速度、60% 更少显存,社区最流行的微调加速库
- LLaMA-Factory:Web GUI 微调,不写代码也能 Fine-Tune

SDG (Synthetic Data Generation)
- 用 GPT-4o 生成训练数据 + 质量过滤 pipeline
- 微调全流程:数据准备 → QLoRA 配置 → 训练 → 评估 → 合并导出 → HuggingFace 发布

UnslothQLoRALLaMA-FactoryHuggingFaceGoogle Colab
🔬 Lab 实操

1. 用 Unsloth + QLoRA 在 Colab 上微调 Llama 4 / Qwen 3.5
2. 对比 Unsloth vs 标准 PEFT 的训练速度和显存占用
3. 用 SDG 生成 500 条训练数据 + 质量过滤 pipeline
4. 评估微调前后的效果:perplexity、task-specific metrics

🤖 训练指标验证
📋 作业

提交 Fine-Tuning 完整报告:
- 训练配置(hyperparameters)
- Loss 曲线截图
- 微调前后的对比评测
- 上传模型到 HuggingFace Hub

👨‍🏫 Fine-Tuning 结果 Review
📹 Week 10 自学内容
INFO
Open-Weight Model Landscape 2026
DeepSeek vs Qwen vs Llama vs Mistral — 性能、成本、License 对比
INFO
Fine-Tuning Toolkit 对比
Unsloth vs LLaMA-Factory vs Axolotl — 哪个适合你的场景
INFO
Model Routing 最佳实践
按复杂度分流请求,用 20% 的成本覆盖 80% 的场景
Week 11 · AI Evaluation Engineering + Safety 直播
11.1

AI Evaluation Engineering

直播
📖 教学内容

"AI Eval Engineer" 已经是独立岗位,评估能力和开发能力同等重要。你写的 Agent 好不好,不是靠感觉,是靠数据。

三层评估框架
1. Offline Evals — 用测试集跑批量评估(Accuracy, F1, BLEU, BERTScore)
2. Online Evals — 生产环境实时质量监控,catch regression
3. Human Evals — 人工抽检 + 标注,校准自动评估的偏差

幻觉检测
- Faithfulness 评分:LLM 输出和 Context 的一致性
- Cross-reference 验证:多源交叉检查
- Source attribution:输出能否追溯到原始文档

自动化 Eval Pipeline
- CI/CD 集成:每次 Prompt/Model 变更自动跑评估
- 基线管理:跟踪分数趋势,防止质量退化

LangSmithBraintrustRAGASDeepEval
🔬 Lab 实操

1. 构建完整 Eval Pipeline:100 条测试用例 → 自动评估 → 生成报告
2. 实现幻觉检测器:检查 LLM 输出是否忠实于 Context
3. 对比 LangSmith vs Braintrust 的评估体验和易用性
4. 将 Eval 集成到 CI — Prompt 变更自动触发评估

🤖 Eval 分数验证
📋 作业

为 ISA 项目构建自动化 Eval Pipeline:
- Eval 配置文件 + 100 条测试用例
- 基线分数记录
- 至少一轮优化后的分数
- 改进分析报告:哪些 case 提升了、为什么

👨‍🏫 Eval Pipeline Review
11.2

Safety, Guardrails + Red-teaming

直播
📖 教学内容

AI Safety 不是学术话题,是生产必需品。你的 Agent 上线后,用户会用你想不到的方式使用它。

Input Guardrails
- Prompt Injection 检测:识别恶意指令注入
- PII 过滤:自动检测并脱敏个人信息
- Topic 限制:让 Agent 只回答业务范围内的问题

Output Guardrails
- 内容过滤:阻止有害、偏见内容输出
- 格式验证:确保输出符合预期 schema
- Confidence 阈值:低置信度时主动说"我不确定"

Red-teaming 实战
- 系统性攻击你自己的 AI 系统
- Jailbreak 测试、边界情况枚举、对抗性输入生成
- 目标:上线前发现问题,而不是让用户帮你发现

合规要求
- EU AI Act、NIST AI RMF — 对你的系统意味着什么
- 不是"要不要合规",是"客户会问你合不合规"

Guardrails AINeMo GuardrailsLangSmith
🔬 Lab 实操

1. 为 ISA 添加 Input/Output Guardrails
2. Red-team 你自己的 Agent:用 10 种攻击手法测试,记录成功/失败
3. 实现 PII 检测 + 自动脱敏 pipeline
4. 写 Guardrails 配置文件 + 对应测试用例

🤖 攻击测试通过率
📋 作业

提交 Safety 报告:
- 10 种攻击手法 + 每种的防御措施
- 攻击通过率(目标 < 10%)
- Guardrails 配置文件 + 测试用例
- PII 脱敏 demo

👨‍🏫 Safety Review
📹 Week 11 自学内容
INFO
AI Eval Tools 全景 2026
LangSmith vs Braintrust vs RAGAS vs DeepEval vs Maxim — 选型指南
INFO
Red-teaming Playbook
常见 LLM 攻击手法和防御策略,含 10+ 实战案例
INFO
EU AI Act 开发者指南
AI 合规要求速查:哪些条款影响你的系统设计
Week 12 · P3 Demo Day + 职业发展 直播 · Demo Day
12.1

P3 职业孵化器 Demo Day

直播 · Demo Day
📖 展示内容

每组 15-20 分钟展示:

1. 问题定义 — 解决什么问题、为什么重要
2. 技术架构 — 用了哪些技术、为什么这么选
3. Live Demo — 现场演示核心功能
4. 技术亮点 — 最有技术含量的部分
5. 反思 — 踩了什么坑、如何改进

🔬 评审标准

技术 (40%):架构设计、代码质量、工程化程度

产品 (30%):解决真实问题、用户体验

展示 (20%):清晰表达、Demo 流畅度

创新 (10%):有没有做出竞品没有的东西

2026 加分项:用了 Agent SDK + GraphRAG + Eval Pipeline + Agent Memory

👨‍🏫 老师 + 嘉宾评审
📋 提交

- GitHub 仓库(含 README)
- Demo URL 或视频
- 技术文档
- 演示 PPT

优秀项目有机会作为 JR Academy showcase 展示

12.2

AI Engineer 职业路径 + 简历 Workshop

直播
📖 教学内容

2026 AI Engineer 岗位图谱
- AI Engineer — 全栈 AI 应用开发
- AI Agent Developer — 专注 Agent 系统设计
- AI Eval Engineer — 评估、质量保障、Red-teaming
- AI Platform Engineer — 基础设施、MLOps、模型部署

薪资数据(澳洲市场)
- Junior: $100-150K
- Mid: $150-220K
- Senior: $220-350K+

面试准备
- System Design for AI:设计一个 RAG 系统、设计一个 Agent
- 技术深度题:RAG 优化策略、Agent 架构设计、Eval 方法论
- 行为面试:如何处理 AI 幻觉问题、如何选择模型

🔬 互动环节

LinkedIn & CV Workshop
- 用 12 周学到的技术栈重写简历
- LinkedIn profile 优化:突出 AI Engineer 关键词
- 项目描述怎么写才有说服力

1v1 简历点评(时间允许的情况下)

👨‍🏫 简历 Review
📋 毕业产出

完成 12 周后,你拥有:
- 7 个 GitHub 实战项目
- ISA 全栈 AI 应用(Context Engineering + RAG + GraphRAG + Agent + Memory + Eval)
- P3 职业孵化项目作品
- 更新后的技术简历

📹 补充学习材料
VIDEO
LinkedIn & CV
LinkedIn profile 优化和 AI Engineer 简历写法
VIDEO
往期 P3 项目案例
往期优秀 P3 职业孵化项目案例分享
INFO
AI 模型对比参考
GPT-4o vs Claude 4 vs Gemini 2.5 vs DeepSeek — 2026 性能对比
INFO
LLM API 入门
各家 LLM API 快速入门指南
INFO
Context Engineering Playbook
从 Prompt Engineering 到 Context Engineering 的方法论升级
INFO
RAG 系统入门
RAG 系统设计和实现参考
INFO
Agent SDK 对比参考
OpenAI Agents SDK vs LangGraph vs CrewAI vs Mastra — 选型指南
INFO
Evaluation & Quality Monitoring
LLM 应用评估和质量监控体系