2026 Open-Weight 模型格局:
- DeepSeek:1M context window,$0.14/M tokens,性价比碾压闭源
- Qwen 3.5:397B MoE 架构,支持 201 种语言,中文任务最强
- Llama 4:89% GPT-4.5 性能,Meta 生态加持
- 企业 Open-Weight 采用率从 2024 年的 23% 飙升到 67%
Model Routing 策略:
- 核心思路:80% 简单请求走便宜的 Open-Weight 模型,20% 复杂任务走 GPT-4o/Claude
- Router 实现:根据 query 复杂度、token 长度、任务类型自动分流
- 成本计算:自建推理服务 vs API 调用的 break-even point
本地部署选项:
- vLLM:生产级推理服务器,支持 continuous batching
- Ollama:本地开发测试,一行命令跑模型
- Together AI:托管推理服务,免运维
1. 下载 DeepSeek/Qwen 模型,用 vLLM 部署本地推理服务
2. 实现 Model Router:根据 query 复杂度自动选择模型
3. 对比:Open-Weight 本地推理 vs API 调用的延迟和成本
4. 压测:不同并发量下 vLLM 的吞吐和延迟表现
为 ISA 实现 Model Routing:
- 简单问题(FAQ、闲聊)走 DeepSeek
- 复杂问题(多步推理、代码生成)走 Claude
- 提交成本分析报告:对比纯 API vs Routing 方案的月度成本
何时 Fine-Tuning vs RAG vs Prompt:
- RAG:知识更新频繁、需要引用来源、数据量大
- Fine-Tuning:固定输出模式、低延迟要求、特定风格/格式
- Prompt Engineering:快速迭代、不需要训练资源
- 组合拳:Fine-Tuned Model + RAG 是生产环境常见方案
PEFT + QLoRA 原理:
- LoRA:低秩分解,只训练 A×B 矩阵,参数量减少 99%+
- QLoRA = 4-bit 量化 + LoRA,消费级 GPU 可用
- rank、alpha、target_modules 参数怎么选
2026 微调加速工具:
- Unsloth:2x 训练速度、60% 更少显存,社区最流行的微调加速库
- LLaMA-Factory:Web GUI 微调,不写代码也能 Fine-Tune
SDG (Synthetic Data Generation):
- 用 GPT-4o 生成训练数据 + 质量过滤 pipeline
- 微调全流程:数据准备 → QLoRA 配置 → 训练 → 评估 → 合并导出 → HuggingFace 发布
1. 用 Unsloth + QLoRA 在 Colab 上微调 Llama 4 / Qwen 3.5
2. 对比 Unsloth vs 标准 PEFT 的训练速度和显存占用
3. 用 SDG 生成 500 条训练数据 + 质量过滤 pipeline
4. 评估微调前后的效果:perplexity、task-specific metrics
提交 Fine-Tuning 完整报告:
- 训练配置(hyperparameters)
- Loss 曲线截图
- 微调前后的对比评测
- 上传模型到 HuggingFace Hub
"AI Eval Engineer" 已经是独立岗位,评估能力和开发能力同等重要。你写的 Agent 好不好,不是靠感觉,是靠数据。
三层评估框架:
1. Offline Evals — 用测试集跑批量评估(Accuracy, F1, BLEU, BERTScore)
2. Online Evals — 生产环境实时质量监控,catch regression
3. Human Evals — 人工抽检 + 标注,校准自动评估的偏差
幻觉检测:
- Faithfulness 评分:LLM 输出和 Context 的一致性
- Cross-reference 验证:多源交叉检查
- Source attribution:输出能否追溯到原始文档
自动化 Eval Pipeline:
- CI/CD 集成:每次 Prompt/Model 变更自动跑评估
- 基线管理:跟踪分数趋势,防止质量退化
1. 构建完整 Eval Pipeline:100 条测试用例 → 自动评估 → 生成报告
2. 实现幻觉检测器:检查 LLM 输出是否忠实于 Context
3. 对比 LangSmith vs Braintrust 的评估体验和易用性
4. 将 Eval 集成到 CI — Prompt 变更自动触发评估
为 ISA 项目构建自动化 Eval Pipeline:
- Eval 配置文件 + 100 条测试用例
- 基线分数记录
- 至少一轮优化后的分数
- 改进分析报告:哪些 case 提升了、为什么
AI Safety 不是学术话题,是生产必需品。你的 Agent 上线后,用户会用你想不到的方式使用它。
Input Guardrails:
- Prompt Injection 检测:识别恶意指令注入
- PII 过滤:自动检测并脱敏个人信息
- Topic 限制:让 Agent 只回答业务范围内的问题
Output Guardrails:
- 内容过滤:阻止有害、偏见内容输出
- 格式验证:确保输出符合预期 schema
- Confidence 阈值:低置信度时主动说"我不确定"
Red-teaming 实战:
- 系统性攻击你自己的 AI 系统
- Jailbreak 测试、边界情况枚举、对抗性输入生成
- 目标:上线前发现问题,而不是让用户帮你发现
合规要求:
- EU AI Act、NIST AI RMF — 对你的系统意味着什么
- 不是"要不要合规",是"客户会问你合不合规"
1. 为 ISA 添加 Input/Output Guardrails
2. Red-team 你自己的 Agent:用 10 种攻击手法测试,记录成功/失败
3. 实现 PII 检测 + 自动脱敏 pipeline
4. 写 Guardrails 配置文件 + 对应测试用例
提交 Safety 报告:
- 10 种攻击手法 + 每种的防御措施
- 攻击通过率(目标 < 10%)
- Guardrails 配置文件 + 测试用例
- PII 脱敏 demo
每组 15-20 分钟展示:
1. 问题定义 — 解决什么问题、为什么重要
2. 技术架构 — 用了哪些技术、为什么这么选
3. Live Demo — 现场演示核心功能
4. 技术亮点 — 最有技术含量的部分
5. 反思 — 踩了什么坑、如何改进
技术 (40%):架构设计、代码质量、工程化程度
产品 (30%):解决真实问题、用户体验
展示 (20%):清晰表达、Demo 流畅度
创新 (10%):有没有做出竞品没有的东西
2026 加分项:用了 Agent SDK + GraphRAG + Eval Pipeline + Agent Memory
- GitHub 仓库(含 README)
- Demo URL 或视频
- 技术文档
- 演示 PPT
优秀项目有机会作为 JR Academy showcase 展示
2026 AI Engineer 岗位图谱:
- AI Engineer — 全栈 AI 应用开发
- AI Agent Developer — 专注 Agent 系统设计
- AI Eval Engineer — 评估、质量保障、Red-teaming
- AI Platform Engineer — 基础设施、MLOps、模型部署
薪资数据(澳洲市场):
- Junior: $100-150K
- Mid: $150-220K
- Senior: $220-350K+
面试准备:
- System Design for AI:设计一个 RAG 系统、设计一个 Agent
- 技术深度题:RAG 优化策略、Agent 架构设计、Eval 方法论
- 行为面试:如何处理 AI 幻觉问题、如何选择模型
LinkedIn & CV Workshop:
- 用 12 周学到的技术栈重写简历
- LinkedIn profile 优化:突出 AI Engineer 关键词
- 项目描述怎么写才有说服力
1v1 简历点评(时间允许的情况下)
完成 12 周后,你拥有:
- 7 个 GitHub 实战项目
- ISA 全栈 AI 应用(Context Engineering + RAG + GraphRAG + Agent + Memory + Eval)
- P3 职业孵化项目作品
- 更新后的技术简历