MLOps 工程师

MLOps Engineer

技术岗快速增长2023 大规模招聘

打通 ML 模型开发到生产的全链路——构建自动化的训练、部署、监控和扩展管线,确保模型在生产环境稳定运行并带有版本管理和 CI/CD。GenAI 浪潮让需求量翻了几番,LinkedIn 数据:5 年内增长 9.8 倍。澳洲和新加坡的银行、电商和 SaaS 公司是亚太区最大雇主,薪资中位数 $151K-$183K。

💰
薪资范围$120K–$200K
🏢
招聘企业Netflix · Grab · Atlassian
🌍
热门地区
美国澳洲新加坡印度英国中国
核心技能ML Pipeline · K8s · 模型部署

在匠人学院系统学习这个方向

以下是 JR Academy 真实在售的课程,点击直接查看完整大纲和报名入口

岗位 JD 分析

核心职责

  • 构建和维护 ML 模型的 CI/CD 管线——从训练、验证到部署、监控的全自动化流程
  • 管理模型版本控制、实验追踪和模型注册中心(MLflow、Weights & Biases)
  • 设计 ML 服务的基础设施:GPU 集群管理、模型推理服务、自动扩缩容
  • 实现模型监控:数据漂移检测、性能退化告警、A/B 测试框架
  • 优化推理性能和成本——模型量化、蒸馏、缓存策略

必备要求

  • 3+ 年 DevOps/SRE 经验,精通 Kubernetes、Docker、Terraform
  • 熟悉至少一个 ML 平台(SageMaker、Vertex AI、Azure ML、Kubeflow)
  • 掌握模型部署技术:TorchServe、Triton、vLLM、ONNX Runtime
  • 了解 ML 训练流程和常见框架(PyTorch、TensorFlow)
  • 精通 Python 和 Shell 脚本,有 CI/CD 工具(GitHub Actions、Jenkins)经验

加分项

  • 有 GPU 集群管理和分布式训练经验
  • 了解 LLM 推理优化技术(KV Cache、Speculative Decoding)
  • 有成本优化经验(Spot Instances、混合云策略)

典型的一天

上午:检查模型部署管线的夜间运行状态,修复失败的自动化任务
上午:Review 数据科学团队提交的新模型版本,验证性能指标达标后触发灰度发布
下午:优化推理服务的 GPU 利用率,调整 batch size 和并发策略降低成本
下午:配置新的数据漂移监控规则,为信用风控模型添加告警阈值
傍晚:升级 Kubernetes 集群和 ML 平台组件,准备下周的新模型上线

转型建议

适合转入的背景

DevOps / SRE 工程师:基础设施和自动化能力直接适用,补充 ML 知识即可后端工程师:有微服务和 API 经验,学习 ML 部署链路快数据工程师:熟悉数据管线,扩展到模型管线是自然延伸数据科学家:想要深入工程化实现,MLOps 是最佳方向

转型路径

  1. 第 1 步:学习 ML 基础——理解训练、验证、部署的完整流程(不需要深入算法)
  2. 第 2 步:掌握 MLflow 进行实验追踪和模型版本管理
  3. 第 3 步:在 Kubernetes 上部署一个 ML 推理服务,实现自动扩缩容
  4. 第 4 步:构建完整的 ML CI/CD 管线:代码提交→训练→验证→部署→监控
  5. 第 5 步:学习 LLM 特有的 MLOps 挑战(大模型部署、vLLM、推理优化),投递岗位

学习路线图

Phase 1: ML 基础 + 工具 (1-2 月)

学习 ML 模型训练和评估的基本流程掌握 MLflow:实验追踪、模型注册、模型服务了解 Docker 和 Kubernetes 在 ML 场景的应用

Phase 2: 管线构建 (2-4 月)

构建端到端 ML CI/CD 管线(GitHub Actions + MLflow + K8s)学习模型部署技术:TorchServe、Triton Inference Server实现数据漂移检测和模型性能监控掌握 GPU 资源管理和成本优化策略

Phase 3: LLM 运维 (4-6 月)

学习 LLM 推理优化:vLLM、量化、KV Cache掌握云 ML 平台(SageMaker 或 Vertex AI)的高级功能构建 LLM 应用的可观测性和成本治理体系

常见误区

误区

认为 MLOps 就是 DevOps 加个 ML 前缀,用同样的方法论

正解

ML 系统有独特挑战:数据版本控制、实验追踪、模型漂移监控都需要专门工具

误区

只关注部署自动化,忽略模型上线后的持续监控

正解

模型部署只是开始——数据漂移、性能退化等生产问题才是 MLOps 的核心价值

误区

试图同时精通 ML 算法和 MLOps 工程

正解

MLOps 工程师重点是工程化能力,理解 ML 基本流程即可,不需要自己设计模型

推荐学习资源

准备好了吗?

开始学习 MLOps 工程师 所需的核心技能