Prepare for the Databricks Machine Learning Professional exam with 54+ practice questions covering MLflow, model deployment, feature engineering, and ML monitoring.
如果你所在公司已经在 Databricks 上跑 ML 管线,这张证是目前市面上唯一"真·考 MLOps 工程"的 Professional 级认证 — 考的不是算法,是 MLflow Registry、Feature Store、Model Serving、Lakehouse Monitoring 的实战细节。
Unlock all certifications, courses & tools at a fraction of the cost
This page is structured for quick scanning first: exam format, fit, prep time, and the actual study scope.
Databricks Certified Machine Learning Professional(MLP)是 Databricks 三张 ML 系列证书里的顶级(Practitioner → Associate → Professional),定位给"已经在 Databricks 平台上交付过生产级 ML 项目"的工程师。和 Associate 的最大区别:Associate 考 SparkML API 和基础 MLflow 用法,MLP 考的是把一个模型从实验跑到线上、再监控到下线的完整生命周期决策 — 你会遇到大量"给你一个场景,选最合适的 MLflow 模式/部署策略/监控方案"的题。
考试基本参数:$200 USD、在线监考(Kryterion Webassessor)、60 道题、120 分钟、通过分 70%、证书有效期 2 年(到期前可以做免费的 Recertification 续证,这点比 AWS Specialty 的重考 + 再交钱友好得多)。题型以单选和多选为主,没有 ordering 或 hands-on lab。
考纲 4 大领域权重:
一个经常被忽视的变化:Databricks 2024 年开始把 Model Registry 从 Workspace-scoped 迁移到 Unity Catalog-scoped(即 "Models in UC")。新考纲默认你在 UC 下用 "catalog.schema.model_name" 三段式命名 + aliases(Champion/Challenger)替代原来的 Stages(None/Staging/Production/Archived)。如果你看的还是 2023 年的老教程,很多题会答错 — 这是 MLP 最大的版本坑,考前必须确认自己学的是 UC 版本的 Registry。
跟 AWS MLA-C01、Azure AI-102 的定位差别:MLA 考 SageMaker 全家桶的用法(偏场景广度),AI-102 考 Azure AI 服务的集成(偏产品 API),MLP 考Databricks 一个平台内的 MLOps 深度 — 你要能说清楚 Feature Store 的 online lookup 为什么不能直接读 offline Delta 表、custom pyfunc model 为什么要重写 "predict()" 签名、Model Serving Endpoint 的 scale-to-zero 会给首次推理带来多少延迟。这张证没有水分,但覆盖面窄,只有 Databricks 工作场景下才值回票价。
Salary ranges, target job titles, and the real career impact of holding Databricks MLP.
为什么 MLP 持证人的薪资处于 ML 岗位的上四分位
ML Engineer 本身就属于云岗位的 premium 档位,而带 Databricks + MLflow + Feature Store 技能栈的 Senior ML Engineer 又在 ML 岗位里处于上四分位。Levels.fyi 2026 Q1 数据显示,美国 Senior MLE 中位数 $205k,Staff MLE $265k;其中标注 "Databricks" 或 "MLflow" 的岗位中位数再加 $15-25k。原因不是这张证本身值钱,而是用 Databricks 跑生产 ML 的公司普遍是金融、医疗、零售大厂(Block、Comcast、Shell、HSBC、Rivian、Condé Nast、丰田),这些公司的 ML 预算和岗位级别都在 senior 以上。
各市场真实行情(2026 数据)
真正值得考 MLP 的三类人
不建议考的人
A concrete week-by-week plan from past test-takers — not generic advice.
在正式学习前先做一件事:登录你公司的 Databricks Workspace,检查是否启用 Unity Catalog。如果是,MLflow Registry 会显示三段式 `catalog.schema.model`;如果不是(老 Workspace),显示的是 Stages。两者考法完全不同。MLP 2025 年后的考纲以 UC 版本为准,所以如果你公司还是老 workspace,必须开一个 Databricks Free Trial(14 天 + $400 credit)启用 UC 专门练习。这一周的目标:在 UC 下建 catalog → 注册一个 sklearn 模型 → 设置 @champion/@challenger aliases → 用 `mlflow.set_registry_uri("databricks-uc")` 把客户端指向 UC。不做这一步直接刷题会被版本差异坑惨。
customer-academy.databricks.com 上的 "Machine Learning Professional Learning Plan" 是备考主干材料,免费自学。重点过这几门:Scaling Machine Learning Pipelines、MLflow Model Registry with Unity Catalog、Automated Deployment with Databricks Asset Bundles、Monitoring Machine Learning Models。每门课都带 Notebook 实验 — 必须自己动手跑一遍,不要只看视频。尤其是 Feature Store 那节的 online table 创建实验 — 考试里至少有 3-5 题跟 online vs offline 读取路径相关,没亲手跑过一次根本记不住 `create_training_set` 和 `score_batch` 的参数差别。
这一阶段专门打 MLP 的 4 个送分/送命点:(1) **Custom pyfunc model 打包** — 什么时候要自定义 `PythonModel` 子类、`load_context` 和 `predict` 的调用顺序、如何在 model 里带 preprocessing 逻辑。(2) **Pandas UDF vs Spark UDF vs mapInPandas 的取舍** — batch inference 场景下哪个吞吐最高、哪个内存最稳、什么时候 iterator pattern 更合适。(3) **Lakehouse Monitoring 的三种 profile** — Snapshot 用于静态表、TimeSeries 用于有时间戳的 fact 表、InferenceLog 用于包含预测和 label 的推理日志表;考题会给你一个表结构让你选 profile 类型。(4) **Model Serving Endpoint 的 scale-to-zero 与 provisioned concurrency** — cold start 延迟、route traffic 的 canary 配置、AB 测试如何在一个 endpoint 上跑多个 model version。这四块搞透,考试基本稳过。
官方没有免费 Practice Exam(MLP 这张证点没有 Associate 级别那么体贴),要去 Databricks Academy 买 $99 的 Practice Assessment(60 题、与真题同源、最接近真实难度)— 这笔钱强烈建议花,MLP 第三方题库质量普遍很差,大量题目跟 Associate 混淆甚至考错版本。做 2 套全真模考,严格 120 分钟、关手机、不查资料。目标是连续 2 次 ≥ 80% 再约正式考。Databricks 在线监考规则严格:桌面不能有任何物品(包括水杯)、不能戴手表耳机、房间 360° 扫描、全程录像。提前 30 分钟 check-in 避免技术问题。
What it actually took for real candidates to pass — prep time, scores, and lessons learned.
我每天都在用 MLflow 和 Feature Store,以为 MLP 会很轻松,结果第一次模考才 61%。问题全在"平时只用默认参数"的细节上 — 比如 Model Serving Endpoint 的 workload size 和 concurrency 关系、custom pyfunc 的 `input_example` 为什么会影响 schema enforcement、UC 下 model alias 转移时 downstream job 怎么无缝切换。重点补了 Model Deployment 和 Lifecycle 两块,第三次模考 85% 才去正式考。考完最大的感受:MLP 不是"证明你会 ML",是"证明你懂 MLOps 的工程决策"— 题里没有算法推导,全是"给一个场景选最合适的实现方式"。
有 2 年 SageMaker 经验,转岗后公司让我 8 周内考下 MLP。MLOps 概念是通的(Registry、Monitor、Canary 这些跨平台共通),难的是 Databricks 特有的实现 — 尤其是 Feature Store 的 online table(SageMaker Feature Store 的 online store 概念相近但 API 完全不同)、Lakehouse Monitoring 的 profile 类型(SageMaker Model Monitor 只分 data/model/bias/attribution 四种,Databricks 按表结构分 Snapshot/TimeSeries/InferenceLog 三种,思路不一样)。第 5 周才真正搞懂 InferenceLog profile 要求表里同时有 prediction 和 label 列、label 可以延迟写入、monitor 会自动重算历史 window。险过,但值回票价 — 转岗后的 Principal MLE title 就是靠这张证 + 项目经验拿下来的。
我们公司整套基础设施就是 Databricks + Unity Catalog + MLflow + Feature Store + Model Serving,每天训练 + 部署 20+ 个模型,我自己负责 Monitoring 和 retrain pipeline。考 MLP 主要是补考纲里我没用过的部分 — 比如 Databricks Asset Bundles(我们团队用 Terraform 管理 infra,从来没用过 DAB),还有 Pandas API on Spark 和 Pandas UDF 的区别(我们 batch inference 都用 mapInPandas)。4 周速成靠的就是"缺什么学什么",不按课程顺序走。最大的教训:不要轻视 Experimentation 这 30% 的权重 — 我以为 MLflow Tracking 我天天用闭着眼都能过,结果考题里 parent/child run 的嵌套 autolog 行为、artifact 路径、`mlflow.evaluate()` 的 built-in metrics 这些我答了一半不确定。建议所有人都刷一遍官方 MLflow 文档的 Tracking 章节,不要跳过。
| Databricks MLP | Databricks DEA | AWS ML Engineer Associate | |
|---|---|---|---|
| Provider | 其他 | 其他 | AWS |
| Level | 专业级 | 助理级 | 助理级 |
| Fee | $0 | $0 | $150 |
| Duration | 90 min | 90 min | 170 min |
| Question count | 54 | 65 | 65 |
| Validity | 3 yrs | 3 yrs | 3 yrs |
**先确认你学的是 Unity Catalog 版本的 MLflow Registry**:这是 MLP 最大的版本坑。2024 年之后 Databricks 力推 "Models in UC",新考纲默认 UC 模型(aliases 替代 stages)。如果你的学习材料里还在讲 `transition_model_version_stage()` 和 Stages,那是 2023 年的老版本 — 必须换材料。最简单的验证方法:看是否出现 `mlflow.set_registry_uri("databricks-uc")` 和 `catalog.schema.model_name` 三段式命名。
**官方 Databricks Academy 的 Professional 学习路径是唯一可靠主力**:第三方 MLP 课程质量普遍很差(Udemy、AZ-400 style 题库都不靠谱),官方 Academy 虽然视频节奏慢但考点覆盖准确。配合官方文档的 Feature Engineering、Model Serving、Lakehouse Monitoring 三个章节精读。
**Databricks Academy 的 $99 Practice Assessment 值得买**:MLP 没有免费 practice exam,这套 60 题收费练习题是考前唯一可靠的真题模拟。别去找 ExamTopics 的 dump — MLP 这张证用的人不多,dump 质量参差且常常是 Associate 的题混进来。
**Custom pyfunc model 必须手写一遍**:考试至少 3-5 题涉及 `mlflow.pyfunc.PythonModel` 的 `load_context` 和 `predict` 方法。备考时一定要自己写一个简单的 custom model(例如 sklearn model + preprocessing 逻辑),打包、注册到 UC、用 `load_model` 加载回来、验证 predict 行为。没亲手写过纯靠背概念必错。
**Lakehouse Monitoring 的 3 种 profile 必须分清**:Snapshot(静态 baseline 表,没有时间戳)、TimeSeries(有 timestamp 列的时序数据)、InferenceLog(有 timestamp + prediction + label 的推理日志)。考题会给你一个表结构让你选 profile。口诀:"有 label 和 prediction 就是 InferenceLog,有 timestamp 无 prediction 就是 TimeSeries,都没有就是 Snapshot"。
**考试时遇到"最优"选项要想成本 vs 延迟 vs 吞吐 vs 准确性的 trade-off**:MLP 大量题是"给一个场景选最合适方案",不是"选技术上正确的方案"。看到"成本最低" → 倾向 batch + scale-to-zero;看到"延迟最低" → 倾向 provisioned serving + online feature store;看到"吞吐最高" → 倾向 Pandas UDF 或 mapInPandas;看到"易于维护" → 倾向 Databricks Asset Bundles + CI/CD。别选技术最炫的,选场景最贴的。
**在线监考细节**:桌面只能有电脑,手机要放到摄像头看不到的地方,不能戴手表耳机水杯都不行。房间 360° 扫描,背景要干净。监考员会随机要求你把手腕和耳朵再照一遍。网络用网线不用 WiFi。提前 30 分钟 check-in。考试中间不能上厕所(120 分钟一口气)— 考前 2 小时少喝水。
**证书有效期 2 年,续证免费**:到期前会收到 Databricks 邮件,登录 Credentials 门户做 Recertification(25 题、在线、时间短),不用重新交 $200。这是 Databricks 系列证书相比 AWS Specialty 最大的性价比优势。
**Feature Store 的 online table 和 offline table 混淆** — Offline Feature Store 就是 Delta 表(存在 UC 的 catalog.schema 下),用 `create_training_set()` 读取,走 batch 路径、延迟分钟级、支持时间点 join(point-in-time correctness)避免 label leakage。Online Feature Store 是同步出去的 key-value 存储(背后是 Databricks 管理的 online store 或者第三方如 DynamoDB、Cosmos DB),用 `lookup` API 读取、走 REST 路径、延迟毫秒级、用于 Model Serving Endpoint 的低延迟推理。考题常见陷阱:"需要在 Model Serving Endpoint 内部查询用户历史特征" — 答案一定是 online table + feature serving endpoint,不是直接读 Delta 表(Delta 表读取延迟根本无法满足实时推理)。
**MLflow Model Registry Stages 和 UC Aliases 混用** — 老版本 Workspace Model Registry 用 Stages:None → Staging → Production → Archived,通过 `transition_model_version_stage()` 转换。新版本 Unity Catalog Model Registry 完全废弃 Stages,用 **aliases**(例如 `@champion`、`@challenger`、`@baseline`),通过 `set_registered_model_alias()` 设置,一个 model version 可以有多个 alias。考题会给一段代码让你判断哪个是 UC 版本、哪个是老版本。关键信号:`mlflow.set_registry_uri("databricks-uc")` + 三段式 `catalog.schema.model` 命名 = UC 版本;直接写 `model_name` + 出现 `stage="Production"` = 老版本。考试默认考 UC 版本。
**Drift 类型搞错导致监控方案选错** — Lakehouse Monitoring 支持多种 drift metric:**feature drift**(输入分布变化,用 JS divergence、Wasserstein distance)、**prediction drift**(模型输出分布变化,可以在没有 label 时就能检测)、**label drift**(真实标签分布变化,需要 ground truth)、**model quality drift**(精度/召回率下降,需要 ground truth + predictions 都写入 InferenceLog 表)。考题场景:"label 延迟 7 天才能回填,但希望第一时间发现问题" — 答案是监控 prediction drift 或 feature drift,不是等 label 到了才监控 model quality。场景:"客服分类模型 label 永远拿不到" — 只能监控 feature/prediction drift。
**AutoML 的限制认知错误** — Databricks AutoML 不是万能的:只支持 classification、regression、forecasting 三类问题;不支持 image、NLP(text embedding)、time series 的多变量场景;输入表必须是 Spark DataFrame 或 pandas DataFrame 且数据量有上限;生成的 notebook 是起点不是终点(需要人工优化 feature engineering)。考题陷阱:"用 AutoML 训练图像分类模型" — 错,AutoML 不支持图像。"AutoML 生成的 baseline 模型可以直接注册到生产" — 错,官方推荐用生成的 notebook 作为起点人工迭代。记住:AutoML = 快速 baseline + 生成可编辑 notebook,不是一键部署。
**Spark ML Pipeline 和 scikit-learn 的分布式误解** — Spark ML(pyspark.ml)的 Estimator/Transformer 是**真正分布式**的,训练数据分布在多节点、训练算法是 Spark 原生实现(LogisticRegression、RandomForest、GBT)。scikit-learn 是**单机**的,即使在 Databricks 上跑也只用 driver 节点的内存和 CPU — 要加速 sklearn 只能用 `joblibspark` backend 并行 hyperparameter search,或者用 pandas UDF 做 per-group 训练。考题场景:"2TB 训练数据,选什么框架" — 必须 Spark ML(sklearn 根本装不下)。场景:"10GB 数据,想要 sklearn 的丰富算法" — 可以 sklearn on single-node cluster,或者用 `spark_sklearn` 做 CV 并行。场景:"用 Hyperopt 做分布式超参搜索 sklearn 模型" — 正确,Hyperopt + SparkTrials 会把 trials 分到 executors。
**Batch inference 的 Pandas UDF vs Spark UDF 性能认知错** — 普通 Spark UDF(`@udf`)是按行调用 Python 函数、有序列化开销、每行都要过 JVM ↔ Python 边界,慢。Pandas UDF(`@pandas_udf`)是按批调用、用 Arrow 序列化、Python 端直接拿到 pandas Series/DataFrame、模型一次推理一批数据,快 10-100 倍。Iterator of Series pandas UDF 还能让你只加载一次模型(放在 UDF 外部 closure),避免每个 batch 重新 load。考题:"最优的 batch inference 实现" — 答案几乎总是 Iterator pandas UDF 或 `mapInPandas`。普通 UDF 是典型错误答案。
**Model Serving Endpoint 的 scale-to-zero 延迟被忽略** — Databricks Model Serving 支持 scale-to-zero(空闲时缩到 0 节省成本),但首次请求的 cold start 延迟是 **30-60 秒**(加载模型 + 启动容器)。这在实时推理场景下可能是灾难。考题场景:"用户面向的推荐接口,要求 p99 < 500ms" — 不能 scale-to-zero,必须 provisioned concurrency。场景:"内部日志分类 batch job,每天跑一次" — scale-to-zero 可以省钱。另一个陷阱:一个 endpoint 可以 host 多个 model version 并配置 traffic split 做 A/B(`served_models` + `traffic_config`),不需要开两个 endpoint。
54+ questions, chapter-by-chapter learning, mock exams, wrong-question review, and AI tutor support live in the exam page.
Go to exam prepFrom $39 · 2 free chapters