Lakehouse 架构正在取代传统数据仓库,这张证是进入 Databricks 生态的最快路径。
先把考试形式、适合人群、备考时长和学习范围讲清楚,再决定要不要投入时间。
Databricks Certified Data Engineer Associate 验证你在 Databricks Lakehouse 平台上构建和维护数据管道的能力。45 题,90 分钟,及格线约 70%,考试费 $200 USD,认证有效期 2 年。
考试 5 大域:数据摄取(30%)、数据处理与转换(31%)、生产化数据管道(18%)、数据治理(11%)和 Databricks 平台(10%)。数据摄取 + 处理加起来超过 60%,考的是 Auto Loader、COPY INTO、Delta Lake MERGE INTO、Structured Streaming 这些 Databricks 特有的工具链。
与 Databricks Data Engineer Professional 的区别:Associate 考"你会不会用这些工具",Professional 考"给你一个复杂的多跳 ETL 管道场景,你怎么设计错误处理和数据质量检查"。
Databricks Data Engineer Associate 持证人的薪资区间、对应岗位、以及真实的职业影响。
Databricks 的市场增长
Databricks 在 2024 年的 ARR(年度经常性收入)突破 $2.4B,同比增长 50%+。越来越多的企业从 Snowflake 或传统数据仓库迁移到 Databricks Lakehouse。数据工程岗位中提到"Databricks"的 JD 占比从 2022 年的 8% 增长到 2025 年的 22%(澳洲 Seek 数据)。
适合考的人:有 SQL 和 Python 基础、正在学习或使用 Spark 的数据工程师。考试可以选择 Spark SQL 或 PySpark 作答,选自己熟悉的。
不适合考的人:完全没用过 Databricks 平台的人。考试题目假设你知道 Databricks Workspace 的界面、Notebook 的基本操作、Cluster 的启动方式。建议先注册 Databricks Community Edition(免费)跑几个 Notebook。
过来人总结的分阶段备考节奏,按周拆分,不是空话。
Delta Lake 的 ACID 事务、Time Travel(VERSION AS OF / TIMESTAMP AS OF)、OPTIMIZE + Z-ORDER 文件压缩、VACUUM 清理旧版本文件。理解 Delta Lake 和普通 Parquet 的区别 — Delta 有事务日志(_delta_log)。
Auto Loader(cloudFiles 格式)vs COPY INTO 的选择:Auto Loader 适合持续增量摄取,COPY INTO 适合一次性批量加载。Structured Streaming 的 trigger 模式(processingTime/availableNow/once)。MERGE INTO 的 upsert 逻辑。
Databricks Workflows 的多任务 Job(Task Dependencies、Retry Policy)。Unity Catalog 的三层命名空间(catalog.schema.table)和 GRANT/REVOKE 权限模型。做 Databricks 官方 Practice Exam + 1-2 套第三方模考。
过来人的备考时长、分数、以及踩过的坑。
有 Spark 经验的话 3 周够了。最容易出错的是 Auto Loader 和 COPY INTO 的区别题 — 记住 Auto Loader 用 checkpointLocation 跟踪已处理文件,COPY INTO 用内部状态。另外 MERGE INTO 的语法(WHEN MATCHED / WHEN NOT MATCHED)至少出了 3 题。
没用过 Spark 的话比较吃力。PySpark DataFrame API 的题可以跳过选 Spark SQL 版本 — 但 Delta Live Tables 的声明式语法必须理解,考试出了好几题。
| Databricks Data Engineer Associate | Databricks Data Engineer Professional | Databricks DEA | |
|---|---|---|---|
| 机构 | 其他 | 其他 | 其他 |
| 级别 | 助理级 | 专业级 | 助理级 |
| 考试费 | $0 | $0 | $0 |
| 时长 | 90 min | 90 min | 90 min |
| 题量 | 65 | 65 | 65 |
| 有效期 | 3 年 | 3 年 | 3 年 |
**选 SQL 还是 PySpark**:考试两种都出,但如果你更熟悉 SQL,大部分题都可以用 SQL 思维解答。
**Delta Live Tables 声明式语法**:知道 @dlt.table 和 @dlt.view 的区别 — table 是物化的,view 是虚拟的。
**45 题 90 分钟很充裕**:平均每题 2 分钟,大部分题不需要计算,认真读题即可。
**Auto Loader vs COPY INTO 选错** — Auto Loader 自动发现新文件(基于 checkpointing),适合流式摄取;COPY INTO 需要手动触发,适合批量加载。题目说"每小时新增文件"选 Auto Loader。
**VACUUM 的保留期** — 默认保留 7 天的历史版本,低于 7 天的 VACUUM 需要关闭安全检查(spark.databricks.delta.retentionDurationCheck.enabled = false)。考试会问"为什么 VACUUM 报错"。
**Unity Catalog 权限继承** — Catalog 级别的 GRANT 自动继承到下面的 Schema 和 Table,但 Table 级别的 GRANT 不向上继承。
131+ 练习题、章节学习路径、模考、错题复盘和 AI 导师都在备考页里。
进入备考页$29 起 · 前 2 章可免费试学