logo
其他助理级📊 数据

Databricks Certified Data Engineer Associate (DEA)

Prepare for the Databricks Data Engineer Associate exam with 150+ practice questions covering Lakehouse Platform, ELT pipelines, Delta Lake, and Unity Catalog.

$0
考试费
65
题量
90m
考试时长
70/100
及格分
?
一句话定论 · 看情况

Databricks 生态里的"入场券"— 如果你所在公司用 Databricks 或 Spark 重度场景,这是性价比极高的一张证;但如果你只是纯 SQL 数仓工程师、公司跑 Snowflake/BigQuery,含金量有限。

会员权益

JR 会员全站通

一个会员解锁全部认证题库、课程折扣和专属工具

  • 全部认证题库免费刷
  • 课程最高 5 折优惠
  • AI 工具 & Chrome 插件
  • 优先预约 1v1 导师
查看会员方案

这张认证到底考什么

先把考试形式、适合人群、备考时长和学习范围讲清楚,再决定要不要投入时间。

Databricks Certified Data Engineer Associate(DEA)是 Databricks 官方的入门级数据工程师认证,对标 AWS Data Engineer Associate(DEA-C01)、Microsoft DP-700(Fabric Data Engineer)、Google Professional Data Engineer。但跟这些"云厂商原生"证书不同,Databricks 的定位是"跨云的统一数据 + AI 平台"— 你可以在 AWS、Azure、GCP 三朵云上都部署同一套 Databricks Workspace,这让它在多云企业里特别吃香。

考试基本参数:$200 USD、在线监考(Kryterion Webassessor)、45 道单选 + 多选题、90 分钟、通过分 70%、证书有效期 2 年。到期前可以通过免费的 Recertification Exam(25 题、在线、不限时)续期,不用重新交 $200。

为什么 Databricks 值得认真对待:2024 年 Databricks 估值 $43B,是目前最大的"数据 + AI 平台"独角兽,客户名单里有 Comcast、Shell、HSBC、Condé Nast、Rivian、Block、丰田、AT&T。在 Snowflake 死咬"纯数仓"路线时,Databricks 用 Lakehouse 架构(Delta Lake 作为存储层 + Spark 作为计算层 + Unity Catalog 作为治理层)直接把数仓、数据湖、ML、BI 塞在一个平台里,这让它在需要"一套系统同时跑 ETL + ML 训练 + ad-hoc 分析"的公司(尤其是金融、电商、广告、游戏公司)里份额增长极快。

考纲 5 大领域权重

  • Databricks Intelligence Platform:10%(Workspace、Clusters、Notebooks、SQL Warehouses 基本使用)
  • Development and Ingestion:30%(Auto Loader、COPY INTO、Delta Lake 表创建、Spark SQL 基础)
  • Data Processing & Transformations:31%(PySpark DataFrame API、SQL 函数、Window 函数、Joins)
  • Productionizing Data Pipelines:18%(Databricks Workflows、Jobs、DLT / Lakeflow Declarative Pipelines、Error Handling)
  • Data Governance & Quality:11%(Unity Catalog、权限模型、数据血缘、Expectations)

跟 Spark Developer Associate 的区别:那张证书考的是纯 Apache Spark API(可以脱离 Databricks 用),DEA 考的是"在 Databricks 平台上做数据工程"— 包括 Delta Lake 专属特性、Databricks Workflows、Unity Catalog 这些只在 Databricks 才有的东西。如果你工作里用的就是 Databricks,考 DEA 比 Spark 那张更对口。

你会反复碰到的核心服务

Databricks Lakehouse PlatformDelta Lake OperationsApache Spark SQLPySpark Data ProcessingELT Pipeline DevelopmentUnity Catalog Data GovernanceStructured StreamingAuto Loader IngestionDatabricks Workflows OrchestrationData Quality Management

学完以后你能带走什么

  • Pass the Databricks DEA certification exam with confidence
  • Master key concepts across all exam domains
  • Identify and strengthen weak areas before the exam

考试详情

考试代码
DEA
发证机构
其他认证机构
时长
90 分钟
题目数
65
及格分
70/100
有效期
3
考试费用
$0 USD
题型
single-choice、multiple-choice
考试语言
English
官方页面

适合谁考

适合人群

  • Data engineers building and maintaining ELT pipelines on Databricks
  • SQL and Python developers adopting Lakehouse architecture
  • Analytics engineers preparing for Databricks platform certification
  • Data analysts transitioning into data engineering roles

开始前最好先有

  • 6+ months experience with the Databricks Lakehouse Platform
  • Proficiency in SQL and basic Python or PySpark programming
  • Familiarity with ETL/ELT concepts, data warehousing, and data lakes
  • Understanding of cloud-based data storage and compute fundamentals

值不值得考?职业价值

Databricks DEA 持证人的薪资区间、对应岗位、以及真实的职业影响。

澳洲
$125K-185KAUD
美国
$135K-210KUSD
中国
¥350K-650KCNY
新加坡
$100K-170KSGD
Data EngineerDatabricks EngineerLakehouse EngineerAnalytics EngineerETL DeveloperData Platform EngineerBig Data EngineerSpark Developer数据工程师数据平台工程师

为什么 Databricks 数据工程师的薪资比"普通"数据工程师高

市场上 "Databricks / Spark 数据工程师" 的中位薪资比泛数据工程师岗位高 10-20%。原因很实在:会 Databricks 的人普遍同时掌握 Spark、Delta Lake、Python、SQL 和某一朵云(AWS 或 Azure),技能栈宽;而且 Databricks 常出现在处理大规模数据的场景(TB 级以上日增量),这类岗位本身预算就更高。

各市场真实行情(2026 数据)

  • 澳洲 Sydney/Melbourne:Databricks Data Engineer AUD 130-165k(3-5 年经验),Senior 170-210k。在澳洲,Databricks 被 NAB、Westpac、CBA、Coles、Woolworths、Telstra 这几家大用户重度使用,配合 Azure 的项目非常多。Canberra 政府项目因为安全要求偶尔也招 Databricks 工程师,有 clearance 加成 15-25%。
  • 美国:USD 140-210k,旧金山/纽约/西雅图溢价 20-40%。Block、Rivian、Condé Nast、Comcast 都是大买家,FAANG 里 Apple 和 Netflix 也有大量 Spark/Databricks 岗位。值得注意:FAANG 更倾向自研 Spark 栈,对 DEA 证书本身无感,但知识实打实有用。
  • 中国一线:北上深 Databricks 工程师 RMB 35-65 万,主要在外资金融(高盛、摩根、汇丰中国)、跨境电商、新能源车企(蔚来、理想、小鹏的数据平台都有 Spark 栈)。纯国内大厂更倾向 Flink + Iceberg + StarRocks 自研栈,Databricks 实际用得不多。
  • 新加坡:SGD 110-170k,金融业(DBS、OCBC、UOB)和跨境电商(Shopee、Lazada)是主要雇主。

真正值得考 DEA 的人

  1. 已经在 Databricks 客户公司干活:这是最直接的受益者。考 DEA 能让你系统学会你日常用的平台,而且很多公司会报销考试费 + 给内部晋升加分。Shell、HSBC、Condé Nast 这种大客户内部都有 Databricks 认证奖励政策。
  2. Spark / PySpark 开发者想做数据工程:你已经会 RDD 和 DataFrame,缺的是 Delta Lake 的 ACID 特性、Unity Catalog 的治理模型、Databricks Workflows 的编排。DEA 教材刚好补上这些。
  3. 从 SSIS/Informatica/传统 ETL 转型:你有 10+ 年 ETL 经验但技术栈老化,DEA 是进入现代数据栈的快速入口 — 比从零学 Hadoop 生态友好得多,因为 Databricks 把 Spark 的复杂度藏在 Notebook 和 SQL 后面。
  4. 想做数据工程 + ML 双栖:Databricks 最大的优势是 ML 和数据工程共用一个平台 — 先考 DEA 建立数据工程底子,再考 Databricks ML Associate 或 ML Professional,简历在 AI 时代非常吃香。

不建议考的人

  • 纯 SQL 数仓工程师,公司跑 Snowflake、BigQuery、Redshift — Databricks 知识用不上,考 SnowPro Core 或 GCP PDE 更对口。
  • 非数据岗位的人(前端、后端、产品、运维)— 这证书对你的岗位加分近乎为零,除非你要转数据工程。
  • 只想"刷简历"但公司不用 Databricks 的转行者 — 招聘方会问你"实际跑过多大数据量",没有真实项目经验光有证书很容易被识破。

备考节奏

有 AWS 实操经验

4-6

零基础切入

10-14

建议日投入

1.5-2 小时/天

学习路径预览

4
1
Databricks DEA Exam Overview
40 min
2
Databricks
120 min
3
Data Engineering
90 min
4
Exam Preparation & Practice
100 min

分阶段备考路径

过来人总结的分阶段备考节奏,按周拆分,不是空话。

1

第一阶段:搭建 Databricks 实操环境(第 1 周)

用 Databricks Community Edition(完全免费、单节点 Cluster 15GB 内存、足够练大部分考点),或者 14 天免费试用 Databricks on AWS/Azure(能体验多节点 Cluster 和 Unity Catalog,建议用这个)。Community Edition 的限制:没有 Jobs、没有 Unity Catalog、没有 SQL Warehouse — 这三样只能在付费试用里玩。第 1 周目标:会建 Cluster、导入样例数据集(diamonds、airlines)、跑通一个 Notebook、把 DataFrame 写成 Delta 表。这个阶段别急着看考点,先把平台"手感"建立起来。

2

第二阶段:Databricks Academy 官方课程(第 2-4 周)

Databricks Academy(customer-academy.databricks.com)提供官方免费 Self-Paced 课程 "Data Engineer Learning Plan",直接覆盖考纲 80% 的内容。重点学 3 门:Data Ingestion with Delta Lake(Auto Loader、COPY INTO、MERGE)、Deploy Workloads with Lakeflow Jobs(原 Databricks Workflows)、Build Data Pipelines with Lakeflow Declarative Pipelines(原 Delta Live Tables / DLT)。每门课都配 Notebook 实验 — 必须自己跑一遍,光看视频过不了。Unity Catalog 那部分要单独看 "Data Governance with Unity Catalog" 课程。

3

第三阶段:针对性刷题(第 5-6 周)

官方 Practice Exam(Databricks 网站免费提供 1 套 45 题,跟真题风格最接近)必刷两遍;加上 JR Academy 150+ 题库按主题刷。常见薄弱点:PySpark 的 DataFrame API 细节(withColumn vs select、when/otherwise 条件、drop_duplicates 的 subset 参数)、Delta Lake 的 MERGE 语法(尤其是 WHEN MATCHED THEN UPDATE SET * 的行为)、Auto Loader 的 schema evolution 模式、Structured Streaming 的 trigger 类型(availableNow、processingTime、continuous)。每错一题都要去官方文档查清楚,不要死记答案。

4

第四阶段:全真模考 + 查漏补缺(第 7-8 周)

严格按考试环境做模考:关手机、开计时器 90 分钟、45 题一气呵成、不能中途查资料。目标:连续 2 次模考 ≥ 80% 才安排正式考。Databricks 在线监考比较严 — 会检查房间 360°、桌面必须干净、不能戴手表不能有纸笔、全程录像。约考前一天提前测试电脑摄像头 + 网络 + Webassessor 考试系统安装。考试当天提前 30 分钟 check-in。

通过者的真实经验

过来人的备考时长、分数、以及踩过的坑。

我之前 3 年都在写原生 Spark(自建 Hadoop 集群那种),转到用 Databricks 的公司后发现 Delta Lake 和 Unity Catalog 完全是新东西。备考主要就补这两块:Delta Lake 的 Time Travel 和 MERGE 是考点重灾区,Unity Catalog 的三层命名空间(catalog.schema.table)和权限继承规则考的很细。最让我意外的是考试对 Auto Loader 的考查量很大 — 我在老公司一直用 Kafka + Structured Streaming,没碰过 Auto Loader,专门花了 3 天学。考完拿到 offer 直接涨 18%。

K. Zhang86%
Spark 开发者 → Databricks Data Engineer · 备考 5 周

我 8 年 Informatica + Oracle 的 ETL 背景,完全没写过 Python,学 PySpark 的时候被各种 lambda 和 DataFrame 链式调用劝退过两次。Databricks Academy 的 Notebook 实验帮我建立了信心 — 每次照着敲一遍,很多概念就懂了。最难的不是语法,是思维转变:老派 ETL 是"先建 staging 表再 INSERT",Databricks 是"DataFrame 链式处理后 writeStream"。Structured Streaming 的 watermark 概念我到考前最后一周才真的搞懂 — 建议新手早点理解 event time vs processing time 的差别。

A. Patel73%
传统 ETL Developer(Informatica 8 年)转型中 · 备考 12 周

我们公司是一家做量化交易数据的 startup,整套基础设施就是 Databricks on AWS + Delta Lake + Unity Catalog,每天处理 2TB 市场数据。考证动机很简单:老板愿意报销 + 团队有 3 个人考,形成了学习氛围。因为天天在平台上干活,备考主要是补考纲里"我没用过"的部分 — 比如 Lakeflow Declarative Pipelines(DLT)我们公司没用,纯靠 Jobs + Notebook 跑。4 周速成主要是看官方 Academy + 刷题。考完我们团队把 Unity Catalog 的 row-level filter 用起来了,合规团队很满意。

初创公司 Data Engineer91%
金融科技初创数据工程师 · 备考 4 周

同赛道认证对比

Databricks DEADatabricks SparkDatabricks DEP
机构其他其他其他
级别助理级助理级专业级
考试费$0$0$0
时长90 min90 min90 min
题量656565
有效期3 3 3

备考技巧与常见失误

💡

**先注册免费的 Community Edition 熟悉环境**:即使你有付费 Workspace,Community Edition 的 Notebook 跑起来比本地 Jupyter 还方便,适合随手验证语法。注意 Community Edition 没有 Unity Catalog — 那块得在付费试用里学。

💡

**官方 Practice Exam 必刷两遍**:Databricks 官网提供的免费 Practice Exam(45 题、跟真题同源)是最接近真题的材料,远超任何第三方题库。第一遍裸考找差距,第二遍查文档理解每个选项为什么对/错。

💡

**PySpark 和 Spark SQL 都要会**:考题会混用两种语法,不要只学一种。尤其是窗口函数:PySpark 的 `Window.partitionBy().orderBy()` 和 SQL 的 `OVER (PARTITION BY ... ORDER BY ...)` 要能互相转换。

💡

**Delta Lake 专属命令必背**:DESCRIBE HISTORY、DESCRIBE DETAIL、RESTORE TABLE、VACUUM、OPTIMIZE(含 ZORDER BY)、VACUUM 的 RETAIN 参数(默认 7 天,低于 168 小时需要设 `spark.databricks.delta.retentionDurationCheck.enabled=false`,这个冷知识考过)。

💡

**Lakeflow Declarative Pipelines(DLT 新名字)概念要清楚**:LIVE 关键字、@dlt.table 装饰器、Expectations(`@dlt.expect`、`expect_or_drop`、`expect_or_fail` 三种严重级别)、Auto Loader 在 DLT 里的简化语法 `cloud_files()`。Databricks 2024 年把 DLT 改名 Lakeflow Declarative Pipelines,考题可能新老术语混用。

💡

**在线监考注意事项**:提前 30 分钟 check-in;桌面清空(只能有电脑,不能有手机、纸、笔、耳机、水杯);房间光线充足、背景干净;全程脸不能离开摄像头视野;不能读题读出声。网络一定要稳 — 建议用网线不用 WiFi。

💡

**证书有效期 2 年,续期免费**:到期前收到 Databricks 邮件,登录 Credentials 门户免费做 Recertification Exam(25 题、在线、不用重新考 90 分钟完整版)— 这是 DEA 比 AWS/Azure 证书性价比更高的点,AWS 续证要重考 + 再交 $150。

⚠️

**把 Delta Lake 当普通 Parquet 用** — Delta Lake 是 Parquet 文件 + transaction log(_delta_log 文件夹),这个 log 才是 ACID 的核心。常见错误:以为"写 Parquet 就行"、忽略 OPTIMIZE 和 VACUUM 命令(OPTIMIZE 做小文件合并、Z-ORDER 做数据 clustering、VACUUM 清理过期快照文件),结果查询性能越用越差、存储成本失控。考试会考"执行 OPTIMIZE 后 Time Travel 还能不能查历史版本"(能,VACUUM 才会真正删除旧文件)。

⚠️

**Structured Streaming 的 watermark 理解错** — Watermark 是告诉引擎"多晚到的数据我不再等了",用来平衡 late data 容忍度和状态存储大小。常见错误:以为 watermark 是"数据处理速度上限"或"触发间隔"。考题会给你一段代码 `.withWatermark("event_time", "10 minutes").groupBy(window(...))`,问"一条 event_time 比当前 watermark 早 15 分钟到达的数据会发生什么"(被丢弃,不会更新聚合结果)。

⚠️

**Unity Catalog 和老 Hive Metastore 混淆** — 老的 Hive Metastore 是两层命名(database.table),权限粒度粗、没有 catalog 层、不跨 workspace。Unity Catalog 是三层(catalog.schema.table)、支持 row/column 级安全、一个 Unity Catalog Metastore 可以服务多个 workspace、数据血缘自动追踪。考题会问"从 hive_metastore 的表迁移到 Unity Catalog,权限模型会如何变化"。别把 USE CATALOG 和 USE SCHEMA 混用。

⚠️

**分区(Partitioning)策略用错导致严重 skew** — Delta Lake 分区跟 Hive 一样按文件夹分,但 Databricks 强烈不推荐对高基数字段(user_id、timestamp 到秒)分区。正确做法:按日期(低基数、查询常用)分区 + 用 Z-ORDER 对 user_id 做二级 clustering。考题常给场景:"一张表按 timestamp 到秒分区,产生 300 万个小文件" — 让你选改进方案(答案是改成按 date 分区 + Z-ORDER BY timestamp)。

⚠️

**Auto Loader 的 schema evolution 模式搞错** — 有 5 种模式:addNewColumns(默认,新列自动加 + 流失败重启)、rescue(所有 schema 变更存到 _rescued_data 列)、failOnNewColumns(严格模式)、none(忽略新列)。生产场景最常用的是 addNewColumns,但考题会问"希望不中断流处理、所有未知字段保留但不修改 schema"(答案是 rescue)。

⚠️

**MERGE INTO 语法细节** — WHEN MATCHED / WHEN NOT MATCHED / WHEN NOT MATCHED BY SOURCE 三种子句的区别要分清。NOT MATCHED BY SOURCE 是 Databricks 扩展,用于删除目标表中源表不再有的行(SCD Type 1 硬删除场景)。考题会给一段 MERGE 代码问执行后的结果行数。

⚠️

**Databricks Workflows 的 retry 和 dependency** — Workflows(Jobs)的 task 之间可以设置依赖(DAG)和 retry 策略。考题常问"一个 task 失败后,依赖它的下游 task 会发生什么"(默认不会运行,除非配置了 Run if: At least one failed 这种条件)。Job Cluster 和 All-purpose Cluster 的区别也是考点:Job Cluster 任务结束后自动销毁、便宜;All-purpose 常驻、贵但快启动、适合交互开发。

FAQ

常见问题

如果你准备考 Databricks DEA,先从真题型练习开始。

150+ 练习题、章节学习路径、模考、错题复盘和 AI 导师都在备考页里。

进入备考页

$29 起 · 前 2 章可免费试学

你可能顺手也会看这些