Databricks Data Engineer Associate（DEA）考试考什么？

DEA 考试验证您使用 Databricks 和 Apache Spark 进行数据工程的能力，涵盖 Databricks Lakehouse Platform、ELT 数据处理、Delta Lake 操作、增量数据处理、生产管道部署和数据治理等。考试共 65 题，时长 90 分钟，通过分数为 70 分。

考试需要什么先决条件？

建议具备 6 个月以上的 Databricks Lakehouse Platform 使用经验，熟悉 SQL 和 Python/PySpark 编程。了解基本的数据工程概念如 ETL/ELT、数据仓库和数据湖也很有帮助。

DEA 和 DEP（Professional）有什么区别？

DEA 是入门级认证，考查基础的数据工程技能和 Databricks 平台使用能力。DEP 是高级认证，要求掌握复杂的数据管道设计、性能调优、高级 Delta Lake 特性和生产级架构设计。建议先通过 DEA 再挑战 DEP。

Delta Lake 在考试中占多大比重？

Delta Lake 是考试的核心重点之一。您需要掌握 Delta Lake 的 ACID 事务、Time Travel、MERGE 操作、Schema Evolution、优化命令（OPTIMIZE、VACUUM）等关键概念。建议在实际环境中动手练习这些操作。

如何使用本课程的 150 道题备考？

建议先按主题学习 Databricks 和 Data Engineering 两大模块，然后通过练习题巩固知识。重点关注 Delta Lake 操作、Structured Streaming 和 Unity Catalog 相关题目。使用模拟考试功能检验备考效果。

Databricks 认证对数据工程师职业有什么价值？

Databricks 是领先的数据和 AI 平台，在全球范围内被广泛采用。DEA 认证证明您具备使用 Lakehouse 架构进行数据工程的能力，在数据工程师、数据分析师和数据平台工程师等岗位中非常受欢迎。

其他助理级📊 数据

Databricks Certified Data Engineer Associate (DEA)

Prepare for the Databricks Data Engineer Associate exam with 150+ practice questions covering Lakehouse Platform, ELT pipelines, Delta Lake, and Unity Catalog.

开始刷题查看学习路径

考试费

题量

90m

考试时长

70/100

及格分

一句话定论 · 看情况

Databricks 生态里的"入场券"— 如果你所在公司用 Databricks 或 Spark 重度场景，这是性价比极高的一张证；但如果你只是纯 SQL 数仓工程师、公司跑 Snowflake/BigQuery，含金量有限。

会员权益

JR 会员全站通

一个会员解锁全部认证题库、课程折扣和专属工具

全部认证题库免费刷
课程最高 5 折优惠
AI 工具 & Chrome 插件
优先预约 1v1 导师

查看会员方案

这张认证到底考什么

先把考试形式、适合人群、备考时长和学习范围讲清楚，再决定要不要投入时间。

Databricks Certified Data Engineer Associate（DEA）是 Databricks 官方的入门级数据工程师认证，对标 AWS Data Engineer Associate（DEA-C01）、Microsoft DP-700（Fabric Data Engineer）、Google Professional Data Engineer。但跟这些"云厂商原生"证书不同，Databricks 的定位是"跨云的统一数据 + AI 平台"— 你可以在 AWS、Azure、GCP 三朵云上都部署同一套 Databricks Workspace，这让它在多云企业里特别吃香。

考试基本参数：$200 USD、在线监考（Kryterion Webassessor）、45 道单选 + 多选题、90 分钟、通过分 70%、证书有效期 2 年。到期前可以通过免费的 Recertification Exam（25 题、在线、不限时）续期，不用重新交 $200。

为什么 Databricks 值得认真对待：2024 年 Databricks 估值 $43B，是目前最大的"数据 + AI 平台"独角兽，客户名单里有 Comcast、Shell、HSBC、Condé Nast、Rivian、Block、丰田、AT&T。在 Snowflake 死咬"纯数仓"路线时，Databricks 用 Lakehouse 架构（Delta Lake 作为存储层 + Spark 作为计算层 + Unity Catalog 作为治理层）直接把数仓、数据湖、ML、BI 塞在一个平台里，这让它在需要"一套系统同时跑 ETL + ML 训练 + ad-hoc 分析"的公司（尤其是金融、电商、广告、游戏公司）里份额增长极快。

考纲 5 大领域权重：

Databricks Intelligence Platform：10%（Workspace、Clusters、Notebooks、SQL Warehouses 基本使用）
Development and Ingestion：30%（Auto Loader、COPY INTO、Delta Lake 表创建、Spark SQL 基础）
Data Processing & Transformations：31%（PySpark DataFrame API、SQL 函数、Window 函数、Joins）
Productionizing Data Pipelines：18%（Databricks Workflows、Jobs、DLT / Lakeflow Declarative Pipelines、Error Handling）
Data Governance & Quality：11%（Unity Catalog、权限模型、数据血缘、Expectations）

跟 Spark Developer Associate 的区别：那张证书考的是纯 Apache Spark API（可以脱离 Databricks 用），DEA 考的是"在 Databricks 平台上做数据工程"— 包括 Delta Lake 专属特性、Databricks Workflows、Unity Catalog 这些只在 Databricks 才有的东西。如果你工作里用的就是 Databricks，考 DEA 比 Spark 那张更对口。

你会反复碰到的核心服务

Databricks Lakehouse PlatformDelta Lake OperationsApache Spark SQLPySpark Data ProcessingELT Pipeline DevelopmentUnity Catalog Data GovernanceStructured StreamingAuto Loader IngestionDatabricks Workflows OrchestrationData Quality Management

学完以后你能带走什么

Pass the Databricks DEA certification exam with confidence
Master key concepts across all exam domains
Identify and strengthen weak areas before the exam

考试详情

考试代码

DEA

发证机构

其他认证机构

时长

90 分钟

题目数

65 题

及格分

70/100

有效期

3 年

考试费用

$0 USD

题型

single-choice、multiple-choice

考试语言

English

官方页面

打开官方页面

适合谁考

适合人群

Data engineers building and maintaining ELT pipelines on Databricks
SQL and Python developers adopting Lakehouse architecture
Analytics engineers preparing for Databricks platform certification
Data analysts transitioning into data engineering roles

开始前最好先有

6+ months experience with the Databricks Lakehouse Platform
Proficiency in SQL and basic Python or PySpark programming
Familiarity with ETL/ELT concepts, data warehousing, and data lakes
Understanding of cloud-based data storage and compute fundamentals

值不值得考？职业价值

Databricks DEA 持证人的薪资区间、对应岗位、以及真实的职业影响。

澳洲

$125K-185KAUD

美国

$135K-210KUSD

中国

¥350K-650KCNY

新加坡

$100K-170KSGD

Data EngineerDatabricks EngineerLakehouse EngineerAnalytics EngineerETL DeveloperData Platform EngineerBig Data EngineerSpark Developer数据工程师数据平台工程师

为什么 Databricks 数据工程师的薪资比"普通"数据工程师高

市场上 "Databricks / Spark 数据工程师" 的中位薪资比泛数据工程师岗位高 10-20%。原因很实在：会 Databricks 的人普遍同时掌握 Spark、Delta Lake、Python、SQL 和某一朵云（AWS 或 Azure），技能栈宽；而且 Databricks 常出现在处理大规模数据的场景（TB 级以上日增量），这类岗位本身预算就更高。

各市场真实行情（2026 数据）

澳洲 Sydney/Melbourne：Databricks Data Engineer AUD 130-165k（3-5 年经验），Senior 170-210k。在澳洲，Databricks 被 NAB、Westpac、CBA、Coles、Woolworths、Telstra 这几家大用户重度使用，配合 Azure 的项目非常多。Canberra 政府项目因为安全要求偶尔也招 Databricks 工程师，有 clearance 加成 15-25%。
美国：USD 140-210k，旧金山/纽约/西雅图溢价 20-40%。Block、Rivian、Condé Nast、Comcast 都是大买家，FAANG 里 Apple 和 Netflix 也有大量 Spark/Databricks 岗位。值得注意：FAANG 更倾向自研 Spark 栈，对 DEA 证书本身无感，但知识实打实有用。
中国一线：北上深 Databricks 工程师 RMB 35-65 万，主要在外资金融（高盛、摩根、汇丰中国）、跨境电商、新能源车企（蔚来、理想、小鹏的数据平台都有 Spark 栈）。纯国内大厂更倾向 Flink + Iceberg + StarRocks 自研栈，Databricks 实际用得不多。
新加坡：SGD 110-170k，金融业（DBS、OCBC、UOB）和跨境电商（Shopee、Lazada）是主要雇主。

真正值得考 DEA 的人

已经在 Databricks 客户公司干活：这是最直接的受益者。考 DEA 能让你系统学会你日常用的平台，而且很多公司会报销考试费 + 给内部晋升加分。Shell、HSBC、Condé Nast 这种大客户内部都有 Databricks 认证奖励政策。
Spark / PySpark 开发者想做数据工程：你已经会 RDD 和 DataFrame，缺的是 Delta Lake 的 ACID 特性、Unity Catalog 的治理模型、Databricks Workflows 的编排。DEA 教材刚好补上这些。
从 SSIS/Informatica/传统 ETL 转型：你有 10+ 年 ETL 经验但技术栈老化，DEA 是进入现代数据栈的快速入口 — 比从零学 Hadoop 生态友好得多，因为 Databricks 把 Spark 的复杂度藏在 Notebook 和 SQL 后面。
想做数据工程 + ML 双栖：Databricks 最大的优势是 ML 和数据工程共用一个平台 — 先考 DEA 建立数据工程底子，再考 Databricks ML Associate 或 ML Professional，简历在 AI 时代非常吃香。

不建议考的人

纯 SQL 数仓工程师，公司跑 Snowflake、BigQuery、Redshift — Databricks 知识用不上，考 SnowPro Core 或 GCP PDE 更对口。
非数据岗位的人（前端、后端、产品、运维）— 这证书对你的岗位加分近乎为零，除非你要转数据工程。
只想"刷简历"但公司不用 Databricks 的转行者 — 招聘方会问你"实际跑过多大数据量"，没有真实项目经验光有证书很容易被识破。

备考节奏

有 AWS 实操经验

4-6 周

零基础切入

10-14 周

建议日投入

1.5-2 小时/天

学习路径预览

4 章

Databricks DEA Exam Overview

40 min

Databricks

120 min

Data Engineering

90 min

Exam Preparation & Practice

100 min

分阶段备考路径

过来人总结的分阶段备考节奏，按周拆分，不是空话。

第一阶段：搭建 Databricks 实操环境（第 1 周）

用 Databricks Community Edition（完全免费、单节点 Cluster 15GB 内存、足够练大部分考点），或者 14 天免费试用 Databricks on AWS/Azure（能体验多节点 Cluster 和 Unity Catalog，建议用这个）。Community Edition 的限制：没有 Jobs、没有 Unity Catalog、没有 SQL Warehouse — 这三样只能在付费试用里玩。第 1 周目标：会建 Cluster、导入样例数据集（diamonds、airlines）、跑通一个 Notebook、把 DataFrame 写成 Delta 表。这个阶段别急着看考点，先把平台"手感"建立起来。

第二阶段：Databricks Academy 官方课程（第 2-4 周）

Databricks Academy（customer-academy.databricks.com）提供官方免费 Self-Paced 课程 "Data Engineer Learning Plan"，直接覆盖考纲 80% 的内容。重点学 3 门：Data Ingestion with Delta Lake（Auto Loader、COPY INTO、MERGE）、Deploy Workloads with Lakeflow Jobs（原 Databricks Workflows）、Build Data Pipelines with Lakeflow Declarative Pipelines（原 Delta Live Tables / DLT）。每门课都配 Notebook 实验 — 必须自己跑一遍，光看视频过不了。Unity Catalog 那部分要单独看 "Data Governance with Unity Catalog" 课程。

第三阶段：针对性刷题（第 5-6 周）

官方 Practice Exam（Databricks 网站免费提供 1 套 45 题，跟真题风格最接近）必刷两遍；加上 JR Academy 150+ 题库按主题刷。常见薄弱点：PySpark 的 DataFrame API 细节（withColumn vs select、when/otherwise 条件、drop_duplicates 的 subset 参数）、Delta Lake 的 MERGE 语法（尤其是 WHEN MATCHED THEN UPDATE SET * 的行为）、Auto Loader 的 schema evolution 模式、Structured Streaming 的 trigger 类型（availableNow、processingTime、continuous）。每错一题都要去官方文档查清楚，不要死记答案。

第四阶段：全真模考 + 查漏补缺（第 7-8 周）

严格按考试环境做模考：关手机、开计时器 90 分钟、45 题一气呵成、不能中途查资料。目标：连续 2 次模考 ≥ 80% 才安排正式考。Databricks 在线监考比较严 — 会检查房间 360°、桌面必须干净、不能戴手表不能有纸笔、全程录像。约考前一天提前测试电脑摄像头 + 网络 + Webassessor 考试系统安装。考试当天提前 30 分钟 check-in。

通过者的真实经验

过来人的备考时长、分数、以及踩过的坑。

我之前 3 年都在写原生 Spark（自建 Hadoop 集群那种），转到用 Databricks 的公司后发现 Delta Lake 和 Unity Catalog 完全是新东西。备考主要就补这两块：Delta Lake 的 Time Travel 和 MERGE 是考点重灾区，Unity Catalog 的三层命名空间（catalog.schema.table）和权限继承规则考的很细。最让我意外的是考试对 Auto Loader 的考查量很大 — 我在老公司一直用 Kafka + Structured Streaming，没碰过 Auto Loader，专门花了 3 天学。考完拿到 offer 直接涨 18%。

K. Zhang86%

Spark 开发者 → Databricks Data Engineer · 备考 5 周

我 8 年 Informatica + Oracle 的 ETL 背景，完全没写过 Python，学 PySpark 的时候被各种 lambda 和 DataFrame 链式调用劝退过两次。Databricks Academy 的 Notebook 实验帮我建立了信心 — 每次照着敲一遍，很多概念就懂了。最难的不是语法，是思维转变：老派 ETL 是"先建 staging 表再 INSERT"，Databricks 是"DataFrame 链式处理后 writeStream"。Structured Streaming 的 watermark 概念我到考前最后一周才真的搞懂 — 建议新手早点理解 event time vs processing time 的差别。

A. Patel73%

传统 ETL Developer（Informatica 8 年）转型中 · 备考 12 周

我们公司是一家做量化交易数据的 startup，整套基础设施就是 Databricks on AWS + Delta Lake + Unity Catalog，每天处理 2TB 市场数据。考证动机很简单：老板愿意报销 + 团队有 3 个人考，形成了学习氛围。因为天天在平台上干活，备考主要是补考纲里"我没用过"的部分 — 比如 Lakeflow Declarative Pipelines（DLT）我们公司没用，纯靠 Jobs + Notebook 跑。4 周速成主要是看官方 Academy + 刷题。考完我们团队把 Unity Catalog 的 row-level filter 用起来了，合规团队很满意。

初创公司 Data Engineer91%

金融科技初创数据工程师 · 备考 4 周

同赛道认证对比

	Databricks DEA	Databricks Spark	Databricks DEP
机构	其他	其他	其他
级别	助理级	助理级	专业级
考试费	$0	$0	$0
时长	90 min	90 min	90 min
题量	65	65	65
有效期	3 年	3 年	3 年

备考技巧与常见失误

💡

**先注册免费的 Community Edition 熟悉环境**：即使你有付费 Workspace，Community Edition 的 Notebook 跑起来比本地 Jupyter 还方便，适合随手验证语法。注意 Community Edition 没有 Unity Catalog — 那块得在付费试用里学。

💡

**官方 Practice Exam 必刷两遍**：Databricks 官网提供的免费 Practice Exam（45 题、跟真题同源）是最接近真题的材料，远超任何第三方题库。第一遍裸考找差距，第二遍查文档理解每个选项为什么对/错。

💡

**PySpark 和 Spark SQL 都要会**：考题会混用两种语法，不要只学一种。尤其是窗口函数：PySpark 的 `Window.partitionBy().orderBy()` 和 SQL 的 `OVER (PARTITION BY ... ORDER BY ...)` 要能互相转换。

💡

**Delta Lake 专属命令必背**：DESCRIBE HISTORY、DESCRIBE DETAIL、RESTORE TABLE、VACUUM、OPTIMIZE（含 ZORDER BY）、VACUUM 的 RETAIN 参数（默认 7 天，低于 168 小时需要设 `spark.databricks.delta.retentionDurationCheck.enabled=false`，这个冷知识考过）。

💡

**Lakeflow Declarative Pipelines（DLT 新名字）概念要清楚**：LIVE 关键字、@dlt.table 装饰器、Expectations（`@dlt.expect`、`expect_or_drop`、`expect_or_fail` 三种严重级别）、Auto Loader 在 DLT 里的简化语法 `cloud_files()`。Databricks 2024 年把 DLT 改名 Lakeflow Declarative Pipelines，考题可能新老术语混用。

💡

**在线监考注意事项**：提前 30 分钟 check-in；桌面清空（只能有电脑，不能有手机、纸、笔、耳机、水杯）；房间光线充足、背景干净；全程脸不能离开摄像头视野；不能读题读出声。网络一定要稳 — 建议用网线不用 WiFi。

💡

**证书有效期 2 年，续期免费**：到期前收到 Databricks 邮件，登录 Credentials 门户免费做 Recertification Exam（25 题、在线、不用重新考 90 分钟完整版）— 这是 DEA 比 AWS/Azure 证书性价比更高的点，AWS 续证要重考 + 再交 $150。

⚠️

**把 Delta Lake 当普通 Parquet 用** — Delta Lake 是 Parquet 文件 + transaction log（_delta_log 文件夹），这个 log 才是 ACID 的核心。常见错误：以为"写 Parquet 就行"、忽略 OPTIMIZE 和 VACUUM 命令（OPTIMIZE 做小文件合并、Z-ORDER 做数据 clustering、VACUUM 清理过期快照文件），结果查询性能越用越差、存储成本失控。考试会考"执行 OPTIMIZE 后 Time Travel 还能不能查历史版本"（能，VACUUM 才会真正删除旧文件）。

⚠️

**Structured Streaming 的 watermark 理解错** — Watermark 是告诉引擎"多晚到的数据我不再等了"，用来平衡 late data 容忍度和状态存储大小。常见错误：以为 watermark 是"数据处理速度上限"或"触发间隔"。考题会给你一段代码 `.withWatermark("event_time", "10 minutes").groupBy(window(...))`，问"一条 event_time 比当前 watermark 早 15 分钟到达的数据会发生什么"（被丢弃，不会更新聚合结果）。

⚠️

**Unity Catalog 和老 Hive Metastore 混淆** — 老的 Hive Metastore 是两层命名（database.table），权限粒度粗、没有 catalog 层、不跨 workspace。Unity Catalog 是三层（catalog.schema.table）、支持 row/column 级安全、一个 Unity Catalog Metastore 可以服务多个 workspace、数据血缘自动追踪。考题会问"从 hive_metastore 的表迁移到 Unity Catalog，权限模型会如何变化"。别把 USE CATALOG 和 USE SCHEMA 混用。

⚠️

**分区（Partitioning）策略用错导致严重 skew** — Delta Lake 分区跟 Hive 一样按文件夹分，但 Databricks 强烈不推荐对高基数字段（user_id、timestamp 到秒）分区。正确做法：按日期（低基数、查询常用）分区 + 用 Z-ORDER 对 user_id 做二级 clustering。考题常给场景："一张表按 timestamp 到秒分区，产生 300 万个小文件" — 让你选改进方案（答案是改成按 date 分区 + Z-ORDER BY timestamp）。

⚠️

**Auto Loader 的 schema evolution 模式搞错** — 有 5 种模式：addNewColumns（默认，新列自动加 + 流失败重启）、rescue（所有 schema 变更存到 _rescued_data 列）、failOnNewColumns（严格模式）、none（忽略新列）。生产场景最常用的是 addNewColumns，但考题会问"希望不中断流处理、所有未知字段保留但不修改 schema"（答案是 rescue）。

⚠️

**MERGE INTO 语法细节** — WHEN MATCHED / WHEN NOT MATCHED / WHEN NOT MATCHED BY SOURCE 三种子句的区别要分清。NOT MATCHED BY SOURCE 是 Databricks 扩展，用于删除目标表中源表不再有的行（SCD Type 1 硬删除场景）。考题会给一段 MERGE 代码问执行后的结果行数。

⚠️

**Databricks Workflows 的 retry 和 dependency** — Workflows（Jobs）的 task 之间可以设置依赖（DAG）和 retry 策略。考题常问"一个 task 失败后，依赖它的下游 task 会发生什么"（默认不会运行，除非配置了 Run if: At least one failed 这种条件）。Job Cluster 和 All-purpose Cluster 的区别也是考点：Job Cluster 任务结束后自动销毁、便宜；All-purpose 常驻、贵但快启动、适合交互开发。

FAQ

常见问题

如果你准备考 Databricks DEA，先从真题型练习开始。

150+ 练习题、章节学习路径、模考、错题复盘和 AI 导师都在备考页里。

进入备考页

$29 起 · 前 2 章可免费试学