标题
🇦🇺 DE学什么?一张图帮你搞清楚
正文
留留们!投DE时是不是很迷茫?🤯
该学什么?学到什么程度?
工具太多,时间有限,容易分散精力…
所以!我整理了一份超清晰的DE技术栈路Roadmap👇
帮你聚焦重点,不走弯路!
🟡 基础层(1-3)必须扎实
🔹 Python 不只是基础语法! ✅ data class、decorator在管道中的应用
🔹 SQL ✅ 查询优化、窗口函数、CTE
🔹 Linux/Shell ✅ 命令行操作、脚本编写
·
🟢 数据存储层(4-5)
🔹 PostgreSQL ✅ 关系型数据库核心
🔹 MongoDB ✅ NoSQL场景应用
🔵 云与容器层(6-8)
🔹 Docker ✅ 容器化部署
🔹 AWS/GCP/Azure 至少熟悉一个平台! ✅ S3、IAM、Glue、Lambda、Redshift 💡 理解它们如何协同工作
🔹 Kubernetes ✅ 容器编排与管理
·
🟣 数据处理层(9-10)
🔹 Apache Kafka ✅ 实时数据流采集与传输
🔹 Apache Spark PySpark是重点! ✅ RDD/DataFrame API 区别 ✅ Shuffle 优化
🩷 数据仓库层(11-13)
🔹 Snowflake ✅ 解耦存储与计算的架构 ✅ 成本控制概念
🔹 dbt ✅ 数据转换与建模
🔹 Data Lake/HDFS ✅ 长期数据存储 ✅ Delta Lake / Iceberg / Parquet
🟢 编排与可视化(14-15)
🔹 Apache Airflow ✅ 设计 DAG ✅ Task 依赖、重试机制、监控
🔹 Metabase ✅ 数据可视化与报表
💡 interview重点
❌ 不是问你"用过"多少工具
✅ 而是能否解释: → 技术选型的原因 → 如何构建可靠、可维护的数据管道
完整版路线图 + Data高频interview题
直接【data】
#DataEngineer #数据工程师 #澳洲IT #DE面试 #数据管道 #Spark #Airflow #AWS #澳洲留学生 #IT转码 #程序员
封面
