数据工程全栈项目班

澳洲第一个面向企业的数据工程师培训,掌握大数据整个流程。

通过4个项目贯穿数据分析,数据工程,数据科学学习

点击报名
在澳洲,成为数据工程师需要什么技能——Leo

Course Overview

课程概况

  • 课程难度

    初级

    中级

    高级

  • 先修知识

    有一定IT相关背景,学习过python

  • 课程安排

    小班授课 + 线上直播 + 线下授课

  • 价格

    原价:$5200

    线下早鸟价:$4700

    线上早鸟价:$4200

    早鸟价截止时间请 咨询客服

    *以上价格exclude GST

适合人群

  • IT/CS毕业生、在校生
  • 数据科学在校生、毕业生
  • IS专业毕业生
video player close icon

数据工程全栈项目班视频

课程视频, 学员故事, 匠人公开课

数据工程师如何在澳洲拿到工作经验 | 数据工程项目集训介绍,获得工作经验
数据工程师如何在澳洲拿到工作经验 | 数据工程项目集训介绍,获得工作经验
数据工程(大数据分析和机器学习+数据分析与建模+数据工程与AWS+数据仓库)
数据工程(大数据分析和机器学习+数据分析与建模+数据工程与AWS+数据仓库)
数据工程(大数据分析和机器学习+数据分析与建模+数据工程与AWS+数据仓库)
数据工程(大数据分析和机器学习+数据分析与建模+数据工程与AWS+数据仓库)
在澳洲,如何找到数据工程师工作 -- 数据工程全栈班学员分享
在澳洲,如何找到数据工程师工作 -- 数据工程全栈班学员分享
在澳洲,成为数据工程师需要什么技能——Leo
在澳洲,成为数据工程师需要什么技能——Leo
澳洲数据分析,数据工程师,数据科学家行业解析,并且有基于AWS的Data pipeline展示
澳洲数据分析,数据工程师,数据科学家行业解析,并且有基于AWS的Data pipeline展示
线上公开课之数据全栈(DA+DE+DS)入门攻略
线上公开课之数据全栈(DA+DE+DS)入门攻略
数据科学在市场营销当中的应用, 如何利用数据科学优化网络营销的资金分配
数据科学在市场营销当中的应用, 如何利用数据科学优化网络营销的资金分配
数据分析和数据科学系列公开课之数据工程方向 IT匠人圈
数据分析和数据科学系列公开课之数据工程方向 IT匠人圈
IT匠人圈数据分析和数据科学系列公开课之数据分析
IT匠人圈数据分析和数据科学系列公开课之数据分析
查看更多

你将获得

通过4个项目增添简历

  • 同时掌握数据分析、数据工程、数据科学知识
  • 学习AWS,数据可视化,Snowflake等必备技能
  • 3个个人项目+1个团队项目,增添简历项目经验
  • 深度学习云大数据技术,把握未来公司数据技术转型方向

成为新时代数据工程师

  • 获得数据工程师必备技能
  • 获得高薪以及高需求的数据工程师
  • 通过4个项目提高简历竞争力
  • 4位一线大厂老师高强度解答课程问题
  • 超多知识点技术结合完成项目,一切以公司招聘要求为目标

面向公司岗位需求培训

  • 对优秀学员提供Reference帮助
  • 老师求职辅导答疑,简历,面试等
  • 结合澳洲各主流公司真实面试题
  • 优秀学员组队打Kaggle

Course Syllabus

课程大纲

数据工程全栈项目班技术栈

数据全栈

DBMS

DBMS

ER Model

ER Model

Snowflake

Snowflake

AWS

AWS

Data Engineering Pipeline

Data Engineering Pipeline

Data Wrangling

Data Wrangling

Python

Python

Jupyter

Jupyter

Pandas

Pandas

Power BI

Power BI

SQL

SQL

Agile

Agile

Prototype

Prototype

Linux

Linux

Machine Learning

Machine Learning

Statistical Modelling

Statistical Modelling

Exploratory Data Analysis

Exploratory Data Analysis

XGBoost

XGBoost

Data Visualisation

Data Visualisation

Spark

Spark

Hadoop

Hadoop

Git

Git

Datalake

Datalake

Kaggle

Kaggle

Scikit Learn

Scikit Learn

Databricks

Databricks

Data Warehouse

Data Warehouse

Tableau

Tableau

R

R

AWS-云大数据

AWS EC2

AWS EC2

AWS S3

AWS S3

AWS RDS

AWS RDS

Redshift

Redshift

AWS Lambda

AWS Lambda

AWS VPC

AWS VPC

Cloudformation

Cloudformation

AWS Athena

AWS Athena

AWS Glue

AWS Glue

Step Functions

Step Functions

AWS Sagemaker

AWS Sagemaker

AWS SQS

AWS SQS

AWS SNS

AWS SNS

Serverless

Serverless

What Will You Gain

课程内容

Sydney

数据工程全栈班第五期

通过商业项目贯穿数据分析、数据工程、数据科学, 面向企业数据工程师培训

开课时间 2020-8-12

先修知识

  • Database Concept & DBMS - ER Model

    • Overview of DBMS

    • Components of DBMS

    • Database Architecture

    • Types of Database Model

    • ER Model: Basic Concepts

    • ER Model: Creating ER Diagram

    • ER Model: Generalization and Specialization

    Assignment

    • Design an ER Diagram about company, department, employee and other related entities

    • Create the related tables including at least five entities and five relationship

  • DE Introduction & DBMS - Relational Model 

    1. Big Data & Relational Database Fundamentals

    2. SQL introduction

    3. Data Warehouse: Kimball and Inmon Model

    4. Data Vault introduction

    5. Data lake vs Data Warehouse

    6. Data Industry role types: data engineer

    7. Cloud service introduction

    8. Data: definition, ACSII&UTF*&UTF16

    9. Primary Text Based Information Type

    o Unstructured data

    o Semi-structured data

    o Structured data

    10. Database

    o DBMS

    o definition,

    o characteristics

    o advantages and disadvantage

    o Components

    o Architecture

    o Type of database model

    11. Data modelling

    12. Schema

    13. ER model

    14. Big data ecosystem

  • Tutorial 1 (1 hour)

    本次课程内容:

    1,同学互相认识介绍

    2,课程结构介绍

    3,Data Warehouse两种建立模式

    4,作业答疑

  • AWS - IAM & S3

    Identity Access Management

    • Overview

    • Lab: IAM

    • Lab: create a billing alarm

    Sample Storage Service

    • Overview

    • Lab: create an S3 bucket

    • Lab: S3 life cycle management, S3-IA & Glacier

    • Performance

    Elastic Compute Cloud

    • OverviewLab: launch our first

    • EC2 instance

    • Security groups basics

    • Load balancer theory

    • The AWS command line and EC2

    • Using IAM roles with EC2

    • S3 CLI & regions

    • Lambda

  • AWS EC2 & Lambda

    Elastic Compute Cloud

    • OverviewLab: launch our first

    • EC2 instance

    • Security groups basics

    • Load balancer theory

    • The AWS command line and EC2

    • Using IAM roles with EC2

    • S3 CLI & regions

    • Lambda

  • Tutorial 2 (1 hour)

    本次课程主要内容:

    1, 学员分组

    2,课程结构复习

    3,Data Warehouse复习

    4, Shell命令

  • DBMS & SQL Intro

    DBMS

    • Codd's 12 rule of RDBMS

    • Basic Concepts of RDBMS

    • ER Model to Relational Model

    • Database Normalization

    SQL Intro

    • SQL Concept

    • DDL Command

    • DML Command

    • DCL Command

    Assignment two

    • Using the data set provided, set up a Snowflake database, create the table, import the data, and implement some query

  • Lambda & Databases on AWS

    Databases on AWS

    • OverviewLab: create RDS instance

    • RDS - back ups, multi-AZ & read replicas

    • DynamoDB

    • RedShift

    • Elasticache

    • Aurora

  • Tutorial 3 (1 hour)

    本次课程内容:

    1,一图讲清楚 IAM, S3, EC2

    2,AWS作业答疑

  • SQL Part 1

    SQL Part 1

    • SQL Data Type (Snowflake)

    • SQL Join

    • SQL Join Multiple Tables

    • SQL Operator

    • SQL Alias

    • SQL SET operation

    • SQL Nested/Sub/Inner Queries

    • SQL Views

    • SQL Case Study 1

  • Tutorial 4 (1 hour)

    本次课程内容:

    1,复习

    Data Warehouse & Big Data

    Lambda function

    Database on AWS

    2, SQL练习

  • AWS VPC & Git

    VPC

    • Lab: build a custom VPC

    • Network address translation(NAT)

    • Access control lists(ACLs)

    • VPC end points

    • VPC clean up

    • Kinesis

    Git

    • Overview

    • Lab: Create account in Github

    • Lab: Create repository and clone to local computer

    • Lab: Manipulate development process and do the version control

  • Tutorial 5 (1 hour)

    本次课程内容:

    1,复习

    Data Warehouse & Big Data

    IAM S3 EC2 Lambda function & Database on AWS

    一图讲清楚VPC

    2, SQL练习

    3,答疑

  • SQL Part 2

    • SQL Views

    • SQL Study Case 2 & 3

    • Snowflake Querying Semi-structured Data

    • Snowflake load data from local

    • SQL Window Functions

    • SQL Recursive CTE

  • Tutorial 6 (1 hour)

    复习

    1. SNOWFLAKE CLI Installation

    2. VPC NACL problem

  • Data engineering pipeline 1

    1. 讲解群里同学关于VPC NetACL的问题

    2. 讲解Git bash ,Git 定义

    3. Visual studio的安装,怎么用VS打开文件夹

    4. 使用git:

    - 创建local repo, 在那个文件夹里, git init

    - 怎么configure

    - 查看哪些文件staged与否 : git status

    - 怎么stage文件: git add 文件名或者用.

    - 怎么Commit已经stage的文件:git commit

    - 删除一个文件: git rm --cached文件名

    - .gitignore的作用: 可以untrack此文件里写的文件

    - 查看 log,看谁何时做了什么用 git lg

    - 创建分支,跳转到不同分支

    - 整个流程逻辑图示讲解:本地master、 branch 之间merge,本地与remote的pull push ,以及Conflict产生原因等

    - command案例操作讲解

    - 为 GitHub做ssh的set up

    5. Batch processing 和stream processing

    - Batch processing和stream processing的定义,区别以及各自适用场景,优点;

    - Batch processing 实际应用场景示例

    - Batch processing的挑战

    - Batch processing的architecture (data存储S3,EBS;工具spark, ETL/ELT visualized tools;analytical data存储data warehouse: OLAP database, HBase, Spark SQL; analytic and reporting: PowerBI Tableau)

    - Stream/real time processing的实际应用场景示例

    - real time processing的挑战

    - real time processing的architecture,整个逻辑流程图示讲解 (producer ,数据存储message broker:一般数据在这里放24小时,consumer) 工具kafka等,analytical data存储HBase等; analytic and reporting: Tableau

    6. Data engineer的日常工作,为什么要这么做,以及其设计理念

    - Data extraction/ingestion:

    - push/pull图示讲解,landing server/landing layer 图示讲解

    - 基本信息检查:文件是否全部传完等key points图示讲解

    - Data pre-processing

    - format modification以及Linux command 操作示例

    - flattening: 定义;示例;为什么做flattening(semi structure的优缺点),怎么做snowflake PySpark

  • Tutorial 7(1 hour)

    本次课程内容:

    1,复习

    Git & GitHub

    1)Git 本地操作

    init , config - - global user.name user.email

    add / commit / status / log

    save操作 add操作 commit操作

    新建文件/修改代码 | 纳入git | 快照/版本,1,2,3

    branch / merge

    main———————————————

    A—-开发1————|

    B— 开发2—————-|

    2)GitHub 个人, 小组合作

  • Unix/Linux Shell Basic  Data warehouse

    1. 什么是data warehouse, 图示讲解

    2. 基础概念:

    • 收集业务需求

    • 与团队各业务专家合作设计dimensional model

    • 4 steps dimensional design :

    - decide business process;

    - declare grain;

    - identify dimensions;

    - identify facts:fact table and dimensional tables, fact for measurements, star schema& OLAP cubes, dimension是data ingestion 但是fact measure是通过计算才有的数据;设计时候考adaptable,加fact or dimension尽量不用调整原来的.

    3. Dimension table技术:

    - Dimension table结构;surrogate key(使用原因);

    - Durable key

    - Drill down

    - Degenerate dimensions, denormalized flattened dimensions

    - Multiple hierarchies

    - Flags and indicators

    - Null attributes use unknown or not applicable instead of null

    - Calendar table

    - Role playing dimensions

    - Junk dimension VS cross join等

    - Snowflaked dimension(要避免出现这种)

    - Outrigger dimensions

    4. Fact table 技术:

    - Fact table结构

    - additive, semi-additive, non-additive

    - nulls in fact tables

    - conformed table

    - transaction fact tables ----period snapshot fact tables

    - accumulating snapshot fact table

    - factless fact tables

    - aggregated fact tables

    - consolidated fact tables

    5. integration dimensions via conformed dimensions

    6. SCD: slowly changing dimension(type1,type2,type3)

    7. Linux命令自学

  • Tutorial 8&9(2 hours)

    本次课程内容:

    1. Git & GitHub

    1)Git 本地操作

    init , config - - global user.name user.email

    add / commit / status / log

    save操作 add操作 commit操作

    新建文件/修改代码 | 纳入git | 快照/版本,1,2,3

    branch / merge

    2)GitHub小组合作实验

  • Data warehouse & Snowflake Python

    Data Warehouse

    -SCD Types

    -Dimension Hierarchy Techniques

    -Advanced Fact Table Techniques

    -Advanced Dimension Table Techniques

    Snowflake

    -Python3 Study Case

  • Tutorial 10(1 hour)
  • Data engineering pipeline 2

    Data visualisation

    • Why we need to visualise data

    • Brief introduction of Tableau

    • Dashboard case study in Tableau

    Data pipeline and automation

    • Structure of data pipeline and automation

    Assignment

    Reporting

    • Using the data set provided, create a report (or set of reports) that can be used to analyse site performance by day.

  • Tutorial 11 (1 hour)
  • Serverless

    Cloudformation

    1. Overview

    Serverless Framework

    1. Overview

    2. Lab: create lambda

    3. Lab: create s3 and DynamoDb table

    4. Lab: build serverless pipeline loading data from s3 to DynamoDb

  • Tutorial 12(1 hour)
  • Resume & Interview

    Resume

    Interview

  • Data Analytics & Modelling Intro & Python Intro

    What is data analytics?

    • Non modelling analysis

    • Modelling analysis

    What’s modelling?

    • Problem analysis

    • Get data and data cleaning

    • Feature selection & engineering

    • Build model

    • Test & optimise model performance

    • Output visualisation & reporting

    Python introduction

    • Basic functions

    • Loop

    • If statement

    • Function

    • Module import

    • Tuple, list, dictionary

    Assignment: Register Kaggle account

  • Linear regression & Kaggle linear regression 

    What's linear regression?

    • Definition

    • Assumptions

    • Maximum Likelihood

    What's Kaggle?

    House Prices

    • Data check

    • Feature selection

    • Feature engineering

  • Tutorial 13(1 hour)
  • Kaggle linear regression2

    House Prices

    Build model

    • Scikit-learn

    • Pandas

    Check model performance

    • Error (Mean Absolute Error, Mean Squared Error, Root Mean Squared Error)

    • Cross validation

    Data visualization

    • Matplotlib.pyplot

    • Line chart

    • Confidence interval

    Model optimisation

  • Tutorial 14(1 hour)
  • Kaggle logistic regression1

    Titanic

    Data check

    • Missing value

    • Non standard value

    • Data replacement

    • Data removal

    Feature selection

    • Correlation

    • Variance check

    Feature engineering

    • Transformation

    • Binning

  • Tutorial 15(1 hour)
  • Kaggle logistic regression2

    Titanic

    Build model

    Check model performance

    • Confusion matrix

    • Gini

    Data visualization

    • AUC,ROC

    Model optimisation

    Assignment:

    Upload your own model to Kaggle (Titanic competition)

  • Tutorial 16(1 hour)
  • Model monitoring & Summarising

    Why need to monitor model performance?

    Model monitoring method:

    • Gini

    • PSI

    • CSI

    • Alignment

    • Data quality check

    What more you need to learn before applying for a DA job?

  • Statistical modelling for data analysis

    Introduction to modeling for data science

    • Scientific method and the modeling process

    • Probability distributions

    • Expectation and variance

    • Correlation and dependence

    Introduction to R programming

    • Interactive R

    • Data type and Variables

    • Function and expressions

    • Statistical functions

    • Managing workspaces

    • Lab: Data loading and statistical visualization

    Statistical inference and evaluation

    • Information theoretic learning

    • Model complexity vs data fit

    • Predictive accuracy

    • Precision, Recall and F-measure

    • Receiver Operating

    • Characteristic (ROC)

    • Lab: Data manipulation with tidyverse part I

    Project case study

    Market basket analysis – data consolidation and statistical analysis

  • Tutorial 17(1 hour)
  • Exploratory data analysis (EDA)

    Introduction to data exploration and visualization

    • Visual analytics

    • Measures of Central Location

    • Measures for variability

    • Handling Outliers and missing values

    Analysis of tabular data

    • Basic statistical graphics

    • Data Normalization and Transformation

    • Data discretization

    • Analysis of trends and patterns

    • Lab: Data manipulation with tidyverse II

    • Lab: Advanced plots with R

    Regression correlation and clustering

    • Correlation and dependence

    • Regression analysis

    • Lab: Linear regression and k-mean clustering

    A complete walk through of data exploration process

    Lab: Data exploration on a Wine dataset

    Data lake process

    • Data lake concept

    • Set up a data lake solution on AWS

  • Tutorial 18(1 hour)
  • Data visualization with Tableau

    Business Intelligence

    • Why BI

    • BI Tools

    Tableau

    Worksheets & Dashboards

    • Asking questions using visualizations

    • Hierarchy & Drilldown

    • Calculated fields

    • Parameters & Sets

    • Filters and interactions

    • Advanced visualization

    • Complete dashboard building for story telling

    Project: Market basket prediction - feature engineering and initial model building

  • Machine Learning I

    What is statistical learning and how to assessing model accuracy

    • Prediction and inference

    • Supervised vs Unsupervised Learning

    • Model complexity vs Generalization

    • Model selection

    • Lab: K-Nearest Neighbor

    Linear Model Selection and Regularization

    • Subset selection (Best subset and stepwise selection)

    • Ridge and Lasso regression

    • Generalized additive models

    • Lab: Model selection and regularization

    • Lab: Non-linear Modeling

    Tree-Based Models

    • The basics of decision trees

    • Regression tree and classification trees

    • Bagging, random Forests and boosting

    • Lab: Random forest exercises

    Project : Market basket prediction - feature engineering and initial model building

  • Tutorial 19(1 hour)
  • Machine Learning ||

    Natural language processing

    • Topic modelling

    • Text pre-processing

    • Tokenization

    • Normalization

    • Noise removal

    • Visualization of topics

    Project case study:

    Market basket analysis – walk through model training, prediction and evaluation

    Project1: Market basket prediction - end to end model building

    Project 2: NLP on News group data, identify topics in text document

  • Tutorial 20(1 hour)
  • Machine Learning III

    Support vector machine

    • Maximal Margin classifier

    • Support Vector Classifiers

    • Support Vector Machines

    • Lab: Use SVM to classify non-linear data

    Unsupervised learning

    • The challenge of unsupervised learning

    • Clustering method

    • Lab: Hierarchical clustering

    Project : summary and next steps

    Project 2: NLP on News group data, identify topics in text document - review

Curriculum Highlights

课程亮点

通过项目把数据工程、数据分析和数据科学串起来。

了解数据的行业背景,职业前景和职业发展方向

深度了解 DA, DE & DS。

灵活运跟着导师学习和实战,获得case经验和团队协作经验。

所有全栈课程同时配有模拟面试,简历修改和面试指导等服务。

同时获得匠人学院提供的reference letter哦~ 你的简历背景、数据相关实力/经验将获全方位提升。

如果你的职业目标是:

• Data Engineer

• Big Data Engineer

• BI Developer

• Data Analyst

• ETL Developer

• Database Developer

• Junior Data Engineer

• Associate Data Scientist

4个项目增添简历经验:

使用python以及房价数据做出预测分析

通过经典的泰坦尼克灾难幸存者预测项目全面了解数据建模过程

个人独立完成AWS 关于Video数据工程项目,结合真实公司常考面试题,面试前充分准备

团队项目: 通过分析和处理网络零售商客户的三百多万条订单和销售数据,搭建一个推荐系统来辅助产品的市场销售。

团队项目提高动手能力:

通过分析和处理网络零售商客户的三百多万条订单和销售数据,搭建一个推荐系统来辅助产品的市场销售。这个项目非常全面的涵盖了一个商业数据项目最实用的内容:从需求分析做起,一直到数据处理,数据架构搭建,机器建模和可视化。通过这个项目学生可以学习到如何在AWS云上搭建数据库以及数据流程,用大数据工具处理和转换数据,分析数据并且搭建模型,最后把项目产品化并且创造价值。此项目包含了多个数据文件,处理和建模的过程中用到了很多云上的解决方案,项目综合性很高,有很好的广度和深度,考验了学生如何处理在真实的商业环境中所遇到的问题。学生们在项目中所汲取的经验可以直接被应用到工作中。

JR Tutor Team

匠人导师

Gucheng Zhu
Gucheng Zhu

早年留学澳洲,蹉跎中练出一身本领。10年本地工作经验,非常熟悉澳洲市场(Tier1 – Tier 3)的需求。拥有良好的技术、业务与交际能力,经常被上层委派指导Junior。现任澳洲知名银行大数据工程师,目前专注于企业级Big Data, GDW 2.0和数据科学产品的开发与整合。

  • Common Wealth
Power BI
CBA
数据科学
数据工程师
10年经验
Chao Mu
Chao Mu

澳大利亚新南威尔士大学(UNSW)拥有5年+大数据开发经验,精通数据处理全部流程(数据收集,清洗,验证,转换,存储,建立数据仓库,数据分析,报表可视化等等),目前就任于Contino,担任数据工程师,致力于运用当下最热门,最前沿的数据处理技术和平台解决客户的业务需求,对AWS的大数据架构有独特见解,为人热情好学耐心,喜欢帮助他人解决问题,乐于为大数据的普及贡献自己的一份力量。

5年+大数据开发经验
精通数据处理
Leo
Leo

李光宇,本科毕业于中山大学应用数学系,硕士毕业于墨尔本莫纳什大学商业信息系统系。本人从数据库开发做起,非常熟悉在Linux环境下的数据开发和设计,对大数据和NoSQL的应用也很有心得。最近几年职业方向逐渐从数据库开发转到了数据分析和软件开发,主要包括在AWS环境下大数据的处理和机器学习模型的创建,数据库的应用也逐渐转向了云计算。 现在在麦考瑞银行做数据科学家,主要从事银行数据的分析和处理,还有机器学习模型的创建。现在的兴趣是深度学习的应用和开发。

  • Macquarie Group
数据科学家
机器模型
Ke Hu
Ke Hu

现任某澳洲知名银行高级模型分析师,UNSW通信与数据分析博士。曾在CSIRO担任数据科学家,也曾在中国移动公司担任项目经理。在Team招聘过程中负责参与多次面试,拥有丰富的面试经验,并对转行到数据分析领域与职业规划有着独特的见解和经验。

  • Common Wealth
Commonwealth Bank
Data Analyst
数据科学家

查看更多导师

COOPERATIVE INSTITUTIONS

导师来自