训练营
什么是数据工程?带你了解数据工程师的职能
play46:46

数据工程全栈项目班

大数据行业深度学习+团队合作项目+实习推荐机会

澳洲第一个面向企业的数据工程师培训,掌握大数据整个流程

通过三个项目加强数据工程技术栈学习,个人项目+团队项目

什么是数据工程?带你了解数据工程师的职能
play46:46
feature一个团队项目和两个个人项目
feature包含数据工程师必备技能
feature一线大厂大师解答课程问题
feature获得“云大数据技术”

课程大纲

    数据工程基础
    数据工程概述

    数据工程的定义和重要性

    • 介绍数据工程的基本概念
    • 讨论数据工程在当今数据驱动决策中的关键作用

    数据工程与数据科学、数据分析的区别

    • 明确数据工程、数据科学和数据分析的职责和目标的不同点

    数据工程师的职责和角色

    • 描述数据工程师在数据管道设计、构建和维护中的关键职责

    数据工程师需要具备的技能

    • **云计算平台:**讲解 AWS 等主要云计算平台的基础知识和应用
    • 数据仓库和 ETL 处理探讨如何构建数据仓库和进行 ETL(Extract, Transform, Load)操作
    • SQL 和编程语言深入了解 SQL 的高级应用,以及 Python、Java 等编程语言在数据处理中的作用
    • 数据存储技术讨论 Hadoop、NoSQL 等数据存储技术的选择和应用

    课程导师介绍

    • 介绍导师的专业背景和行业经验,以及他们在数据工程领域的成就

    澳大利亚数据工程师就业市场概况

    • 分析澳大利亚数据工程师的职业前景、就业趋势和行业需求
    Python 文件操作与数据格式

    内容来源:Cici老师

    文件读写

    • 学习如何使用 Python 读写不同格式的文件,包括 CSV、JSON 和 XML
    • 探讨各种文件格式的特点及其适用场景

    数据序列化与反序列化

    • 了解什么是数据序列化,以及如何在 Python 中对数据进行序列化和反序列化
    • 探讨常用的序列化格式,如 JSON 和 Pickle

    使用 Python 处理各种数据格式

    • 学习如何使用 Python 标准库和第三方库处理不同格式的数据
    • 深入了解数据格式之间的转换方法

    数据可视化

    • Matplotlib介绍 Matplotlib 库的基础知识和主要功能
    • 演示如何创建和自定义各种类型的图表,如线图、条形图和散点图
    • Seaborn介绍 Seaborn 库,强调其在统计数据可视化方面的优势
    • 演示如何利用 Seaborn 创建更加复杂和吸引人的图表

    Private Project: 使用 Python 完成数据清洗

    • 实战项目,让学生亲自动手,使用所学知识对真实数据集进行清洗
    • 介绍数据清洗的最佳实践,包括处理缺失值、异常值、重复数据等
    DE Introduction & DBMS - Relational Model 
    1. 大数据概述
    2. 什么是关系型数据库
    3. SQL introduction
    4. 数据库深入理解
      • 数据库管理系统(DBMS)
      • 数据库的9个特点
      • DBMS的优缺点
      • DBMS Components
      • Database Architecture (1-tier, 2-tier, 3-tier)
      • 5种不同类型的database model
        • Flat File Model
        • Hierarchical Model
        • Network Model
        • Entity-relationship Model
        • Relational Model
    5. 数据类型与编码
      • 数据的定义
      • 几种编码方法(ASCII, UTF8, UTF16)
      • Primary Text Based Information Type
        • Unstructured data
        • Semi-structured data
        • Structured data
    6. 数据建模基础
      • 了解什么是Data modelling
      • Data Modelling的三种Schema
        • Conceptual Schema
        • Logical Schema
        • Physical Schema
    7. 详细数据建模
      • 了解ER model
        • Entity
        • Attributes
        • Keys
        • Relationship
    8. 数据仓库理论
      • Data Warehouse的两种模型
        • Kimball model
        • Inmon Model
      • 什么是Data Vault Model
    9. 现代数据存储对比
      • Data lake和Data Warehouse的区别
    10. 技术栈与工具
      • 云服务介绍
    11. 数据工程师角色
      • 详细介绍Data Engineer的工作内容和职责
    12. 大数据生态体系
      • Big data ecosystem
    Git的基本使用

    Git 基础

    • Git 安装与配置:安装 Git,配置用户信息。
    • 初始化仓库:使用git init创建新的Git仓库。
    • 版本控制:理解版本控制的概念和Git的版本控制机制。

    基本操作

    • 克隆仓库:使用git clone克隆远程仓库。
    • 文件操作:使用git add添加文件到暂存区,git commit提交更改。
    • 状态检查:使用git status查看仓库状态,git log查看提交历史。

    分支管理

    • 创建与切换分支:使用git branch创建新分支,git checkout切换分支。
    • 分支合并:使用git merge合并分支。
    • 冲突解决:理解Git合并冲突,学会如何手动解决冲突。

    远程仓库的使用

    • 远程仓库操作:使用git push上传本地更改,git pull更新本地仓库。
    • 远程分支:管理远程分支,理解originupstream

    进阶操作

    • 撤销更改:使用git checkoutgit revertgit reset撤销更改。
    • 标签管理:使用git tag创建标签进行版本标记。
    • 补丁和合并请求:理解如何创建补丁和处理合并请求(Pull Request)。
    Linux 基础

    本节内容来源:Sai Li老师

    Linux 环境设置

    • 介绍 Linux 环境的配置和基本设置

    基本的 Linux 命令

    • 文件操作:ls, cp, mv, rm, touch
    • 目录操作:mkdir, rmdir, cd
    • 文件内容查看:cat, less, head, tail
    • 文件搜索:find, grep

    文件系统和权限

    • 文件系统结构概述
    • 文件和目录权限:chmod, chown
    • 查看和修改文件权限和所有权

    软件安装与管理

    • 使用包管理器安装软件(apt for Ubuntu, yum or dnf for Fedora)
    • 软件包的安装、更新和移除

    文本编辑

    • 简单文本编辑器(如**nano**)
    • **vimvi**编辑器基础

    进程管理

    • 查看系统进程:ps, top, htop
    • 管理进程:kill, pkill, killall

    Linux 中的脚本编写

    • Bash 脚本简介
    • 基本脚本编写和执行
    数据处理技术
    DBMS & SQL Intro

    本节内容:

    关系数据库管理系统 RDBMS 的 12 条规则

    RDBMS 基础概念

    • 表格 table 概念
    • tuple 概念
    • attribute 概念
    • schema
    • key 图示讲解 PK,FK
    • Integrity constraints : key 键约束 ; Domain 约束 ; Referential integrity constraints

    关系代数 relational algebra

    • select, project, union, intersection, set different, cartesian product, rename

    ER 模型案例讲解

    • entity, relationship, weak entity, weak relationship, hierarchical entity
    • key 键: super key, candidate key, primary key, secondary key, FK foreign key, compound key, composite key, natural key, surrogate key

    数据库正则化 normalization

    • 了解正则化目的: 减少数据冗余 resolve data redundancy, insertion/updation/deletion anomaly
    • 介绍正则化 Rule: 1NF, 2NF, 3NF, BCNF,4NF

    SQL 基础简介

    • SQL 的定义
    • SQL 的组件讲解及案例演示:DDL, DML, DCL, TCL
    Database 与 SQL 基础

    内容来源:Haixin老师

    数据库基础

    • 数据库的定义和用途
    • 数据库管理系统(DBMS)的角色

    数据库类型

    • 关系型数据库(SQL 数据库)与非关系型数据库(NoSQL 数据库)
    • 常见的数据库系统:MySQL、PostgreSQL、MongoDB 等

    数据库安装

    • 教你如何安装数据库

    SQL 语言基础

    • SQL 的定义与用途
    • SQL 语句的基本结构
    • 数据类型:整数、字符串、日期等

    数据查询与操作

    • 数据查询语言(DQL):SELECT 语句的使用
    • 数据操作语言(DML):INSERT、UPDATE、DELETE 语句的使用
    • 数据定义语言(DDL):CREATE、ALTER、DROP 语句的使用
    SQL Part 1

    SQL 基础操作

    • 在 AWS RDS 上练习 SQL 的基本操作,包含 SELECT, INSERT, UPDATE, DELETE 等。

    子查询与连接操作

    • 理论讲解
    • 子查询的概念、类型及其在 WHERE 和 FROM 子句中的使用。
    • 连接操作的种类(INNER JOIN、LEFT/RIGHT OUTER JOIN、FULL OUTER JOIN)及其应用场景。
    • 实操练习
    • 使用不同类型的 JOIN 操作,合并多个表中的数据。

    数据聚合与转换

    • 理论讲解
    • 理解 GROUP BY 和 HAVING子 句的使用。
    • 窗口函数的使用场景和优势,例如 ROW_NUMBER()、RANK()、LEAD()、LAG()。
    • 实操练习
    • 通过 GROUP BY 和聚合函数,进行数据分组和汇总。
    • 使用窗口函数进行数据分析。

    实际案例分析与讨论

    • 通过一个实际案例,引导学员通过使用子查询、连接、聚合和窗口函数来解决实际问题。
    SQL Part 2

    本节知识点:

    1. SQL 案例 2 讲解
    2. 表(Table)与视图(View)的比较
    3. SQL tuning
    4. 了解索引 index 的优点,分类,语法
    5. 介绍窗口分析函数 window analytic function
    6. SQL 案例 3 讲解
    7. 窗口分析函数高阶:

    partition by 的使用,如 :rank()over(partition by XXX order by XXX)

    lead(XXX, 1)over(partition by XXXX order by XXXX)

    lag(XXX, 1) over(partition by XXXX order by XXXX)

    1. Snowflake 上实操讲解 SQL 案例 3
    2. Snowflake query 的 json 格式语法讲解
    3. Snowflake flatten function to parse arrays 语法讲解, snowflake 实操演示
    4. 讲解如何用 command line 把本地数据导入 snowflake
    5. SQL Cumulative sum & moving average
    6. Common table expression CTE 实例讲解
    7. NTILE 案例讲解
    8. 递归 CTE: 语法,案例讲解
    云计算和数据工程
    AWS Introduction

    介绍亚马逊云服务 AWS

    • AWS 的基本概念和服务概览

    AWS 全球架构

    • 解释 AWS 的全球布局,包括 Region 和 Availability Zone 的概念

    AWS Region

    • 探讨Region的选择对性能和合规性的影响

    AWS Availability Zone

    • 了解 Availability Zone 在提高应用可靠性中的作用

    创建 AWS 账号

    • 指导如何创建 AWS 账号并简述账户安全性的最佳实践

    Relational Database Service(RDS)的介绍

    • 介绍 RDS 服务,包括支持的数据库引擎和 RDS 的主要特点

    创建 RDS 实例

    • 选择数据库引擎(如 MySQL)
    • 配置 RDS 实例的详细步骤,包括安全组和参数设置
    • 演示如何启动、停止和删除 RDS 实例

    链接 RDS instance

    AWS Permission & IAM & S3

    IAM: Identity Access Management

    • 介绍 IAM 的基本概念,包括用户、组、角色和策略

    例子: 熟悉 IAM 的功能

    • 通过实例深入了解 IAM 的功能和管理方法

    例子: Create a Billing Alarm

    • 演示如何设置计费警报,以避免不必要的费用

    S3 介绍以及练习

    Databases on AWS

    数据库 Databases on AWS

    • 探讨 AWS 提供的数据库服务总览

    关系数据库与非关系型数据库

    • 探讨关系数据库与非关系数据库的区别
    • 探讨非关系型数据库的特点和主要类型

    OLTP vs OLAP

    • 比较在线事务处理(OLTP)和在线分析处理(OLAP)的特点和应用

    Elasticache 介绍

    • 介绍 Elasticache 服务及其在缓存策略中的应用

    RDS:备份 back ups, Multi-AZ & Read Replicas,加密 encryption

    • 深入探讨 RDS 服务,包括其备份、多可用区部署、读副本和数据加密功能

    RDS 代码演示

    • 使用lambda从MySQL获取数据,写入S3,完成一个data extraction的过程

    DynamoDB 介绍,AWS 上创建数据库实例

    • 探讨 DynamoDB 的核心概念,并通过实践学习如何在 AWS 上创建和配置 DynamoDB 实例

    RedShift

    • 介绍 RedShift 数据仓库服务的特点和应用场景

    关系型数据库 Aurora 及其架构

    • 探讨 Aurora 数据库的特点、架构及其在 AWS 服务中的地位和应用

    灾难恢复

    • RPO, RTO, Transaction log
    Docker 的使用

    内容来源:Liji Yu老师

    介绍 Docker

    • Docker 的主要用途和优势
    • Docker 的基本组成:镜像、容器、仓库
    • Docker 安装

    Docker 基本操作

    • 使用**docker pull**下载镜像
    • 使用**docker run**启动容器
    • 使用**docker ps**查看运行中的容器
    • 使用**docker stop**停止容器
    • 使用**docker rmdocker rmi**删除容器和镜像

    Docker 镜像管理

    • 编写简单的 Dockerfile
    • 使用**docker build**构建镜像
    • 使用**docker images**查看本地镜像
    AWS Computing

    介绍 EC2: Elastic Compute Cloud

    • 了解 EC2 服务的基础知识,包括它的特性和用途

    AWS EBS 介绍

    • 探讨弹性块存储(EBS)的基本概念,以及它与 EC2 的关系

    Lab: 启动我们的第一个 EC2 实例

    • 通过实际操作学习如何启动和配置 EC2 实例

    安全组基础

    • 了解安全组的概念和如何用于管理 EC2 实例的网络访问

    负载均衡器理论

    • 探讨负载均衡器的作用以及在 AWS 中的应用

    AWS Lambda 介绍

    • AWS Lambda 服务概述。
    • Lambda 函数的工作原理和使用场景。
    • 创建第一个 Lambda 函数:环境设置、角色和权限。

    Lambda 与 RDS 集成

    • 配置 Lambda 函数以连接到 RDS 实例。
    • 环境变量的使用来存储数据库连接信息。
    • 示例:在 Lambda 中执行 SQL 查询。

    处理和转换数据

    • 使用 Python 在 Lambda 中处理 SQL 查询结果。
    • 数据转换技巧:从查询结果生成 JSON、CSV 等格式。
    • Lambda 函数的测试和调试方法。
    AWS Messaging

    SNS 和 SQS 简介

    • 了解 SNS 和 SQS 服务的基本概念和架构

    SNS: Pub-Sub model, Topic, SNS Benefits

    • 探讨 SNS 的发布-订阅模型,以及如何创建和使用主题
    • 讨论 SNS 的主要优势和应用场景

    SQS: 解耦应用组件, 存储消息, 发送/检索消息, 标准队列和 FIFO 队列

    • 介绍 SQS 的基本功能,包括消息存储和消息传递
    • 解释标准队列和 FIFO 队列的区别和适用场景

    SNS 与 SQS 的比较

    • 比较 SNS 和 SQS 的特点和适用场景

    通过控制台实践 SNS 和 SQS

    • 通过 AWS 控制台操作,实践如何配置和使用 SNS 和 SQS

    通过 Lambda 实践 SNS 和 SQS

    • 学习如何将 SNS 和 SQS 与 Lambda 函数集成,实现消息驱动的应用

    AWS Kinesis 简介

    • 介绍 Kinesis 服务的基本概念和架构,以及它在实时数据处理中的应用

    通过 Lambda 实践 Kinesis

    • 通过实际操作学习如何将 Kinesis 与 Lambda 函数集成,处理和分析实时数据流
    AWS Networking

    本节内容:

    VPC 简介(Virtual Private Cloud)

    • 定义 VPC 及其在 AWS 中的作用
    • 探讨 VPC 的关键特性和优势

    网络安全基础

    • 介绍网络安全的基本概念,包括防火墙和安全组

    AWS VPC 的定义和示例

    • 通过例子讲解 VPC 的结构和工作原理

    图示讲解 VPC 整个框架

    • 使用图解的方式展示 VPC 的架构和组件

    内部 IP 范围

    • 演示如何在 VPC 中分配内部 IP 地址范围

    VPC Peering 简介

    • 介绍 VPC Peering 的概念
    • 演示如何在不同的 VPC 之间建立网络连接

    子网(Subnet)

    • 探讨子网的概念
    • 演示如何在 VPC 中划分和使用子网

    互联网网关(Internet Gateway)

    • 介绍互联网网关的作用
    • 演示如何将其与 VPC 关联

    路由表(Route Table)

    • 讨论路由表的功能
    • 演示如何管理 VPC 的路由

    网络地址转换(NAT)网关和弹性 IP

    • 探讨 NAT 网关的作用和配置方法,以及弹性 IP 的概念和使用场景

    VPC 端点(VPC Endpoints)

    • 介绍 VPC 端点的概念和用途
    • 演示如何在 VPC 中配置端点

    VPC wrap-up

    • 总结 VPC 的核心概念,以及如何在 AWS 中构建高效、安全的网络架构
    AWS data platform and serverless part 1

    本节内容:

    Kinesis 简介

    • 介绍 AWS Kinesis 服务及其在实时数据处理中的应用

    为 Kinesis 配置生产者 Lambda

    • 练习:学习如何创建和配置一个 Lambda 函数来作为 Kinesis 的数据生产者

    为 Kinesis 配置消费者 Lambda

    • 练习:学习如何创建和配置一个 Lambda 函数来处理 Kinesis 数据流的数据

    Kinesis Firehose

    • 介绍 Kinesis Firehose 服务及其在数据加载和转换中的应用

    Athena, Redshift Spectrum, SageMaker 简介

    • 探讨 Athena 和 Redshift Spectrum 在查询和分析数据湖数据的能力
    • 介绍 SageMaker 及其在构建、训练和部署机器学习模型中的应用

    AWS CloudFormation 简介

    • 介绍 CloudFormation 服务及其在自动化资源管理和基础设施即代码(Infrastructure as Code, IaC)中的应用

    介绍 Serverless 的定义和优点

    • 定义 Serverless 架构及其主要优点

    在 terminal 安装 Serverless

    • 演示在本地环境中安装 Serverless Framework

    运行 Serverless

    • 练习:学习如何使用 Serverless Framework 来部署和管理应用
    AWS data platform and serverless part 2

    本节内容:

    创建第一个 Serverless 项目

    • 介绍如何创建 Serverless 项目和必要的前提条件

    解析初始项目的默认代码:handler.py 和serverless.yml

    • 详细讲解项目初始代码文件的结构和功能
    • 解析 handler.py:理解处理函数的写法和触发机制
    • 解析 serverless.yml:探讨其配置项,如函数定义、事件触发器和资源配置

    实施部署方法

    • 介绍如何使用 Serverless Framework 进行部署
    • 实践部署命令:serverless deploy –aws-profile profileName

    案例讲解

    • 通过具体的案例,演示如何使用 Serverless 项目解决实际问题

    两种方法实现 AWS 案例

    • 探讨两种不同的方法来实现 AWS 案例,提供多角度解决问题的视野和工具
    Data engineering Practice

    本节内容:

    Batch Processing and Real Time Processing

    • 定义批处理和实时处理,并比较两者的特点和应用场景

    Data Extraction/Ingestion

    • 探讨数据抽取的概念和技术,如 API 调用、数据库导出和日志文件
    • 讨论实时数据摄取的技术和工具,如 Apache Kafka 和 AWS Kinesis

    Data Pre-processing

    • 介绍数据清洗、数据标准化和数据丰富等预处理步骤

    Data Transformation

    • 探讨数据转换的过程,包括 ETL(提取、转换、加载)和 ELT(提取、加载、转换)的概念和工具

    Data Loading

    • 讨论数据加载的目的和方法,包括批量加载和流式加载

    Data Visualization

    • 探讨数据可视化的重要性,并介绍常用的数据可视化工具和库

    Data Pipeline and Automation

    • 介绍数据管道的概念和构建数据管道的步骤
    • 讨论如何使用工具和平台自动化数据管道,如 Apache Airflow 和 AWS Data Pipeline
    数据模型和数据仓库
    Data Warehouse & Data Lake

    Data Lake 与 Data Warehouse 的概念

    • 数据仓库和数据湖的定义及区别。
    • 数据仓库和数据湖在现代数据架构中的角色。
    • AWS 在数据仓库和数据湖领域的服务概览。
    • 介绍一下主流的云数据库服务,如 Amazon Redshift、Google BigQuery、Snowflake 等。

    Amazon Redshift 基础:

    • Amazon Redshift 概述和架构。
    • 如何创建和配置 Redshift 集群。
    • Redshift 数据库设计的最佳实践。
    • 基本操作:数据加载、查询、管理。
    • 使用 Amazon S3 构建数据湖的基础。
    • AWS Lake Formation 简介和功能。

    Amazon S3 与 Lake Formation:

    • 数据湖的安全性和权限管理。
    • 数据湖中的数据清洗、转换和查询操作。

    案例演示:数据仓库的构建过程

    • Private Project-演示如何构建数据模型去存储数据。
    Unix/Linux Shell Basic  Data warehouse
    1. 图示讲解:什么是数据仓库data warehouse

    2. 基础概念:

    • 收集业务需求
    • 与团队各业务专家合作设计dimensional model
    • 4 steps dimensional design :
      • decide business process
      • declare grain
      • identify dimensions
      • identify facts
    1. Dimension table技术:
    • Dimension table结构以及surrogate key的使用原因
    • Durable key
    • Drill down
    • Degenerate dimensions
    • Denormalized flattened dimensions
    • Multiple hierarchies
    • Flags and indicators
    • Null attributes in dimension
    • Calendar table
    • Role playing dimensions
    • Junk dimension VS cross join
    • Snowflaked dimension
    • Outrigger dimensions
    1. Fact table 技术:
    • Fact table结构
    • Additive, semi-additive, non-additive
    • Nulls in fact tables
    • Conformed table
    • Transaction fact tables
    • Periodic snapshot fact tables
    • Accumulating snapshot fact table
    • Factless fact tables
    • Aggregated fact tables
    • Consolidated fact tables
    1. Integration via conformed dimensions

    2. 学习SCD: slowly changing dimension(type1,type2,type3)

    3. 学习使用Linux命令

     

    团队商业项目
    Group project bootstrap

    本节内容:

    • 介绍匠人培训 5.0
    • 项目类型介绍
    • 分组安排介绍
    • Bootstrap 需要掌握的知识:Infrastructure as Code、CI/CD Pipeline、Github Actions、Project initiate
    • 项目 Proposal 的流程介绍
    Group Project Proposal

    每组的 Project proposal

    • 准备阶段:每组学生需要准备一个 PPT,介绍团队项目,包括项目背景、目标、所使用的技术栈、实现过程中的主要挑战和解决方案,以及项目的最终成果。
    • 展示阶段:每组在规定时间内来展示他们的项目。

    老师对每组项目的点评

    • 评价标准:如创意性、技术实现的复杂度、项目对实际问题的解决能力、团队合作展示、以及演示的清晰度等方面进行点评。
    • 正面反馈:老师指出每个项目的优点,增加学员参与团队项目的信心。
    • 建设性建议:老师对项目介绍提出改进建议,指出项目中可能存在的问题或者可以进一步改进的地方。
    • 互动环节:学生针对团队项目提出问题,或者进行开放性讨论。
    Data Lake and Architectur on AWS

    本节知识点:(项目辅导)

    • Data Lake architecture and implementation
    • Statistical modelling and Machine learning
    • Serverless big data processing
    • SQL and ETL orchestration
    • Data streaming and big data processing
    • Machine learning engineering
    Big data processing and modelling

    本节知识点:(项目辅导)

    • Apache Spark 的介绍
    • Hadoop and Spark
    • Spark features
    • Cluster mode 介绍
    • Spark components
    • Directed Acyclic Graph(DAG) in Spark
    • SparkSession and SparkContext
    • Resilient Distributed Dataset(RDD)
    • PySpark
    Model deployment

    本节内容(项目辅导):

    生产级机器学习概述

    • 定义生产级机器学习,并介绍其整体流程和面临的挑战。
    • 探索数据分析产品的部署过程,包括如何将模型部署成具有输入和输出的端点(Endpoint)。
    • 深入了解机器学习流程、数据工程流程、模型部署流程和监控流程。

    SageMaker 部署介绍

    • 详细介绍 SageMaker 的概念和它在 AWS 生态系统中的组件。
    • 探索如何利用 SageMaker 进行高效的机器学习模型部署。

    数据工程大项目最后阶段:实际部署操作

    • 指导学员完成数据工程大项目的最后一部分,实操部署机器学习模型。
    • 提供实用的技巧和指导,确保学员能够成功部署和管理他们的模型。

    股票代码小作业讲解

    • 提供股票代码的案例分析,帮助学员理解数据分析和编程的实际应用。

    大型项目汇报要求和准备

    • 讲解大型项目汇报的要求和准备工作,指导学员如何有效地展示他们的成果。
    什么是代码的SOLID原则
    • SOLID 原则是什么
    • 代码更好的实现形式
    • Refactor 重构
    • 单一职责
    • 开关原则
    • 依赖注入
    Data streaming

    本节内容:(项目辅导)

    • Stream Processing 介绍
    • Stream Processing and Batch Processing
    • Kinesis data streams
    • Stream Processing benefits
    • Stream Processing solution
    • Kafka
    • KSQL
    大数据
    Big Data

    本节内容:

    大数据主要概念:

    • 分布式存储 HDFS, HBase ;
    • 资源管理 yarn ;
    • 计算引擎:spark core;
    • 服务 API

    HDFS 概念

    • Name node
    • Data node
    • Blocks
    • 图示讲解 HDFS 架构、流程和组件

    介绍 Yarn scheduler

    介绍 Hive metastore

    GCP google cloud platform 实际案例操作

    Spark Data Processing 1

    本节内容:

    Spark 安装

    Spark 核心概念

    • **弹性分布式数据集(RDD):**介绍 RDD 的概念、特点及其在 Spark 中的重要性
    • **DataFrame:**探讨 DataFrame 的概念和与 RDD 的区别,以及其在数据处理中的优势
    • **Spark SQL:**介绍 Spark SQL 的功能和在结构化数据处理中的应用
    • **Spark Streaming:**探讨 Spark Streaming 的特点和在实时数据处理中的应用
    • **MLlib:**介绍 Spark 的机器学习库 MLlib 及其主要功能
    • **GraphX:**探讨 GraphX 在图形处理和分析中的应用

    Spark 的主要特点

    • **速度:**解释 Spark 如何通过内存计算提高处理速度
    • **易用性:**介绍 Spark 提供的高级 API 和支持的编程语言
    • **通用型:**探讨 Spark 在批处理、交互式查询、实时分析、机器学习和图形处理等多种计算任务中的通用性
    • **容错性:**讨论 Spark 的容错机制,包括 RDD 的不可变性和数据恢复的特性

    Spark 架构

    • **Driver 程序:**介绍 Driver 程序的角色和功能
    • **Cluster Manager:**探讨 Cluster Manager 在资源管理中的作用
    • **Executor:**解释 Executor 在任务执行和数据存储中的角色

    Spark 应用场景的介绍

    • 探讨 Spark 在不同行业和场景中的应用,如金融分析、电信、物联网、机器学习等

    RDD 应用

    • 练习:创建 RDD,以及 RDD 的 transformations 和 actions 操作。
    Spark Data Processing 2

    本节内容:

    Spark SQL

    • 介绍和概念:讲解 Spark SQL 的基本概念,以及它如何使得处理半结构化数据变得简单。
    • 功能和特性:深入 Spark SQL 的主要功能,包括 DataFrame 操作、内置函数、窗口函数等。
    • 使用 Spark SQL 进行数据查询:演示如何使用 Spark SQL 执行 SQL 查询,包括从文件系统、Hive 等数据源读取数据。
    • 性能优化技巧:探讨如何通过广播变量、分区策略等方式优化 Spark SQL 查询性能。

    Spark Dataset

    • 介绍和概念:讲解 Dataset API 的基本概念,以及它与 RDD 和 DataFrame 的关系。
    • 创建和操作 Dataset:演示如何创建 Dataset,以及如何进行各种转换(transformation)和行动(action)操作。
    • 类型安全性:探讨 Dataset 的类型安全特性,以及如何利用它进行更精确的数据处理。
    • 性能考虑:讨论 Dataset 的内部工作原理,包括编码器(Encoders)的作用,以及如何通过调整序列化和计算策略来优化性能。
    数据可视化工具
    Data Analytics

    1.了解什么是数据分析

    • Non modelling analysis
    • Modelling analysis

    2.介绍Docker

    • What's Docker
    • How to use Docker
    • Lab: use Docker to collaborate

     

    Data visualization with Tableau

    介绍几种常用数据分析工具

    • python, R, SQL, tableau, Excel, Power BI

    Tableau 介绍

    • Tableau 的优点
    • Tableau 的 5 种产品
    • Tableau 实验基础

    案例分析

    • 案例 根据已有 sheet 创建新的 sheet
    • 案例 sales by region
    • 案例 scatter plot
    • 案例 profit by category
    • 案例 data-dist/con
    • 案例 for calculated field
    • 案例 for countd
    • 案例 for sales/profit by state
    • 案例 for sales/profit category
    • 建立 dashboard
    • 案例 set(Top N customer)
    • 案例 donut plot
    • 案例 pie plot
    • 案例 用折线一起显示总体的 sales 和不同 region 的 sales
    Machine Learning
    Machine Learning

    "统计学习与模型应用:从线性回归到树基模型"

    统计学习及模型准确度评估

    • 探讨如何使用训练数据、验证数据和测试数据评估模型的准确度。
    • 理解统计学习在数据分析和预测中的应用。

    线性模型选择及正则化

    • 深入理解 Ridge 和 Lasso 回归,并学习如何在实际问题中应用这些正则化技术。
    • 通过 R 代码演示线性回归案例,包括数据结构、绘图、模型总结、更新、方差分析和处理分类变量。
    • 掌握特征选择技术,使用 car 库进行异常值测试和影响力分析。

    树基模型(Tree-Based Models)

    • 学习回归决策树和分类决策树的基本原理和构建过程。
    • 探索树模型的分支(branch)、Bagging、随机森林(Random Forests)和提升方法(Boosting)。
    • 通过实验室环节(Tree-Based LAB)深入实践树基模型的应用。
    Machine Learning ||

    支持向量机(Support Vector Machine)

    • 学习支持向量机的基本类型,包括最大间隔分类器、支持向量分类器和支持向量机。
    • 探讨支持向量机的基础原理及其在分类问题中的应用。
    • 通过实验室代码讲解,练习构建和评估支持向量机模型。

    无监督学习:层次聚类方法

    • 理解无监督学习中层次聚类方法的原理和实现方式。
    • 探索如何在实际数据集上应用层次聚类进行数据分析。

    Xgboost 模型原理及参数调整

    • 学习 Xgboost 模型的原理和关键参数,如 booster、eta 学习率、min_child_weight 和 max_depth 等。
    • 掌握如何调整 Xgboost 模型的参数以提升模型性能。

    数据工程(DE)大项目讲解

    • 从 part1 到 part4 逐步讲解数据工程大项目,包括数据处理、特征工程、模型训练和评估。
    Agile项目管理
    Agile Methodologies
    • 敏捷开发采用的具体方法,什么是 Scrum,什么是 Kanban
    • 结合实际工作讲解各个流程:scrum planning,daily standup,scrum board,scrum review meeting,spring retrospective meeting
    • Kanban 的几个阶段,具体每个阶段的意义是什么
    • Scrum 在敏捷开发中的定义是什么
    • Scrum 里面的 roles 是什么,Artifacts 是什么,Scrum 里面包含的 Events 有什么
    • SCRUM 的 3355 原则是什么,Value Propositions 是什么
    • Retrospective meeting 主要用来作什么的
    • Scrum 的 Teams Roles: Product Owner, Development Team, Scrum Master,分别是什么
    • Kanban 具体的步骤是什么
    • 怎样写 backlog,怎样写用户故事:“完成”的定义,故事拆分和故事估算
    Agile Scrum
    1. Agile 的由来、开发宣言、原则、主要关注点,什么是价值

    2. Scrum 框架的各个流程概述,“3355”方法论

    3. 结合实际工作讲解各个流程:scrum planning,daily standup,scrum board,scrum review meeting,spring retrospective meeting

    4. 班级进行模拟 retrospective meeting,回顾课程至今的成果与不足

    5. 怎样写 backlog,怎样写用户故事:“完成”的定义,故事拆分和故事估算

    6. 怎样改进流程、提高效率,为什么企业需要 T 型人才

    7. 介绍精益方法和 Kanban,实际使用中 Kanban 和 Scrum 的结合

    8. Project 3 分组

    9. 介绍 Sportify

     

    什么是Agile SDLC, Waterfall, Agile介绍

    视频介绍:

    1. Agile 的由来、开发宣言、原则、主要关注点,什么是价值
    2. 传统的项目管理如何进行的:悉尼歌剧院,悉尼轻轨
    3. Software Development Life Cycle(SDLC) 是什么, 具体的每个阶段是什么
    4. SDLC-Waterfall 和 V Model 是什么
    5. Project Management Methodologies 有什么
    6. Lean Startup 是什么
    7. 为什么使用敏捷开发,什么是敏捷开发,与 Waterfall 有什么区别
    8. Agile 的价值观是什么,Agile Manifesto 是什么,12 个原则是什么
    Agile Case研究:微软Microsoft Case Study

    来自微软曾获得 MVP 的 Ray 老师,讲述以微软 Windows 交付使用 Agile 的流程

    • 微软是如何使用 Agile 的,如何使用 Agile 敏捷开发以及采用 DevOps 文化
    • Windows 的发布周期
    • Waas 是什么,Windows as a Service,其中 Rings 是什么
    • 微软的开发团队分布
    • Windows 开发具体的周期
    • Up-front Planning 开发,Code Test Stabilize 过程
    • Windows 的开发流程如何转型的,如何提升效率和成功率的
    • Agile 在项目开发中的好处是什么
    IT Career Coaching
    Resume and Interview

    课程简述:

    1. 澳洲就业行情介绍

    - Permanent/contract role介绍

    - 澳洲获取工作的方式结束

    - 招聘信息解读

    2. Glassdoor: https://www.glassdoor.com.au(怎么看别人对各个公司的评价;也会有面试的问题分享)

    3. LinkedIn:招聘者,应聘者怎么用

    4. 职场规划

    5. 老师自身投简历经历介绍

    6. 面试

    - 澳洲的面试流程介绍

    - 面试官的视角(会从哪些方面问应聘者,实际是在考核应聘者哪个方面等)

    - 应聘者的视角(从哪些方面去突出自己,如何使用STAR方法)

    7. 简历撰写讲解

    8. 课后作业

    Linkedin & CV

    1. 校招和社招的要求,entry level vs junior level vs mid level

    2. 职场规划,沟通能力的重要性,team match 的重要性

    3. 澳洲公司情况,产品方向 vs 咨询方向

    4. 找工作网站的区别、建议

    5. 工作类型,permanent vs contractor,薪资期待,福利待遇

    6. 获取工作的方式:meetup、猎头、内推,如何区分和利用猎头,内推的作用

    7. 如何经营 linkedin:提高 SEO 和可读性、扩大人脉、利用 open network、写好 profile

    8. 招聘流程,怎样投简历,怎样说未来计划,怎样说 notice period

    9. 怎样写简历,LMS 简历制作功能,怎样罗列自己的技能,怎样把项目经历写进简历

    10. 求职信的作用,怎样写求职信

logo

Follow Us

linkedinfacebooktwitterinstagramweiboyoutubebilibilitiktokxigua

We Accept

/image/layout/pay-paypal.png/image/layout/pay-visa.png/image/layout/pay-master-card.png/image/layout/pay-stripe.png/image/layout/pay-alipay.png

地址

Level 10b, 144 Edward Street, Brisbane CBD(Headquarter)
Level 8, 11 York st, Wynyard, Sydney CBD
Business Hub, 155 Waymouth St, Adelaide SA 5000

Disclaimer

footer-disclaimerfooter-disclaimer

JR Academy acknowledges Traditional Owners of Country throughout Australia and recognises the continuing connection to lands, waters and communities. We pay our respect to Aboriginal and Torres Strait Islander cultures; and to Elders past and present. Aboriginal and Torres Strait Islander peoples should be aware that this website may contain images or names of people who have since passed away.

匠人学院网站上的所有内容,包括课程材料、徽标和匠人学院网站上提供的信息,均受澳大利亚政府知识产权法的保护。严禁未经授权使用、销售、分发、复制或修改。违规行为可能会导致法律诉讼。通过访问我们的网站,您同意尊重我们的知识产权。 JR Academy Pty Ltd 保留所有权利,包括专利、商标和版权。任何侵权行为都将受到法律追究。查看用户协议

© 2017-2024 JR Academy Pty Ltd. All rights reserved.

ABN 26621887572