训练营

机器学习&数据工程全栈项目班课程安排

大数据行业深度学习+团队合作项目+实习推荐机会

澳洲第一个面向企业的数据工程师培训，掌握大数据整个流程

通过三个项目加强数据工程技术栈学习，个人项目+团队项目

报名福利:

完成表单报名，即可获得专属报名优惠！仅扫码咨询不享受优惠，请提交表单完成报名。

一个团队项目和两个个人项目

包含数据工程师必备技能

一线大厂大师解答课程问题

获得“云大数据技术”

课程大纲

数据工程基础

数据工程概述

数据工程的定义和重要性

介绍数据工程的基本概念
讨论数据工程在当今数据驱动决策中的关键作用

数据工程与数据科学、数据分析的区别

明确数据工程、数据科学和数据分析的职责和目标的不同点

数据工程师的职责和角色

描述数据工程师在数据管道设计、构建和维护中的关键职责

数据工程师需要具备的技能

**云计算平台：**讲解 AWS 等主要云计算平台的基础知识和应用
数据仓库和 ETL 处理探讨如何构建数据仓库和进行 ETL（Extract, Transform, Load）操作
SQL 和编程语言深入了解 SQL 的高级应用，以及 Python、Java 等编程语言在数据处理中的作用
数据存储技术讨论 Hadoop、NoSQL 等数据存储技术的选择和应用

课程导师介绍

介绍导师的专业背景和行业经验，以及他们在数据工程领域的成就

澳大利亚数据工程师就业市场概况

分析澳大利亚数据工程师的职业前景、就业趋势和行业需求

Python 文件操作与数据格式

内容来源：Cici老师

文件读写

学习如何使用 Python 读写不同格式的文件，包括 CSV、JSON 和 XML
探讨各种文件格式的特点及其适用场景

数据序列化与反序列化

了解什么是数据序列化，以及如何在 Python 中对数据进行序列化和反序列化
探讨常用的序列化格式，如 JSON 和 Pickle

使用 Python 处理各种数据格式

学习如何使用 Python 标准库和第三方库处理不同格式的数据
深入了解数据格式之间的转换方法

数据可视化

Matplotlib介绍 Matplotlib 库的基础知识和主要功能
演示如何创建和自定义各种类型的图表，如线图、条形图和散点图
Seaborn介绍 Seaborn 库，强调其在统计数据可视化方面的优势
演示如何利用 Seaborn 创建更加复杂和吸引人的图表

Private Project: 使用 Python 完成数据清洗

实战项目，让学生亲自动手，使用所学知识对真实数据集进行清洗
介绍数据清洗的最佳实践，包括处理缺失值、异常值、重复数据等

DE Introduction & DBMS - Relational Model

大数据概述
什么是关系型数据库
SQL introduction
数据库深入理解
- 数据库管理系统(DBMS)
- 数据库的9个特点
- DBMS的优缺点
- DBMS Components
- Database Architecture (1-tier, 2-tier, 3-tier)
- 5种不同类型的database model
  - Flat File Model
  - Hierarchical Model
  - Network Model
  - Entity-relationship Model
  - Relational Model
数据类型与编码
- 数据的定义
- 几种编码方法(ASCII, UTF8, UTF16)
- Primary Text Based Information Type
  - Unstructured data
  - Semi-structured data
  - Structured data
数据建模基础
- 了解什么是Data modelling
- Data Modelling的三种Schema
  - Conceptual Schema
  - Logical Schema
  - Physical Schema
详细数据建模
- 了解ER model
  - Entity
  - Attributes
  - Keys
  - Relationship
数据仓库理论
- Data Warehouse的两种模型
  - Kimball model
  - Inmon Model
- 什么是Data Vault Model
现代数据存储对比
- Data lake和Data Warehouse的区别
技术栈与工具
- 云服务介绍
数据工程师角色
- 详细介绍Data Engineer的工作内容和职责
大数据生态体系
- Big data ecosystem

Working With API

一些网站的拥有者使用API，也就是应用程序编程接口，以便于数据提取。API充当了客户端（如你的计算机）与服务器之间的桥梁，使它们能够进行通信。客户端通过这座桥发送请求，服务器则以所需的数据进行响应。

想象一下这种用处：设想有两家公司，匠人学院和一个招聘网站，正在寻求合作。如果匠人学院想与招聘网站共享有关学生学习进度的最新信息，他们可以使用API。这样，招聘网站可以直接从匠人学院的服务器获取最新的学生数据。

这个过程涉及两个主要步骤：API请求和API响应。招聘网站通过API向匠人学院的服务器发送请求，之后服务器会以数据进行响应。

要将像OpenAI的GPT这样的基础模型集成到你的产品中，你需要连接OpenAI的API。这一连接对于发送请求和接收OpenAI服务的响应至关重要，让你可以在应用中使用他们的基础模型。掌握API的使用是AI开发者和工程师必备的另一项重要技能。

Git 的基本使用

Git 基础

Git 安装与配置：安装 Git，配置用户信息。
初始化仓库：使用git init创建新的Git仓库。
版本控制：理解版本控制的概念和Git的版本控制机制。

基本操作

克隆仓库：使用git clone克隆远程仓库。
文件操作：使用git add添加文件到暂存区，git commit提交更改。
状态检查：使用git status查看仓库状态，git log查看提交历史。

分支管理

创建与切换分支：使用git branch创建新分支，git checkout切换分支。
分支合并：使用git merge合并分支。
冲突解决：理解Git合并冲突，学会如何手动解决冲突。

远程仓库的使用

远程仓库操作：使用git push上传本地更改，git pull更新本地仓库。
远程分支：管理远程分支，理解origin和upstream。

进阶操作

撤销更改：使用git checkout、git revert、git reset撤销更改。
标签管理：使用git tag创建标签进行版本标记。
补丁和合并请求：理解如何创建补丁和处理合并请求（Pull Request）。

Linux 基础

本节内容来源：Sai Li老师

Linux 环境设置

介绍 Linux 环境的配置和基本设置

基本的 Linux 命令

文件操作：ls, cp, mv, rm, touch
目录操作：mkdir, rmdir, cd
文件内容查看：cat, less, head, tail
文件搜索：find, grep

文件系统和权限

文件系统结构概述
文件和目录权限：chmod, chown
查看和修改文件权限和所有权

软件安装与管理

使用包管理器安装软件（apt for Ubuntu, yum or dnf for Fedora）
软件包的安装、更新和移除

文本编辑

简单文本编辑器（如**nano**）
**vim或vi**编辑器基础

进程管理

查看系统进程：ps, top, htop
管理进程：kill, pkill, killall

Linux 中的脚本编写

Bash 脚本简介
基本脚本编写和执行

数据处理技术

DBMS & SQL Intro

本节内容：

关系数据库管理系统 RDBMS 的 12 条规则

RDBMS 基础概念

表格 table 概念
tuple 概念
attribute 概念
schema
key 图示讲解 PK，FK
Integrity constraints : key 键约束 ; Domain 约束 ; Referential integrity constraints

关系代数 relational algebra

select, project, union, intersection, set different, cartesian product, rename

ER 模型案例讲解

entity, relationship, weak entity, weak relationship, hierarchical entity
key 键: super key, candidate key, primary key, secondary key, FK foreign key, compound key, composite key, natural key, surrogate key

数据库正则化 normalization

了解正则化目的: 减少数据冗余 resolve data redundancy, insertion/updation/deletion anomaly
介绍正则化 Rule: 1NF, 2NF, 3NF, BCNF,4NF

SQL 基础简介

SQL 的定义
SQL 的组件讲解及案例演示：DDL, DML, DCL, TCL

Database 与 SQL 基础

内容来源：Haixin老师

数据库基础

数据库的定义和用途
数据库管理系统（DBMS）的角色

数据库类型

关系型数据库（SQL 数据库）与非关系型数据库（NoSQL 数据库）
常见的数据库系统：MySQL、PostgreSQL、MongoDB 等

数据库安装

教你如何安装数据库

SQL 语言基础

SQL 的定义与用途
SQL 语句的基本结构
数据类型：整数、字符串、日期等

数据查询与操作

数据查询语言（DQL）：SELECT 语句的使用
数据操作语言（DML）：INSERT、UPDATE、DELETE 语句的使用
数据定义语言（DDL）：CREATE、ALTER、DROP 语句的使用

SQL Part 1

SQL 基础操作

在 AWS RDS 上练习 SQL 的基本操作，包含 SELECT, INSERT, UPDATE, DELETE 等。

子查询与连接操作

理论讲解：
子查询的概念、类型及其在 WHERE 和 FROM 子句中的使用。
连接操作的种类（INNER JOIN、LEFT/RIGHT OUTER JOIN、FULL OUTER JOIN）及其应用场景。
实操练习：
使用不同类型的 JOIN 操作，合并多个表中的数据。

数据聚合与转换

理论讲解：
理解 GROUP BY 和 HAVING子句的使用。
窗口函数的使用场景和优势，例如 ROW_NUMBER()、RANK()、LEAD()、LAG()。
实操练习：
通过 GROUP BY 和聚合函数，进行数据分组和汇总。
使用窗口函数进行数据分析。

实际案例分析与讨论

通过一个实际案例，引导学员通过使用子查询、连接、聚合和窗口函数来解决实际问题。

SQL Part 2

本节知识点：

SQL 案例 2 讲解
表(Table)与视图(View)的比较
SQL tuning
了解索引 index 的优点，分类，语法
介绍窗口分析函数 window analytic function
SQL 案例 3 讲解
窗口分析函数高阶:

partition by 的使用，如 :rank()over(partition by XXX order by XXX)

lead(XXX, 1)over(partition by XXXX order by XXXX)

lag(XXX, 1) over(partition by XXXX order by XXXX)

Snowflake 上实操讲解 SQL 案例 3
Snowflake query 的 json 格式语法讲解
Snowflake flatten function to parse arrays 语法讲解， snowflake 实操演示
讲解如何用 command line 把本地数据导入 snowflake
SQL Cumulative sum & moving average
Common table expression CTE 实例讲解
NTILE 案例讲解
递归 CTE: 语法，案例讲解

云计算和数据工程

AWS Introduction

介绍亚马逊云服务 AWS

AWS 的基本概念和服务概览

AWS 全球架构

解释 AWS 的全球布局，包括 Region 和 Availability Zone 的概念

AWS Region

探讨Region的选择对性能和合规性的影响

AWS Availability Zone

了解 Availability Zone 在提高应用可靠性中的作用

创建 AWS 账号

指导如何创建 AWS 账号并简述账户安全性的最佳实践

Relational Database Service（RDS）的介绍

介绍 RDS 服务，包括支持的数据库引擎和 RDS 的主要特点

创建 RDS 实例

选择数据库引擎（如 MySQL）
配置 RDS 实例的详细步骤，包括安全组和参数设置
演示如何启动、停止和删除 RDS 实例

连接 RDS instance

AWS Permission & IAM & S3

IAM: Identity Access Management

介绍 IAM 的基本概念，包括用户、组、角色和策略

例子: 熟悉 IAM 的功能

通过实例深入了解 IAM 的功能和管理方法

例子: Create a Billing Alarm

演示如何设置计费警报，以避免不必要的费用

S3 介绍以及练习

Databases on AWS

数据库 Databases on AWS

探讨 AWS 提供的数据库服务总览

关系数据库与非关系型数据库

探讨关系数据库与非关系数据库的区别
探讨非关系型数据库的特点和主要类型

OLTP vs OLAP

比较在线事务处理（OLTP）和在线分析处理（OLAP）的特点和应用

Elasticache 介绍

介绍 Elasticache 服务及其在缓存策略中的应用

RDS：备份 back ups, Multi-AZ & Read Replicas，加密 encryption

深入探讨 RDS 服务，包括其备份、多可用区部署、读副本和数据加密功能

RDS 代码演示

使用lambda从MySQL获取数据，写入S3，完成一个data extraction的过程

DynamoDB 介绍，AWS 上创建数据库实例

探讨 DynamoDB 的核心概念，并通过实践学习如何在 AWS 上创建和配置 DynamoDB 实例

RedShift

介绍 RedShift 数据仓库服务的特点和应用场景

关系型数据库 Aurora 及其架构

探讨 Aurora 数据库的特点、架构及其在 AWS 服务中的地位和应用

灾难恢复

RPO, RTO, Transaction log

Docker 的使用

内容来源：Liji Yu老师

介绍 Docker

Docker 的主要用途和优势
Docker 的基本组成：镜像、容器、仓库
Docker 安装

Docker 基本操作

使用**docker pull**下载镜像
使用**docker run**启动容器
使用**docker ps**查看运行中的容器
使用**docker stop**停止容器
使用**docker rm和docker rmi**删除容器和镜像

Docker 镜像管理

编写简单的 Dockerfile
使用**docker build**构建镜像
使用**docker images**查看本地镜像

AWS Computing

介绍 EC2: Elastic Compute Cloud

了解 EC2 服务的基础知识，包括它的特性和用途

AWS EBS 介绍

探讨弹性块存储（EBS）的基本概念，以及它与 EC2 的关系

Lab: 启动我们的第一个 EC2 实例

通过实际操作学习如何启动和配置 EC2 实例

安全组基础

了解安全组的概念和如何用于管理 EC2 实例的网络访问

负载均衡器理论

探讨负载均衡器的作用以及在 AWS 中的应用

AWS Lambda 介绍

AWS Lambda 服务概述。
Lambda 函数的工作原理和使用场景。
创建第一个 Lambda 函数：环境设置、角色和权限。

Lambda 与 RDS 集成

配置 Lambda 函数以连接到 RDS 实例。
环境变量的使用来存储数据库连接信息。
示例：在 Lambda 中执行 SQL 查询。

处理和转换数据

使用 Python 在 Lambda 中处理 SQL 查询结果。
数据转换技巧：从查询结果生成 JSON、CSV 等格式。
Lambda 函数的测试和调试方法。

AWS Messaging

SNS 和 SQS 简介

了解 SNS 和 SQS 服务的基本概念和架构

SNS: Pub-Sub model, Topic, SNS Benefits

探讨 SNS 的发布-订阅模型，以及如何创建和使用主题
讨论 SNS 的主要优势和应用场景

SQS: 解耦应用组件, 存储消息, 发送/检索消息, 标准队列和 FIFO 队列

介绍 SQS 的基本功能，包括消息存储和消息传递
解释标准队列和 FIFO 队列的区别和适用场景

SNS 与 SQS 的比较

比较 SNS 和 SQS 的特点和适用场景

通过控制台实践 SNS 和 SQS

通过 AWS 控制台操作，实践如何配置和使用 SNS 和 SQS

通过 Lambda 实践 SNS 和 SQS

学习如何将 SNS 和 SQS 与 Lambda 函数集成，实现消息驱动的应用

AWS Kinesis 简介

介绍 Kinesis 服务的基本概念和架构，以及它在实时数据处理中的应用

通过 Lambda 实践 Kinesis

通过实际操作学习如何将 Kinesis 与 Lambda 函数集成，处理和分析实时数据流

AWS Networking

本节内容：

VPC 简介（Virtual Private Cloud）

定义 VPC 及其在 AWS 中的作用
探讨 VPC 的关键特性和优势

网络安全基础

介绍网络安全的基本概念，包括防火墙和安全组

AWS VPC 的定义和示例

通过例子讲解 VPC 的结构和工作原理

图示讲解 VPC 整个框架

使用图解的方式展示 VPC 的架构和组件

内部 IP 范围

演示如何在 VPC 中分配内部 IP 地址范围

VPC Peering 简介

介绍 VPC Peering 的概念
演示如何在不同的 VPC 之间建立网络连接

子网（Subnet）

探讨子网的概念
演示如何在 VPC 中划分和使用子网

互联网网关（Internet Gateway）

介绍互联网网关的作用
演示如何将其与 VPC 关联

路由表（Route Table）

讨论路由表的功能
演示如何管理 VPC 的路由

网络地址转换（NAT）网关和弹性 IP

探讨 NAT 网关的作用和配置方法，以及弹性 IP 的概念和使用场景

VPC 端点（VPC Endpoints）

介绍 VPC 端点的概念和用途
演示如何在 VPC 中配置端点

VPC wrap-up

总结 VPC 的核心概念，以及如何在 AWS 中构建高效、安全的网络架构

AWS data platform and serverless part 1

本节内容：

Kinesis 简介

介绍 AWS Kinesis 服务及其在实时数据处理中的应用

为 Kinesis 配置生产者 Lambda

练习：学习如何创建和配置一个 Lambda 函数来作为 Kinesis 的数据生产者

为 Kinesis 配置消费者 Lambda

练习：学习如何创建和配置一个 Lambda 函数来处理 Kinesis 数据流的数据

Kinesis Firehose

介绍 Kinesis Firehose 服务及其在数据加载和转换中的应用

Athena, Redshift Spectrum, SageMaker 简介

探讨 Athena 和 Redshift Spectrum 在查询和分析数据湖数据的能力
介绍 SageMaker 及其在构建、训练和部署机器学习模型中的应用

AWS CloudFormation 简介

介绍 CloudFormation 服务及其在自动化资源管理和基础设施即代码（Infrastructure as Code, IaC）中的应用

介绍 Serverless 的定义和优点

定义 Serverless 架构及其主要优点

在 terminal 安装 Serverless

演示在本地环境中安装 Serverless Framework

运行 Serverless

练习：学习如何使用 Serverless Framework 来部署和管理应用

AWS data platform and serverless part 2

本节内容：

创建第一个 Serverless 项目

介绍如何创建 Serverless 项目和必要的前提条件

解析初始项目的默认代码：handler.py 和serverless.yml

详细讲解项目初始代码文件的结构和功能
解析 handler.py：理解处理函数的写法和触发机制
解析 serverless.yml：探讨其配置项，如函数定义、事件触发器和资源配置

实施部署方法

介绍如何使用 Serverless Framework 进行部署
实践部署命令：serverless deploy –aws-profile profileName

案例讲解

通过具体的案例，演示如何使用 Serverless 项目解决实际问题

两种方法实现 AWS 案例

探讨两种不同的方法来实现 AWS 案例，提供多角度解决问题的视野和工具

Data engineering Practice

本节内容：

Batch Processing and Real Time Processing

定义批处理和实时处理，并比较两者的特点和应用场景

Data Extraction/Ingestion

探讨数据抽取的概念和技术，如 API 调用、数据库导出和日志文件
讨论实时数据摄取的技术和工具，如 Apache Kafka 和 AWS Kinesis

Data Pre-processing

介绍数据清洗、数据标准化和数据丰富等预处理步骤

Data Transformation

探讨数据转换的过程，包括 ETL（提取、转换、加载）和 ELT（提取、加载、转换）的概念和工具

Data Loading

讨论数据加载的目的和方法，包括批量加载和流式加载

Data Visualization

探讨数据可视化的重要性，并介绍常用的数据可视化工具和库

Data Pipeline and Automation

介绍数据管道的概念和构建数据管道的步骤
讨论如何使用工具和平台自动化数据管道

IT Career Coaching

惊喜加餐，学长经验分享❗

课程时间：1小时

Resume and Interview

课程简述:

1. 澳洲就业行情介绍

- Permanent/contract role介绍

- 澳洲获取工作的方式结束

- 招聘信息解读

2. Glassdoor: https://www.glassdoor.com.au(怎么看别人对各个公司的评价；也会有面试的问题分享)

3. LinkedIn：招聘者，应聘者怎么用

4. 职场规划

5. 老师自身投简历经历介绍

6. 面试

- 澳洲的面试流程介绍

- 面试官的视角(会从哪些方面问应聘者，实际是在考核应聘者哪个方面等)

- 应聘者的视角(从哪些方面去突出自己，如何使用STAR方法)

7. 简历撰写讲解

8. 课后作业

Linkedin & CV

1. 校招和社招的要求，entry level vs junior level vs mid level

2. 职场规划，沟通能力的重要性，team match 的重要性

3. 澳洲公司情况，产品方向 vs 咨询方向

4. 找工作网站的区别、建议

5. 工作类型，permanent vs contractor，薪资期待，福利待遇

6. 获取工作的方式：meetup、猎头、内推，如何区分和利用猎头，内推的作用

7. 如何经营 linkedin：提高 SEO 和可读性、扩大人脉、利用 open network、写好 profile

8. 招聘流程，怎样投简历，怎样说未来计划，怎样说 notice period

9. 怎样写简历，LMS 简历制作功能，怎样罗列自己的技能，怎样把项目经历写进简历

10. 求职信的作用，怎样写求职信

LinkedIn&CV 2024.12.8

澳洲工作职场介绍

"澳洲公司全景：行业领袖与职业机遇"

澳洲公司的市场概况：深入介绍澳洲主要行业和领先公司，包括它们的市场定位、企业文化和核心价值。
澳洲公司的职业前景：探讨在澳洲各种类型公司工作的优势和挑战，以及如何在这些环境中发展职业生涯。

"就业方向解析：产品与咨询服务"

产品方向的职业机遇：探讨在产品管理、开发和策略等领域的职业路径，以及如何在这些领域成功发展。
咨询服务方向的职业途径：深入分析咨询行业的工作性质、职业晋升路径和必备技能，以及如何在咨询服务领域建立成功的职业。

澳洲企业招聘流程

"澳洲企业招聘全攻略：三大关键阶段深度解析"

1.简历和求职信的制作与提交：学习如何撰写针对澳洲市场的高效简历和求职信，包括格式、内容和展现个人特色的技巧。

2.面试的全面准备：深入分析招聘过程中的各种面试类型，包括初步面试、在线评估、技术面试和管理层面试。提供准备技巧、常见问题解答和成功策略。

3.Offer 阶段的策略：探讨如何在收到工作邀约时进行有效的沟通和谈判，包括薪资、福利和其他工作条件。

招聘官挑选简历的标准

招聘官在挑选简历时通常会根据以下几个标准进行筛选：

符合职位要求：首先会检查应聘者的教育背景、工作经验、技能和资格是否符合岗位的具体要求。
清晰、专业的简历格式：一份清晰、逻辑性强、格式规范、无拼写错误的简历更容易获得青睐。
关键字匹配：许多公司使用自动跟踪系统（ATS）来筛选简历，这些系统会根据职位描述中的关键字来评估简历的相关性。
成就和成绩：与其仅仅列出职责，招聘官更倾向于看到具体的成就和成绩，例如销售额、成本节约、项目成功实施等量化的结果。
职业发展的连贯性：职业路径中的逻辑发展和进步表明了候选人的职业目标和职业规划。
个性和文化契合度：简历中的个人陈述或兴趣爱好部分可以体现出候选人是否可能与公司文化和团队精神相契合。
职业目标：简历应该传达出候选人的职业目标与申请职位是如何对齐的。
社交媒体和在线存在：有时候招聘官也会查看LinkedIn等专业网络或其他社交媒体来了解候选人的专业背景和行为表现。
推荐信和联系人：提供可以证实候选人能力和表现的推荐人可以是一个加分项。
附加技能：除了基本技能之外，候选人显示的任何额外技能或证书也会让其简历更加突出。

如何撰写 IT 专业简历

清晰的格式和布局：使用易于阅读的字体和清晰的布局。保持简历的长度适中，通常不超过两页。

个人信息和联系方式：包括你的姓名、职业头衔（如软件工程师、系统管理员等）、联系电话、电子邮箱和 LinkedIn 个人页面链接。

专业摘要或目标声明：简洁地概述你的职业背景、技能和你寻求的职位类型。这部分应该具有吸引力且针对你申请的职位量身定制。

技术技能：明确列出你的技术技能，如编程语言（例如 Java、Python）、框架（如 Spring、React）、数据库（如 MySQL、MongoDB）和工具（如 Git、Docker）。根据求职职位的要求来调整技能列表。

工作经验：按时间顺序列出你的工作经历，包括公司名称、职位、工作时间和职责描述。突出具体成就和使用的技术。

项目经历：如果你有相关的项目经验（包括学校项目、个人项目或自由职业项目），请列出来，说明你的角色、使用的技术和项目成果。

教育背景：提供你的最高学历信息，包括学校名称、学位、专业和毕业时间。如果你是新毕业生，可以更详细地说明你的教育背景。

证书和培训：如果你有相关的行业证书（如 AWS Certified Solutions Architect、Cisco 的 CCNA）或完成了重要的专业培训，务必列出。

其他信息：如语言能力、志愿者经验、获奖情况等，如果它们对你申请的职位有帮助，可以选择性地加入。

定制你的简历：针对每个职位调整你的简历，确保它符合职位描述中的关键字和要求。

校对和审核：在提交前，请仔细校对你的简历，确保没有拼写和语法错误。有可能的话，让你的同事或朋友帮你复查。

简历常见问题

"简历制作艺术：重点、加减分项及编写原则"

简历的重点内容：指导您如何突出简历中的重点内容，包括职业经历、技能、成就和教育背景，确保雇主能够快速抓住您的核心优势。

避免的简历减分项：教您识别和避免简历中的常见错误和不利因素，如过度冗长、格式不当或信息不准确等。

简历的加分元素：提供策略和建议，帮助您在简历中加入能够提升吸引力的元素，如特定技能证明、相关项目经验或突出成就等。

编写简历的基本原则：探讨在编写简历时应遵循的基本原则，包括清晰性、专业性和针对性，以及如何根据目标职位定制简历。

如何利用 ChatGPT 写简历

"利用 ChatGPT 提升简历撰写技巧：指南与实践"

ChatGPT 基本使用方法：本节课将介绍 ChatGPT 的基础功能和操作方法，帮助学员快速掌握如何有效使用这一先进的工具。
ChatGPT 在简历撰写中的应用技巧：这部分将指导学员如何充分利用 ChatGPT 在简历撰写中的潜力，包括格式建议、内容生成和优化技巧，以打造一份吸引眼球的简历。
与 ChatGPT 进行个性化交互：教授学员如何与 ChatGPT 进行有效的个性化交互，以获取更加符合职业目标和个人特色的简历内容。
ChatGPT 实例演示：通过实际操作演示，展示 ChatGPT 在简历撰写和改进方面的应用，帮助学员更好地理解和掌握实际操作技巧。

手把手带着运营 LinkedIn

"LinkedIn 职业建设：完善个人资料与网络拓展"

维护完整、专业的 LinkedIn 个人资料：指导您如何创建和维护一个展现您职业经历、技能和成就的专业 LinkedIn 资料。这包括头像选择、经历描述、技能展示和获取推荐等关键元素。
加入与行业和兴趣相关的 LinkedIn 群组：教您如何找到和加入与您的职业领域和兴趣相关的 LinkedIn 群组，以便进行行业交流、拓展职业网络和获取行业最新动态。

如何利用 LinkedIn 准备面试

"求职成功攻略：职位描述解析、面试准备与公司研究"

这个课程旨在全面指导您如何在求职过程中取得成功。本课程将包括：

职位描述深度解析：教您如何仔细分析职位描述，理解职位要求的核心内容和隐含条件，从而更有效地准备申请材料和面试。
面试准备技巧：提供面试准备的策略，包括如何针对面试描述准备回答问题、展示自己的优势，以及如何应对常见面试问题。
利用 LinkedIn 搜索目标公司：指导您如何有效利用 LinkedIn 平台搜索并研究目标公司，包括公司背景、文化、行业地位等信息，以增强您的求职策略。

数据模型和数据仓库

Data Warehouse & Data Lake

Data Lake 与 Data Warehouse 的概念：

数据仓库和数据湖的定义及区别。
数据仓库和数据湖在现代数据架构中的角色。
AWS 在数据仓库和数据湖领域的服务概览。
介绍一下主流的云数据库服务，如 Amazon Redshift、Google BigQuery、Snowflake 等。

Amazon Redshift 基础：

Amazon Redshift 概述和架构。
如何创建和配置 Redshift 集群。
Redshift 数据库设计的最佳实践。
基本操作：数据加载、查询、管理。
使用 Amazon S3 构建数据湖的基础。
AWS Lake Formation 简介和功能。

Amazon S3 与 Lake Formation：

数据湖的安全性和权限管理。
数据湖中的数据清洗、转换和查询操作。

案例演示：数据仓库的构建过程：

Private Project-演示如何构建数据模型去存储数据。

Unix/Linux Shell Basic Data warehouse

图示讲解：什么是数据仓库data warehouse
基础概念：

收集业务需求
与团队各业务专家合作设计dimensional model
4 steps dimensional design :
- decide business process
- declare grain
- identify dimensions
- identify facts

Dimension table技术：

Dimension table结构以及surrogate key的使用原因
Durable key
Drill down
Degenerate dimensions
Denormalized flattened dimensions
Multiple hierarchies
Flags and indicators
Null attributes in dimension
Calendar table
Role playing dimensions
Junk dimension VS cross join
Snowflaked dimension
Outrigger dimensions

Fact table 技术:

Fact table结构
Additive, semi-additive, non-additive
Nulls in fact tables
Conformed table
Transaction fact tables
Periodic snapshot fact tables
Accumulating snapshot fact table
Factless fact tables
Aggregated fact tables
Consolidated fact tables

Integration via conformed dimensions
学习SCD: slowly changing dimension(type1,type2,type3)
学习使用Linux命令

团队商业项目

Group project bootstrap

本节内容：

介绍匠人培训 5.0
项目类型介绍
分组安排介绍
Bootstrap 需要掌握的知识：Infrastructure as Code、CI/CD Pipeline、Github Actions、Project initiate
项目 Proposal 的流程介绍

Group Project Proposal

每组的 Project proposal

准备阶段：每组学生需要准备一个 PPT，介绍团队项目，包括项目背景、目标、所使用的技术栈、实现过程中的主要挑战和解决方案，以及项目的最终成果。
展示阶段：每组在规定时间内来展示他们的项目。

老师对每组项目的点评

评价标准：如创意性、技术实现的复杂度、项目对实际问题的解决能力、团队合作展示、以及演示的清晰度等方面进行点评。
正面反馈：老师指出每个项目的优点，增加学员参与团队项目的信心。
建设性建议：老师对项目介绍提出改进建议，指出项目中可能存在的问题或者可以进一步改进的地方。
互动环节：学生针对团队项目提出问题，或者进行开放性讨论。

Data Lake and Architecture on AWS

本节知识点：（项目辅导）

Data Lake architecture and implementation
Statistical modelling and Machine learning
Serverless big data processing
SQL and ETL orchestration
Data streaming and big data processing
Machine learning engineering

Big data processing and modelling

本节知识点：（项目辅导）

Apache Spark 的介绍
Hadoop and Spark
Spark features
Cluster mode 介绍
Spark components
Directed Acyclic Graph(DAG) in Spark
SparkSession and SparkContext
Resilient Distributed Dataset(RDD)
PySpark

Model deployment

本节内容（项目辅导）：

生产级机器学习概述：

定义生产级机器学习，并介绍其整体流程和面临的挑战。
探索数据分析产品的部署过程，包括如何将模型部署成具有输入和输出的端点（Endpoint）。
深入了解机器学习流程、数据工程流程、模型部署流程和监控流程。

SageMaker 部署介绍：

详细介绍 SageMaker 的概念和它在 AWS 生态系统中的组件。
探索如何利用 SageMaker 进行高效的机器学习模型部署。

数据工程大项目最后阶段：实际部署操作：

指导学员完成数据工程大项目的最后一部分，实操部署机器学习模型。
提供实用的技巧和指导，确保学员能够成功部署和管理他们的模型。

股票代码小作业讲解：

提供股票代码的案例分析，帮助学员理解数据分析和编程的实际应用。

大型项目汇报要求和准备：

讲解大型项目汇报的要求和准备工作，指导学员如何有效地展示他们的成果。

什么是代码的SOLID原则

SOLID 原则是什么
代码更好的实现形式
Refactor 重构
单一职责
开关原则
依赖注入

Data streaming

本节内容：（项目辅导）

Stream Processing 介绍
Stream Processing and Batch Processing
Kinesis data streams
Stream Processing benefits
Stream Processing solution
Kafka
KSQL

Big Data

本节内容：

大数据主要概念：

分布式存储 HDFS, HBase ;
资源管理 yarn ;
计算引擎：spark core;
服务 API

HDFS 概念

Name node
Data node
Blocks
图示讲解 HDFS 架构、流程和组件

介绍 Yarn scheduler

介绍 Hive metastore

GCP google cloud platform 实际案例操作

Spark Data Processing 1

本节内容：

Spark 安装

如何在官网上安装 Spark: https://spark.apache.org/docs/latest/

Spark 核心概念

**弹性分布式数据集（RDD）：**介绍 RDD 的概念、特点及其在 Spark 中的重要性
**DataFrame：**探讨 DataFrame 的概念和与 RDD 的区别，以及其在数据处理中的优势
**Spark SQL：**介绍 Spark SQL 的功能和在结构化数据处理中的应用
**Spark Streaming：**探讨 Spark Streaming 的特点和在实时数据处理中的应用
**MLlib：**介绍 Spark 的机器学习库 MLlib 及其主要功能
**GraphX：**探讨 GraphX 在图形处理和分析中的应用

Spark 的主要特点

**速度：**解释 Spark 如何通过内存计算提高处理速度
**易用性：**介绍 Spark 提供的高级 API 和支持的编程语言
**通用型：**探讨 Spark 在批处理、交互式查询、实时分析、机器学习和图形处理等多种计算任务中的通用性
**容错性：**讨论 Spark 的容错机制，包括 RDD 的不可变性和数据恢复的特性

Spark 架构

**Driver 程序：**介绍 Driver 程序的角色和功能
**Cluster Manager：**探讨 Cluster Manager 在资源管理中的作用
**Executor：**解释 Executor 在任务执行和数据存储中的角色

Spark 应用场景的介绍

探讨 Spark 在不同行业和场景中的应用，如金融分析、电信、物联网、机器学习等

RDD 应用

练习：创建 RDD，以及 RDD 的 transformations 和 actions 操作。

Spark Data Processing 2

本节内容：

Spark SQL

介绍和概念：讲解 Spark SQL 的基本概念，以及它如何使得处理半结构化数据变得简单。
功能和特性：深入 Spark SQL 的主要功能，包括 DataFrame 操作、内置函数、窗口函数等。
使用 Spark SQL 进行数据查询：演示如何使用 Spark SQL 执行 SQL 查询，包括从文件系统、Hive 等数据源读取数据。
性能优化技巧：探讨如何通过广播变量、分区策略等方式优化 Spark SQL 查询性能。

Spark Dataset

介绍和概念：讲解 Dataset API 的基本概念，以及它与 RDD 和 DataFrame 的关系。
创建和操作 Dataset：演示如何创建 Dataset，以及如何进行各种转换（transformation）和行动（action）操作。
类型安全性：探讨 Dataset 的类型安全特性，以及如何利用它进行更精确的数据处理。
性能考虑：讨论 Dataset 的内部工作原理，包括编码器（Encoders）的作用，以及如何通过调整序列化和计算策略来优化性能。

数据可视化工具

Data Analytics

1.了解什么是数据分析

Non modelling analysis
Modelling analysis

2.介绍Docker

What's Docker
How to use Docker
Lab: use Docker to collaborate

Data visualization with Tableau

介绍几种常用数据分析工具

python, R, SQL, tableau, Excel, Power BI

Tableau 介绍

Tableau 的优点
Tableau 的 5 种产品
Tableau 实验基础

案例分析

案例根据已有 sheet 创建新的 sheet
案例 sales by region
案例 scatter plot
案例 profit by category
案例 data-dist/con
案例 for calculated field
案例 for countd
案例 for sales/profit by state
案例 for sales/profit category
建立 dashboard
案例 set(Top N customer)
案例 donut plot
案例 pie plot
案例用折线一起显示总体的 sales 和不同 region 的 sales

Machine Learning

"统计学习与模型应用：从线性回归到树基模型"

统计学习及模型准确度评估：

探讨如何使用训练数据、验证数据和测试数据评估模型的准确度。
理解统计学习在数据分析和预测中的应用。

线性模型选择及正则化：

深入理解 Ridge 和 Lasso 回归，并学习如何在实际问题中应用这些正则化技术。
通过 R 代码演示线性回归案例，包括数据结构、绘图、模型总结、更新、方差分析和处理分类变量。
掌握特征选择技术，使用 car 库进行异常值测试和影响力分析。

树基模型（Tree-Based Models）：

学习回归决策树和分类决策树的基本原理和构建过程。
探索树模型的分支（branch）、Bagging、随机森林（Random Forests）和提升方法（Boosting）。
通过实验室环节（Tree-Based LAB）深入实践树基模型的应用。

Machine Learning ||

支持向量机（Support Vector Machine）：

学习支持向量机的基本类型，包括最大间隔分类器、支持向量分类器和支持向量机。
探讨支持向量机的基础原理及其在分类问题中的应用。
通过实验室代码讲解，练习构建和评估支持向量机模型。

无监督学习：层次聚类方法：

理解无监督学习中层次聚类方法的原理和实现方式。
探索如何在实际数据集上应用层次聚类进行数据分析。

Xgboost 模型原理及参数调整：

学习 Xgboost 模型的原理和关键参数，如 booster、eta 学习率、min_child_weight 和 max_depth 等。
掌握如何调整 Xgboost 模型的参数以提升模型性能。

数据工程（DE）大项目讲解：

从 part1 到 part4 逐步讲解数据工程大项目，包括数据处理、特征工程、模型训练和评估。

Agile项目管理

Agile Methodologies

敏捷开发采用的具体方法，什么是 Scrum，什么是 Kanban
结合实际工作讲解各个流程：scrum planning，daily standup，scrum board，scrum review meeting，spring retrospective meeting
Kanban 的几个阶段，具体每个阶段的意义是什么
Scrum 在敏捷开发中的定义是什么
Scrum 里面的 roles 是什么，Artifacts 是什么，Scrum 里面包含的 Events 有什么
SCRUM 的 3355 原则是什么，Value Propositions 是什么
Retrospective meeting 主要用来作什么的
Scrum 的 Teams Roles: Product Owner, Development Team, Scrum Master，分别是什么
Kanban 具体的步骤是什么
怎样写 backlog，怎样写用户故事：“完成”的定义，故事拆分和故事估算

Agile Scrum

Agile 的由来、开发宣言、原则、主要关注点，什么是价值
Scrum 框架的各个流程概述，“3355”方法论
结合实际工作讲解各个流程：scrum planning，daily standup，scrum board，scrum review meeting，spring retrospective meeting
班级进行模拟 retrospective meeting，回顾课程至今的成果与不足
怎样写 backlog，怎样写用户故事：“完成”的定义，故事拆分和故事估算
怎样改进流程、提高效率，为什么企业需要 T 型人才
介绍精益方法和 Kanban，实际使用中 Kanban 和 Scrum 的结合
Project 3 分组
介绍 Sportify

什么是Agile SDLC, Waterfall, Agile介绍

视频介绍:

Agile 的由来、开发宣言、原则、主要关注点，什么是价值
传统的项目管理如何进行的：悉尼歌剧院，悉尼轻轨
Software Development Life Cycle(SDLC) 是什么, 具体的每个阶段是什么
SDLC-Waterfall 和 V Model 是什么
Project Management Methodologies 有什么
Lean Startup 是什么
为什么使用敏捷开发，什么是敏捷开发，与 Waterfall 有什么区别
Agile 的价值观是什么，Agile Manifesto 是什么，12 个原则是什么

Agile Case研究：微软Microsoft Case Study

来自微软曾获得 MVP 的 Ray 老师，讲述以微软 Windows 交付使用 Agile 的流程

微软是如何使用 Agile 的，如何使用 Agile 敏捷开发以及采用 DevOps 文化
Windows 的发布周期
Waas 是什么，Windows as a Service，其中 Rings 是什么
微软的开发团队分布
Windows 开发具体的周期
Up-front Planning 开发，Code Test Stabilize 过程
Windows 的开发流程如何转型的，如何提升效率和成功率的
Agile 在项目开发中的好处是什么

项目实战

Project Management Workshop

1v1免费职业咨询

We Accept

Top Categories

Web全栈班 DevOps项目班数据工程全栈班数据分析项目班编程入门班 Business Analyst实习算法集训营

求职就业

BA和产品经理实习数据科学实习数据分析实习 Marketing实习简历修改面试指导导师指导VIP

地址

Level 10b, 144 Edward Street, Brisbane CBD(Headquarter)

Level 2, 171 La Trobe St, Melbourne VIC 3000

四川省成都市武侯区桂溪街道天府大道中段500号D5东方希望天祥广场B座45A13号

Business Hub, 155 Waymouth St, Adelaide SA 5000

联系方式

hello@jiangren.com.au 0421-672-555

Disclaimer

JR Academy acknowledges Traditional Owners of Country throughout Australia and recognises the continuing connection to lands, waters and communities. We pay our respect to Aboriginal and Torres Strait Islander cultures; and to Elders past and present. Aboriginal and Torres Strait Islander peoples should be aware that this website may contain images or names of people who have since passed away.

ABN 26621887572

机器学习&数据工程全栈项目班 课程安排

大数据行业深度学习+团队合作项目+实习推荐机会

课程大纲

招聘官在挑选简历时通常会根据以下几个标准进行筛选：

每组的 Project proposal

老师对每组项目的点评

机器学习&数据工程全栈项目班课程安排