年薪10W刀+的Data Scientist究竟是怎么炼成的~

2018-10-07

Lightman Wang

Data Scientist被Harvard Business Review 评为21世纪最性感的职业之一,麦肯锡预测全球将有超过1.5个Million的空缺职位。在人工智能和金融科技大肆兴起之后,Data Science作为一切的根基,求职者们更变成了最炽手可热、千金难求的人才!

 

今天数据行业只能用一个字形容: 火

 

无论哪个行业,应该会每年都被数据时代,大数据,数据分析,商业智能,听过这些名词,在人工智能时代到来的大背景下,许许多多人开始恐慌,不知道什么时候会被替代,有什么时候能够进入到该行业,自己不会被未来取代。


数据科学已经进入到了各个领域 ,由于技术的支撑,Data Science还有很大的市场需求,根据功能性来看,Data Science在诸多领域都有应用,它帮助了企业改变传统的拍脑子做决定的决策方法,现在越来越多公司都采取数据驱动的方式来做商业决策。

 

Data ScientistHarvard Business Review 评为21世纪最性感的职业之一,麦肯锡预测全球将有超过1.5Million的空缺职位。在人工智能金融科技大肆兴起之后,Data Science作为一切的根基,


DS的问题


我们可以把Data Science中的问题分为几大类:

  1. What’s the statistics。比如一组数据的平均数、最大值、最小值是多少,数据分布是怎样的,这类问题是很基础的Data Science问题。
  2. Is A better than B?这个非常常见,比如很多网站有自己的UI Design,他们有时候就要问,网站这个位置的颜色是用蓝色好还是绿色好呢,这就是Is A better than B问题。
  3. Is this A or B例如,Facebook上每天都有大量新闻产生,那么我们如何智能地判断一个新闻是真的还是假的呢,这就是一个Is this A or B问题。
  4. How much想研究一个变量,但是不知道这个变量应该被预测为多少,那么就需要问How much这个问题。
  5. 大量的数据中可能存在一个Pattern,想知道这个Pattern是什么我们就要问How is data organized
  6. What’s future已知现有数据和历史数据,怎样预测未来的数据?
  7. Is this weird已知一组数据,其中有几个数据与其他的数据不一样,那么这些数据不一样到什么程度才会被认为是weird的?
  8. What will users like预测用户喜欢什么。

以下来自Albert导师


分析数据行业的思路和切入点是从一个数据项目的software development lifecycle。也就是经常能看见的缩写SDLC进行分析。一般的一个完整的Data project,不管大小或者复杂程度都要经过这么几个步骤,第一是Data Capture,有的也叫做data ingestion也就是从不同的数据源把数据获取并导入到系统中。常见的数据原有传统关系型数据库,屏文件,流数据,机器日志,API获取数据等等。第二部是data store and process。也就是。数据清洗加工转化和存储的步骤。有个更好的术语去形容他就是ETL(extract transform and load)。当然还有一个时髦的词可以形容这个步骤就是data wrangling,当数据经过ETL。按数据模型整齐的加载到数据库中或者是其他数据存储中。

 

 

那么这些数据就可以用来回答商业问题,作出预测,实现商业价值等等。所以第三步我并排的 画了三个方向,这些数据可以做Data analysis/machine learning/business intelligence。第四 步,data visualization是第三部的一个结果不管用数据做何种分析。80%的情况是需要有数据 的图形展示以用来证明假设推断。并tell story, 让客户用户更好的理解和使用数据。


现在对数据项目的SDLC有了大致的了解。那么数据相关三大职业DE/DA/DS就在这个流程中诞生了,DE(Data Engineering)的主要工作发生在前两步,使用编程或者工具对数据

进行获取和转化的工种。根据使用的技术和工具不同,有很多称谓。DA(data analysis)是在一 个business context下,对于数据进行分析,以回答商业问题,满足商业需求的工作。

最后DS(data scientist)是DA的加强升级版本主要武器是machine learning,用来做predictive analysis而不是简单的descriptive analysis。DA和ds最关键的区别在于ds绝大多数情况下都是 用feature engineering/machine learning进行预测分析和解决商业问题的。


需要指出的是de/da/ds这三种公种在现实情况中无法每次都百分之百严格的区分。其实三种工 种的技能都有很多overlap,比如etl这个技能。DA和ds同样需要掌握,但是没有第一那么深 入。de可以说是专门专门处理各种etl场景的职位。只要是澳洲各个公司对这个职位定义都不 完全相同,比如澳洲很多公司。招聘ds都希望ds有de的技能可以从data capture做起,再比如 有的公司对Da和ds有着严重的混淆。在有的公司title虽然是datascientist,但是这个职位甚至 很少做算法模型。


接着给大家再看一个数据中心的架构图,要构建这么一个数据中心基本也是遵循我前面讲的四 个步骤。对于不同模块的工作产生了不同的岗位data engineer会负责所有数据的获取。转化 和存储的工作而DS/DA。会在红色模块报表用户画像,风控中工作。

下面这张图是从数据流的角度对前面那张图的进一步阐释,可以看到同样的。DE会负责所有 数据的获取转化和存储的工作。而DA、DS会在数据的应用和商业需求方面进行工作。

 

我们前面讲了一个完整的数据项目地流程。但是如果只看DS这一部分。其实他也有自己的一 个流程基本是所谓的四步骤,后面许光老师也会给我们具体讲一个数据科学的项目。好第一步 是问题表述其实就是what's your problem,大多数data scientist的工作就是为了解决在一个特 定商业场景下的商业问题。从而做出正确的决策。举例来说银行贷款给个人或者小微企业那么 第一个问题是能不能带给这个人或者小微企业呢,第二个问题是到底可以带多少呢。


那么第二个步骤是数据搜寻。有哪些数据是可以用的,这些数据的源头是什么,能通过什么方 式获取。需要data engineer帮助获取数据或者build data pipeline么。这些数据有隐私和安全 限制吗,这些都是第二个步骤,数据搜寻许所需要考虑的。


第三部分就是我们真正分析建模的步骤。其实在这个步骤呢,我们又可以细分为数据预处理、 探索性分析、feature engineering、建模、模型评估、模型发布这几步。第四个步骤prediction as a service。什么意思呢,就是真正把我们第三部分的模型deploy到生产中形成形成一种产品或者服务。并且不断做performance tracking and 提高和进化模型。据我了解澳洲只有为数 不多的几家公司做到了,第四个步骤。


数据科学全栈班开班了

 

课程名:数据科学项目全栈班

课程时长:90个小时+Career Coaching

授课地点:墨尔本+面授+远程

 

你为什么想上这个课程:

从理论到实践,在澳洲找到你梦寐以求的数据科学相关工作

 

适合人群:

想从事数据科学方向工作的有一定基础的IT学生

想获得宝贵项目经验并转方向的在职人员

 

通过课程你可以获得的重要求职技术点:

  1. Apache Spark/Kafka进行大数据处理
  2. Tensflow
  3. 机器学习算法原理/调参/解决真实问题
  4. 时序数据可视化/预测
  5. 时空数据可视化/预测
  6. 如何正确使用Python/R 进行数据处理
  7. 回归分析/聚类方法/分类算法

 

通过课程你可以获得的

由业界资深导师定制的四大项目

  1. 时序数据-比特币价格预测
  2. 基于Apache Spark/Kafka的大数据分析
  3. 时空数据聚类和预测-墨尔本停车费罚款优化
  4. Kaggle真实竞赛指导

 

定制化的Career Coaching

IT匠人社群Networking与内推资源

 

课程价格:

线下:$5,500  早鸟价:$4,800 (9月28截止)

线上:$4,500 早鸟价 $3, 800(9月28截止)

 

开课时间:10月20日 星期六

 

近期开课hot
logo

Follow Us

linkedinfacebooktwitterinstagramweiboyoutubebilibilitiktokxigua

We Accept

/image/layout/pay-paypal.png/image/layout/pay-visa.png/image/layout/pay-master-card.png/image/layout/pay-stripe.png/image/layout/pay-alipay.png

地址

Level 10b, 144 Edward Street, Brisbane CBD(Headquarter)
Level 8, 11 York st, Wynyard, Sydney CBD
Business Hub, 155 Waymouth St, Adelaide SA 5000

Disclaimer

footer-disclaimerfooter-disclaimer

JR Academy acknowledges Traditional Owners of Country throughout Australia and recognises the continuing connection to lands, waters and communities. We pay our respect to Aboriginal and Torres Strait Islander cultures; and to Elders past and present. Aboriginal and Torres Strait Islander peoples should be aware that this website may contain images or names of people who have since passed away.

匠人学院网站上的所有内容,包括课程材料、徽标和匠人学院网站上提供的信息,均受澳大利亚政府知识产权法的保护。严禁未经授权使用、销售、分发、复制或修改。违规行为可能会导致法律诉讼。通过访问我们的网站,您同意尊重我们的知识产权。 JR Academy Pty Ltd 保留所有权利,包括专利、商标和版权。任何侵权行为都将受到法律追究。查看用户协议

© 2017-2024 JR Academy Pty Ltd. All rights reserved.

ABN 26621887572