本文是作者在赤兔APP“数据挖掘”小组内在线分享的记录的第【2】部分。
本次分享第【1】部分:什么是数据科学。
分享主题:Data Science学习分享会
分享时间:2016年4月18日晚8:00-10:00
分享地点:赤兔“数据挖掘”小组,线上
分享嘉宾:黄逸洲,来自美国华盛顿大学信息管理专业的研究生,专攻数据科学。
为什么我们要成为一名数据科学家?
这么多好处摆在那里,这个问题就不用问了吧。
数据科学的岗位有很多种,其中数据科学家,数据分析师,数据架构师,数据工程师最为常见。他们的职能各有不同:
麦肯锡的报告显示,未来对于数据科学相关人才的需求会有很大的缺口,所以从事数据科学也是一个很有潜力的工作。
所以什么是数据科学家?数据科学家的目标是将数据转化为价值。
Airbnb的首席数据科学家Riley Newman在一篇博文里面这样定义数据科学家:数据不是冰冷的数字,而是顾客的声音,数据记录了顾客的的行为和发生的事件,反应的是顾客决策的过程。
数据科学家不仅仅是要能够回答问题,测量事物,回答诸如:意大利最有名的十个旅游景点这种数字问题。一个好的数据科学家,是要能从数据中了解人们的想法,发现人们的需求,得出自己的观点见解,能够利用这些得出的观点见解去影响决策,并能够确保这个决策得到想要的影响。
所以说,数据科学家的工作时很有挑战性的。
上图显示,这个世界的数据正在快速增加,有一个比较夸张的说法就是现在过去的十分钟时间里,产生的数据量是2003年以前所有数据量的总和。这样看来,我们真的已经进入大数据时代了。
数据产生的方式有很多种,社交网络,移动设备,等等。现在都说internet ofthing(IoT)的概念,万物互联,任何设备都有可能接入网络,产生数据。
下面是一张手机的传感器图,图中显示的每个传感器都在不停的产生数据,可想而知,世界上每秒钟产生的庞大数量。
所以什么是大数据?大数据就是指一个很庞大的数据集合,一台设备无法进行处理。
知道了这些概念,我们就进入另一个话题,我们该如何学习数据科学?
数据科学实际上是计算机、统计和数学的交叉集合。
要成为数据科学家需要:
下图给出的是一名全能数据科学家应该具有的能力:
接下来介绍的是美国一些大学对于数据科学这门专业的课程设置。
我参考了图中的四所大学,并根据自己专业的课程设置,可以清楚的归结成5个方面,统计和数学,计算机编程,机器学习,分布式系统,以及数据挖掘和数据分析。
这四所学校的课程基本就是围绕这几个方面展开的。所以给大家提供一个参考,可以有计划的学习者5个不同知识点得内容。
下面,我参考网上和自己的经历,提供的一个比较系统的学习路径:
首先要入门数据科学,必备技能就是统计学基础。
你要明白你所做的分析到底要表示什么,数据怎么来,假设可不可靠,以及如何由样本去估计总体。这些基本的知识点都会在以后每次的分析中用到。
其次,经常会有些人问到,我该学习R 还是python?
你可以先问自己这三个问题:你要解决什么样的问题?你学习一门程序语言的成本?在你的领域最常用的工具是什么?
越接近统计研究跟数据分析人,越倾向R;越接近工程开发工程环境的人,越倾向Python。
R的优势在于有强大的代码库和制图能力,使统计分析和数据分析变得更容易,统计通用语言,不会编程也会用。所以我个人经验,如果学有余力,都可以学一遍,利用两种语言的优势,可能会有更好地分析结果。