如何从小白成长为数据科学家

本文是作者在赤兔APP“数据挖掘”小组内在线分享的记录的第【2】部分。

本次分享第【1】部分:什么是数据科学

分享主题:Data Science学习分享会

分享时间:2016年4月18日晚8:00-10:00

分享地点:赤兔“数据挖掘”小组,线上

分享嘉宾:黄逸洲,来自美国华盛顿大学信息管理专业的研究生,专攻数据科学。

为什么我们要成为一名数据科学家?

  • 哈佛商业评论曾今说过,数据科学家是21世纪最性感的职业。
  • 习大大也说过,现在国家要进入大数据+。
  • 数据分析有更多地机会和领导层接触,为他们提供决策支持,所以也有很好地晋升机会。

这么多好处摆在那里,这个问题就不用问了吧。

数据科学的岗位有很多种,其中数据科学家,数据分析师,数据架构师,数据工程师最为常见。他们的职能各有不同:

  • 数据分析师擅长处理和进行统计分析;
  • 数据工程师偏向大数据系统的维护和开发;
  • 数据科学家更多地要进行大数据的机器学习和理论分析。

麦肯锡的报告显示,未来对于数据科学相关人才的需求会有很大的缺口,所以从事数据科学也是一个很有潜力的工作。

所以什么是数据科学家?数据科学家的目标是将数据转化为价值。

Airbnb的首席数据科学家Riley Newman在一篇博文里面这样定义数据科学家:数据不是冰冷的数字,而是顾客的声音,数据记录了顾客的的行为和发生的事件,反应的是顾客决策的过程。

数据科学家不仅仅是要能够回答问题,测量事物,回答诸如:意大利最有名的十个旅游景点这种数字问题。一个好的数据科学家,是要能从数据中了解人们的想法,发现人们的需求,得出自己的观点见解,能够利用这些得出的观点见解去影响决策,并能够确保这个决策得到想要的影响。

所以说,数据科学家的工作时很有挑战性的。

上图显示,这个世界的数据正在快速增加,有一个比较夸张的说法就是现在过去的十分钟时间里,产生的数据量是2003年以前所有数据量的总和。这样看来,我们真的已经进入大数据时代了。

数据产生的方式有很多种,社交网络,移动设备,等等。现在都说internet ofthing(IoT)的概念,万物互联,任何设备都有可能接入网络,产生数据。

下面是一张手机的传感器图,图中显示的每个传感器都在不停的产生数据,可想而知,世界上每秒钟产生的庞大数量。

所以什么是大数据?大数据就是指一个很庞大的数据集合,一台设备无法进行处理。

知道了这些概念,我们就进入另一个话题,我们该如何学习数据科学?

数据科学实际上是计算机、统计和数学的交叉集合。

要成为数据科学家需要:

  • 计算机的编程能力——在计算机方面,掌握一到两种编程语言对于成为数据科学家会有很大的帮助,如Java和Python,基本的数据结构和算法基础也是需要的。
  • 数学的理论基础——统计学基础,机器学习,以及计量经济学都在数据分析中十分重要。
  • 处理大规模数据的能力——由于数据量在不断上升,了解可拓展的数据存储,计算和管理能力,了解Hadoop,Spark这样的大数据处理平台,也是十分重要的。
  • 数据可视化能力——分析最后最关键的步骤就是将分析结果展示给别人看,并且不能太复杂,要能够让一个没有任何数据背景的的人,很容易理解图中要表达的内容。

下图给出的是一名全能数据科学家应该具有的能力:

接下来介绍的是美国一些大学对于数据科学这门专业的课程设置。

我参考了图中的四所大学,并根据自己专业的课程设置,可以清楚的归结成5个方面,统计和数学计算机编程机器学习分布式系统,以及数据挖掘和数据分析

这四所学校的课程基本就是围绕这几个方面展开的。所以给大家提供一个参考,可以有计划的学习者5个不同知识点得内容。

下面,我参考网上和自己的经历,提供的一个比较系统的学习路径:

首先要入门数据科学,必备技能就是统计学基础。

你要明白你所做的分析到底要表示什么,数据怎么来,假设可不可靠,以及如何由样本去估计总体。这些基本的知识点都会在以后每次的分析中用到。

其次,经常会有些人问到,我该学习R 还是python?

你可以先问自己这三个问题:你要解决什么样的问题?你学习一门程序语言的成本?在你的领域最常用的工具是什么?

越接近统计研究跟数据分析人,越倾向R;越接近工程开发工程环境的人,越倾向Python。

R的优势在于有强大的代码库和制图能力,使统计分析和数据分析变得更容易,统计通用语言,不会编程也会用。所以我个人经验,如果学有余力,都可以学一遍,利用两种语言的优势,可能会有更好地分析结果。

原文发布于微信公众号 - 悦思悦读(yuesiyuedu)

原文发表时间:2016-04-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏灯塔大数据

互联网大数据发展深度研究报告

2015年8月14日,由中国科协、中国科学院指导,中国人工智能学会发起主办的第五届中国智能产业高峰论坛在上海长荣桂冠酒店顺利召开。 下面是百度研究院副院长张潼...

3657
来自专栏华章科技

张潼:互联网大数据的发展趋势

【张潼】我们知道“数据量日益增多”这是一个背景,可能每十年要增长一千倍。以前可能仅是线下数据的增加,而现在为什么互联网在数据量增加的作用反而更大了呢?这是因为在...

812
来自专栏人工智能头条

BDL张潼谈大数据三大趋势:个性化、智能化、产业化

1183
来自专栏镁客网

苹果正在研发人工智能芯片,有助于优化苹果设备AI服务

1423
来自专栏北京马哥教育

关于运维工程师岗位的定义和思考

作者 winston_DBA | 来源 ITPUB 糖豆贴心提醒,本文阅读时间8分钟,文末有秘密! 首先需要明白为什么会有运维岗位的出现? 每一个系统应用...

3867
来自专栏孟永辉

移动搜索时代,微信搜索如何才能更好“搜索”?

3625
来自专栏量子位

智能助手成巨头看好的金矿,Adobe趁机卖水推语音应用分析

李杉 编译自 VentureBeat 量子位 报道 | 公众号 QbitAI 还记得移动App的兴起,带来了好几波新的统计分析工具。 比如你熟悉的友盟、Talk...

31610
来自专栏数据的力量

据说搞清楚产品经理的6大问题,街边卖煎饼也能火

1414
来自专栏PPV课数据科学社区

酒店旅游业的大数据和数字智能

美国的在线旅游市场正在走向成熟。根据eMarketer发布的报告 ,美国的在线旅游销售增长幅度正在放缓,增速从2011年的15.1%下降到2013年的8.0%,...

3006
来自专栏程序员笔记

游戏设计师创造体验

1935

扫码关注云+社区

领取腾讯云代金券