专栏首页悦思悦读如何从小白成长为数据科学家

如何从小白成长为数据科学家

本文是作者在赤兔APP“数据挖掘”小组内在线分享的记录的第【2】部分。

本次分享第【1】部分:什么是数据科学

分享主题:Data Science学习分享会

分享时间:2016年4月18日晚8:00-10:00

分享地点:赤兔“数据挖掘”小组,线上

分享嘉宾:黄逸洲,来自美国华盛顿大学信息管理专业的研究生,专攻数据科学。

为什么我们要成为一名数据科学家?

  • 哈佛商业评论曾今说过,数据科学家是21世纪最性感的职业。
  • 习大大也说过,现在国家要进入大数据+。
  • 数据分析有更多地机会和领导层接触,为他们提供决策支持,所以也有很好地晋升机会。

这么多好处摆在那里,这个问题就不用问了吧。

数据科学的岗位有很多种,其中数据科学家,数据分析师,数据架构师,数据工程师最为常见。他们的职能各有不同:

  • 数据分析师擅长处理和进行统计分析;
  • 数据工程师偏向大数据系统的维护和开发;
  • 数据科学家更多地要进行大数据的机器学习和理论分析。

麦肯锡的报告显示,未来对于数据科学相关人才的需求会有很大的缺口,所以从事数据科学也是一个很有潜力的工作。

所以什么是数据科学家?数据科学家的目标是将数据转化为价值。

Airbnb的首席数据科学家Riley Newman在一篇博文里面这样定义数据科学家:数据不是冰冷的数字,而是顾客的声音,数据记录了顾客的的行为和发生的事件,反应的是顾客决策的过程。

数据科学家不仅仅是要能够回答问题,测量事物,回答诸如:意大利最有名的十个旅游景点这种数字问题。一个好的数据科学家,是要能从数据中了解人们的想法,发现人们的需求,得出自己的观点见解,能够利用这些得出的观点见解去影响决策,并能够确保这个决策得到想要的影响。

所以说,数据科学家的工作时很有挑战性的。

上图显示,这个世界的数据正在快速增加,有一个比较夸张的说法就是现在过去的十分钟时间里,产生的数据量是2003年以前所有数据量的总和。这样看来,我们真的已经进入大数据时代了。

数据产生的方式有很多种,社交网络,移动设备,等等。现在都说internet ofthing(IoT)的概念,万物互联,任何设备都有可能接入网络,产生数据。

下面是一张手机的传感器图,图中显示的每个传感器都在不停的产生数据,可想而知,世界上每秒钟产生的庞大数量。

所以什么是大数据?大数据就是指一个很庞大的数据集合,一台设备无法进行处理。

知道了这些概念,我们就进入另一个话题,我们该如何学习数据科学?

数据科学实际上是计算机、统计和数学的交叉集合。

要成为数据科学家需要:

  • 计算机的编程能力——在计算机方面,掌握一到两种编程语言对于成为数据科学家会有很大的帮助,如Java和Python,基本的数据结构和算法基础也是需要的。
  • 数学的理论基础——统计学基础,机器学习,以及计量经济学都在数据分析中十分重要。
  • 处理大规模数据的能力——由于数据量在不断上升,了解可拓展的数据存储,计算和管理能力,了解Hadoop,Spark这样的大数据处理平台,也是十分重要的。
  • 数据可视化能力——分析最后最关键的步骤就是将分析结果展示给别人看,并且不能太复杂,要能够让一个没有任何数据背景的的人,很容易理解图中要表达的内容。

下图给出的是一名全能数据科学家应该具有的能力:

接下来介绍的是美国一些大学对于数据科学这门专业的课程设置。

我参考了图中的四所大学,并根据自己专业的课程设置,可以清楚的归结成5个方面,统计和数学计算机编程机器学习分布式系统,以及数据挖掘和数据分析

这四所学校的课程基本就是围绕这几个方面展开的。所以给大家提供一个参考,可以有计划的学习者5个不同知识点得内容。

下面,我参考网上和自己的经历,提供的一个比较系统的学习路径:

首先要入门数据科学,必备技能就是统计学基础。

你要明白你所做的分析到底要表示什么,数据怎么来,假设可不可靠,以及如何由样本去估计总体。这些基本的知识点都会在以后每次的分析中用到。

其次,经常会有些人问到,我该学习R 还是python?

你可以先问自己这三个问题:你要解决什么样的问题?你学习一门程序语言的成本?在你的领域最常用的工具是什么?

越接近统计研究跟数据分析人,越倾向R;越接近工程开发工程环境的人,越倾向Python。

R的优势在于有强大的代码库和制图能力,使统计分析和数据分析变得更容易,统计通用语言,不会编程也会用。所以我个人经验,如果学有余力,都可以学一遍,利用两种语言的优势,可能会有更好地分析结果。

本文分享自微信公众号 - 悦思悦读(yuesiyuedu),作者:黄逸洲

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-04-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 大数据基本概念浅析及技术简介

    大数据是当前很热的一个词。这几年来,云计算、继而大数据,成了整个社会的热点,不管什么,都要带上“大数据”三个字才显得时髦。大数据究竟是什么东西?有哪些相关技术?...

    叶锦鲤
  • 大数据技术在工业界的应用

    大数据是近几年非常热门的一个概念。到底什么叫做大数据呢?简单而言,就是具备4V属性的数据:

    叶锦鲤
  • 大数据在环境保护中的应用

    自从2015年8月国务院发布"促进大数据发展行动纲要",将大数据提升为国家发展战略以来,在市场需求和国家战略引导下,大数据技术在各行各业的应用得以加速推进,在生...

    叶锦鲤
  • 助力“新基建”,打造数据中台——数据宝政务大数据解决方案发布!

    政府是数字城市建设的牵头者,也是城市运行的“基石”。在打造“数字政务”对数字城市建设而言格外重要。同时,在国家“新基建”的浪潮下,政务服务也将进一步向数字化和智...

    船长会拐弯
  • 大数据项目中的QA需要迎接新的挑战

    根据IDC全球半年度大数据和分析支出指南的最新预测,到2022年全球大数据和业务分析解决方案的收入将达到2600亿美元。在大数据和业务分析解决方案上投资增长最快...

    ThoughtWorks
  • 数据化和意义提炼将如何推动生活与商业?

    ? 我们已经毫无疑问地进入大数据时代,借助我们所有彼此互联的设备,计算机正实时捕捉并处理我们的所有细节。商家视之为“圣杯”,因为他们终于可以预测,哪些消费者将...

    机器学习AI算法工程
  • 大数据的管理(二)

    大数据是为了解决复杂的企业优化问题。为了充分利用大数据,我们必须认识到,数据是一个重要的企业资产,因为数据是互联网经济的命脉。今天的组织依靠数据科学可以做出更明...

    哒呵呵
  • 透过数据魔镜看人看物看世界

    万物皆数,透过数据的魔镜能够帮助人类照出万物的本质,看人看物看世界。正如实现心愿的如意——如意如意快快显灵,数据的如意如今已经成为评判人和物的标尺,给人给物画像...

    机器思维研究院
  • 《大数据时代》读书笔记

    最 早提出大数据时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的 挖掘...

    万木逢春
  • 数据清洗 Chapter01 | 数据清洗概况

    这篇文章讲述的是数据存储方式和数据类型等基本概念、数据清洗的必要性和质量评价的关键点。希望这篇数据清洗的文章对您有所帮助!如果您有想学习的知识或建议,可以给作者...

    不温卜火

扫码关注云+社区

领取腾讯云代金券