前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何从小白成长为数据科学家

如何从小白成长为数据科学家

作者头像
叶锦鲤
发布2018-03-15 11:01:12
8880
发布2018-03-15 11:01:12
举报
文章被收录于专栏:悦思悦读悦思悦读

本文是作者在赤兔APP“数据挖掘”小组内在线分享的记录的第【2】部分。

本次分享第【1】部分:什么是数据科学

分享主题:Data Science学习分享会

分享时间:2016年4月18日晚8:00-10:00

分享地点:赤兔“数据挖掘”小组,线上

分享嘉宾:黄逸洲,来自美国华盛顿大学信息管理专业的研究生,专攻数据科学。

为什么我们要成为一名数据科学家?

  • 哈佛商业评论曾今说过,数据科学家是21世纪最性感的职业。
  • 习大大也说过,现在国家要进入大数据+。
  • 数据分析有更多地机会和领导层接触,为他们提供决策支持,所以也有很好地晋升机会。

这么多好处摆在那里,这个问题就不用问了吧。

数据科学的岗位有很多种,其中数据科学家,数据分析师,数据架构师,数据工程师最为常见。他们的职能各有不同:

  • 数据分析师擅长处理和进行统计分析;
  • 数据工程师偏向大数据系统的维护和开发;
  • 数据科学家更多地要进行大数据的机器学习和理论分析。

麦肯锡的报告显示,未来对于数据科学相关人才的需求会有很大的缺口,所以从事数据科学也是一个很有潜力的工作。

所以什么是数据科学家?数据科学家的目标是将数据转化为价值。

Airbnb的首席数据科学家Riley Newman在一篇博文里面这样定义数据科学家:数据不是冰冷的数字,而是顾客的声音,数据记录了顾客的的行为和发生的事件,反应的是顾客决策的过程。

数据科学家不仅仅是要能够回答问题,测量事物,回答诸如:意大利最有名的十个旅游景点这种数字问题。一个好的数据科学家,是要能从数据中了解人们的想法,发现人们的需求,得出自己的观点见解,能够利用这些得出的观点见解去影响决策,并能够确保这个决策得到想要的影响。

所以说,数据科学家的工作时很有挑战性的。

上图显示,这个世界的数据正在快速增加,有一个比较夸张的说法就是现在过去的十分钟时间里,产生的数据量是2003年以前所有数据量的总和。这样看来,我们真的已经进入大数据时代了。

数据产生的方式有很多种,社交网络,移动设备,等等。现在都说internet ofthing(IoT)的概念,万物互联,任何设备都有可能接入网络,产生数据。

下面是一张手机的传感器图,图中显示的每个传感器都在不停的产生数据,可想而知,世界上每秒钟产生的庞大数量。

所以什么是大数据?大数据就是指一个很庞大的数据集合,一台设备无法进行处理。

知道了这些概念,我们就进入另一个话题,我们该如何学习数据科学?

数据科学实际上是计算机、统计和数学的交叉集合。

要成为数据科学家需要:

  • 计算机的编程能力——在计算机方面,掌握一到两种编程语言对于成为数据科学家会有很大的帮助,如Java和Python,基本的数据结构和算法基础也是需要的。
  • 数学的理论基础——统计学基础,机器学习,以及计量经济学都在数据分析中十分重要。
  • 处理大规模数据的能力——由于数据量在不断上升,了解可拓展的数据存储,计算和管理能力,了解Hadoop,Spark这样的大数据处理平台,也是十分重要的。
  • 数据可视化能力——分析最后最关键的步骤就是将分析结果展示给别人看,并且不能太复杂,要能够让一个没有任何数据背景的的人,很容易理解图中要表达的内容。

下图给出的是一名全能数据科学家应该具有的能力:

接下来介绍的是美国一些大学对于数据科学这门专业的课程设置。

我参考了图中的四所大学,并根据自己专业的课程设置,可以清楚的归结成5个方面,统计和数学计算机编程机器学习分布式系统,以及数据挖掘和数据分析

这四所学校的课程基本就是围绕这几个方面展开的。所以给大家提供一个参考,可以有计划的学习者5个不同知识点得内容。

下面,我参考网上和自己的经历,提供的一个比较系统的学习路径:

首先要入门数据科学,必备技能就是统计学基础。

你要明白你所做的分析到底要表示什么,数据怎么来,假设可不可靠,以及如何由样本去估计总体。这些基本的知识点都会在以后每次的分析中用到。

其次,经常会有些人问到,我该学习R 还是python?

你可以先问自己这三个问题:你要解决什么样的问题?你学习一门程序语言的成本?在你的领域最常用的工具是什么?

越接近统计研究跟数据分析人,越倾向R;越接近工程开发工程环境的人,越倾向Python。

R的优势在于有强大的代码库和制图能力,使统计分析和数据分析变得更容易,统计通用语言,不会编程也会用。所以我个人经验,如果学有余力,都可以学一遍,利用两种语言的优势,可能会有更好地分析结果。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-04-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智汇AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档