天龙八部:一张图告诉你如何8步炼成数据科学家

转自:大数据文摘(ID:bigdatadigest)

编译:焦剑,康欣,姚佳灵

校对:孙沁(Kiki)

可视化:田晋阳

如何成为一个数据科学家?不少刚刚接触这个领域的探索者都在寻找一条尽可能正确的道路。

OK,这条道路确实不是无迹可寻的。虽然并不简单,但是,通过科学的规划和足够的时间投入,数据科学家可以通过很少的花费炼成。

接下来的这张精美的可视化长图从什么是数据科学家说起,然后详细介绍炼成数据科学家的8个步骤。拿好不谢~

首先,什么是数据科学家?数据科学,是一个多学科知识的交集,甚至包括黑客技巧。数据科学家,是比软件工程师更擅长统计学,比统计学家更擅长软件工程的人。目前,数据科学家的典型教育背景是:高中5%,技校5%,大专14%,本科37%,硕士/专业学位31%,博士9%。

第一步:学好统计、数学和机器学习

数学:可汗学院(Khan Academy)的数学,MIT公开课的线性代数;统计学:Udacity和Openintro;机器学习:Stanford在线中吴恩达(Andrew NG)的机器学习,Coursera上John Hopkins的实用机器学习

第二步:学习编写代码

掌握计算机科学的基础知识;掌握从头至尾的开发过程(end-to-end development),因为你做的东西终将被整合到其它系统中;确定你的首选编程语言,开源的R , Python等,商业软件SAS, SPSS等。用DataCamp, tryR, Codecademy和Google Class进行交互式学习。

第三步:理解数据库

作为学生,你会经常与文本数据打交道。但是,一旦进入该领域,你会发现该领域几乎都是用数据库存储数据,如MySQL, Postgres, CouchDB, MongoDB, Cassandra等。

第四步:掌握数据整理、可视化和报表制作

1)数据整理,是将原始数据转换成方便实用的格式。可自学Coursera中John Hopkins的Getting and Cleaning Data课程,实用工具有DataWrangler和R。

2)数据可视化,是创建和研究数据的视觉表现。实用工具有ggvis, D3, vega。

3)数据报表,作为数据分析的最后一步,是将数据分析和结果制作成易于理解的报告。实用工具有Tableau, Spotfire和R Markdown。

第五步:提升到大数据级别

当你开始处理网络级规模的数据时,数据分析的基本方法和过程就都改变了。绝大多数的数据科学家要解决的问题,都无法在单机上完成。他们面对的是需要分布式处理的大型数据集,使用的工具是Hadoop,MapReduce,Apache Spark。

第六步:获得经验、实践,结交大牛

[古人云:]熟能生巧!你可以参加比赛,结交数据科学专家,通过小项目小试牛刀,培养自己的直觉。

第七步:实习、实战、或找份工作

甄别自己是不是一个真正的数据科学家的最佳途径,就是用你新学的知识迎难而上,进入数据分析的丛林。

第八步:关注并参与社区

关注网站:DataTau, Kdnuggets, fivethirtyeight, datascience101, r-bloggers;关注大牛:Hilary Mason, David Smith, Nate Silver, dj patil; 需要数据?上quandl看看。

END

原文发布于微信公众号 - 大数据(hzdashuju)

原文发表时间:2016-07-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

天龙八部:一张图告诉你如何8步炼成数据科学家

1411
来自专栏吉浦迅科技

NVIDIA推出人工智能引擎DRIVE PX 2 抢攻自动汽车市场

NVIDIA 于绘图卡市场称皇称霸,市场巩固,近年积极向多元化发展,除了早前涉足 VR 市场, 5 日宣布推出全球车载」 ,加速自动车驾驶进展,其采用 NVID...

3415
来自专栏量子位

通过图灵测试!Google掌舵人说“打电话AI”是一次非凡突破

今天凌晨,Google I/O 2018大会最后一日,前不久刚刚获得年度图灵奖的Alphabet新任董事长John Hennessy登上舞台。

1253
来自专栏新智元

Jeff Dean力荐!牛津美女博士分享:读博士前要了解的20件事

近日,机器学习大牛、谷歌AI总负责人Jeff Dean发推转帖,推荐了一篇刚毕业的博士生写的文章,内容与技术无关,而是关于攻读博士学位时需要注意的一些小tip。...

1075
来自专栏华章科技

一张图告诉你如何8步炼成数据科学家

OK,这条道路确实不是无迹可寻的。虽然并不简单,但是,通过科学的规划和足够的时间投入,数据科学家可以通过很少的花费炼成。

1013
来自专栏ThoughtWorks

翻译这件小事

加入ThoughtWorks一年半,在前辈们的牵线搭桥之下,非常机缘巧合的参与了两本书的翻译,虽然加起来10多万字,远远未到“足以谈翻译这件事”的地步,还是希望...

3487
来自专栏数据的力量

【分析工具介绍】工欲善其事必先利其器

1926
来自专栏大数据挖掘DT机器学习

机器学习与数据挖掘网上资源搜罗——良心推荐

作者: 左飞 著有《算法之美——隐匿在数据结构背后的原理(C++版)》 原文 http://blog.csdn.net/baimafujinji/articl...

3908
来自专栏量子位

Uber开源深度概率编程语言Pyro,AI实验室蛰伏一年首现身

安妮 编译整理 量子位 出品 | 公众号 QbitAI 昨天,Uber AI实验室与斯坦福研究团队共同开源了概率编程语言Pyro。Pyro是一个深度概率建模工具...

3865
来自专栏PPV课数据科学社区

天龙八部:一张图告诉你如何8步炼成数据科学家

如何成为一个数据科学家?不少刚刚接触这个领域的探索者都在寻找一条尽可能正确的道路。 OK, 这条道路确实不是无迹可寻的。虽然并不简单,但是,通过科学的规划和足...

36612

扫码关注云+社区

领取腾讯云代金券