[译]天龙八步:8步让你变成数据科学家

大数据文摘翻译作品

编译:焦剑,康欣

校对:孙沁(Kiki)

欢迎个人转发朋友圈;其他机构或自媒体转载,务必后台留言,申请授权

OK, 这些步骤不是那么简单。但是,它们都是可操作的,并且大多数步骤都是免费或者花钱很少,只是要你投入时间。

首先,什么是数据科学家?数据科学,是一个多学科知识的交集,甚至包括黑客技巧。数据科学家,是比软件工程师更擅长统计学,比统计学家更擅长软件工程的人。目前,数据科学家的典型教育背景是:高中5%,技校5%,大专14%,本科37%,硕士/专业学位31%,博士9%。

第一步:学好统计、数学和机器学习

数学:可汗学院(Khan Academy)的数学,MIT公开课的线性代数;统计学:Udacity和Openintro;机器学习:Stanford在线中吴恩达(Andrew NG)的机器学习,Coursera上John Hopkins的实用机器学习

第二步:学习编写代码

掌握计算机科学的基础知识;掌握从头至尾的开发过程(end-to-end development),因为你做的东西终将被整合到其它系统中;确定你的首选编程语言,开源的R , Python等,商业软件SAS, SPSS等。用DataCamp, tryR, Codecademy和Google Class进行交互式学习。

第三步:理解数据库

作为学生,你会经常与文本数据打交道。但是,一旦进入该领域,你会发现该领域几乎都是用数据库存储数据,如MySQL, Postgres, CouchDB, MongoDB, Cassandra等。

第四步:掌握数据整理、可视化和报表制作

1)数据整理,是将原始数据转换成方便实用的格式。可自学Coursera中John Hopkins的Getting and Cleaning Data课程,实用工具有DataWrangler和R。

2)数据可视化,是创建和研究数据的视觉表现。实用工具有ggvis, D3, vega。

3)数据报表,作为数据分析的最后一步,是将数据分析和结果制作成易于理解的报告。实用工具有Tableau, Spotfire和R Markdown。

第五步:提升到大数据级别

当你开始处理网络级规模的数据时,数据分析的基本方法和过程就都改变了。绝大多数的数据科学家要解决的问题,都无法在单机上完成。他们面对的是需要分布式处理的大型数据集,使用的工具是Hadoop,MapReduce,Apache Spark。

第六步:获得经验、实践,结交大牛

[古人云:]熟能生巧!你可以参加比赛,结交数据科学专家,通过小项目小试牛刀,培养自己的直觉。

第七步:实习、实战、或找份工作

甄别自己是不是一个真正的数据科学家的最佳途径,就是用你新学的知识迎难而上,进入数据分析的丛林。

第八步:关注并参与社区

关注网站:DataTau, Kdnuggets, fivethirtyeight, datascience101, r-bloggers;关注大牛:Hilary Mason, David Smith, Nate Silver, dj patil; 需要数据?上quandl看看。

完整信息图

来源:

1. http://blog.datacamp.com/how-to-become-a-data-scientist/

2. http://blog.datacamp.com/wp-content/uploads/2014/08/How-to-become-a-data-scientist.jpg

【译者简介】

有意联系译者,请给“大数据文摘”后台留言,附自我介绍及微信ID,谢谢!

焦剑:小牙医一名,因课题原因接触大数据,现正在努力学习相关知识中,希望在这里与大家交流学习。

孙沁(Kiki):美国留学五年,现为Emory University生物统计在读硕士。对Clinical Trails, Cancer Prevention, HIV/AIDS以及Food Science/Nutrition的领域很感兴趣。毕业后希望在Pharmaceutical, Biotechnological Healthcare Industry或者Hospital工作,也想尝试医疗健康方向的咨询工作(Life Science Consulting)。希望结交对医疗数据有兴趣的朋友,也希望大家帮忙推荐此方向的实习和工作机会给我。

康欣:博士,西门子中国研究院高级研究员。多年从事图像及数据处理和分析、计算机视觉、模式识别、机器学习、增强现实等领域的技术研究和创新应用。希望借此平台,与大数据分析爱好者以及专家学者交流。

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2015-03-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

用机器学习检测出诱发痴呆和中风的最常见病因,比现有方法更准确

机器学习在最常用的脑部扫描(CT)形式中检测出诱发痴呆和中风的最常见病因,比现有方法更准确。

1073
来自专栏VRPinea

善忘星人福利贴:不再丢三落四,VR/AR助你做个精致的人儿

3654
来自专栏腾讯技术工程官方号的专栏

TDSQL带你走进数据库顶会VLDB 2018 | 论文纵览

? 一年一届的数据库领域顶级会议VLDB 2018即将于当地时间8月27日-8月31日在巴西里约热内卢召开。 在本届大会上,腾讯公司TDSQL团队携手中国人...

10.6K5
来自专栏PPV课数据科学社区

iTunes热门排行榜算法的数据分析

几天前,我发表了一篇文章——深度分析苹果公司的iTunes免费app热门排行榜的算法、促进、排名操纵和算法故障。 下面是文章概述: ? 2014年10月29号和...

3926
来自专栏IT大咖说

小米:VR产业中Android的现状与挑战

1563
来自专栏逍遥剑客的游戏开发

VRMMO的技术挑战

5749
来自专栏新智元

【新智元笔记】知识图谱和问答系统

话说天下群雄争相研究知识图谱,而真正对知识图谱和问答系统研究深入透彻的,唯谷歌和李维老师是也。听说李维老师将在凌晨3点给大家分享知识图谱和问答系统的知识,大家都...

3724
来自专栏CDA数据分析师

【思维】如何把“数据”转化成可以行动的“信息”

题目中的这个问题,我理解是个本质。在数据时代,数据不管从哪里获取、用什么工具获取,也不管数据规模是否够得上是“大数据”,也不管你用来分析和利用这些数据的是BI软...

1777
来自专栏腾讯音视频实验室

腾讯音视频实验室杰出科学家刘杉:我们处于视频编解码标准制定的起点,而非终点。

2017年12月28日,由腾讯社交网络事业群(SNG)主办TSAIC学术&工业交流盛会在腾讯滨海大厦举行,150余位来自麻省理工、斯坦福、卡耐基梅隆、清华、中科...

56110
来自专栏UML

六个思考帽子 (Six Thinking Hats) - 从所有观点看决定

Six Thinking Hats - 改变你的思维方式可以帮助你找到棘手问题的新解决方案。

2827

扫码关注云+社区

领取腾讯云代金券