重磅:如何不花钱就成为数据科学家?

大数据文摘作品,欢迎个人转发朋友圈,自媒体、媒体、机构转载务必申请授权,后台留言“机构名称+转载”,申请过授权的不必再次申请,只要按约定转载即可

编译|丁雪 校对|王婧

从白宫雇佣DJ Patil作为第一位首席数据科学家到联合国运用预测分析来预报可能发生在学校中的爆炸事件,无论何时何地,大数据、数据科学和预测分析都是最热门的话题。

每个月都有很多家创业公司如雨后春笋般出现,让我们即使耗尽想象力也难以完全理解当下的技术会如何改善我们的生活以及我们所做的一切。数据科学的市场需求巨大,增长态势也如同被打了鸡血一样极为迅猛。

根据领英(Linkedin)的数据,“统计分析”和“数据挖掘”是今年求职者能被雇佣的头两个技能。高德纳咨询公司表示,2015年全球提供给数据科学家及其相关职位的工作机会有440万,单在美国就有190万。一个数据科学相关的工作还可以再创造三个非信息领域的工作,因此总共会产生大约1300万个职位。可问题是你要做些什么才能确保职位,梦想成真?你如何才能成为全球这440万工作机会的合格候选人?

全球至少有50个开设数据科学学位课程的大学,学费从5万到27万美金不等,以及需要1到4年的时间。如果你正想要去读大学,这可能是一个不错的选择。比起其它类似或不那么类似的学科,数据科学有它自己独特的优势。但是,对于发展中国家的人来说,学费过于高昂;同时,对于职场人士,投入几年时间的代价很大。

另外,也有一些不错的暑期课程、研究协会和训练营,它们承诺可以在短时间内让你成为数据科学家。这当中有一些虽然是免费的,但是很难有机会加入,而有些要求博士等高学历,还有些两个月左右的课程却要价1.5万到2.5万美金。对于即将毕业的博士生来说,这些都是能获得一些实战经验的好机会,然而我们目前还不清楚这些短期受训者是否能媲美资深的行业分析师。我个人非常喜欢其中的一些项目,比如Data Incubator,Insight Fellowship,Metis Bootcamp,Data Sciencefor Social Goods 和著名的 Zipfian Academy 项目。

付费资源

在介绍如何不花钱成为数据科学家之前,我提一下我很喜欢几个的付费资源。第一个是Booz Allen公司的探索数据科学项目(Explore Data Science program),费用是1250美元,但是物有所值。第二个是Tim Chartier 录制的《大数据:数据分析如何改变我们的世界》(Big Data: How Data Analytics is transforming the world)DVD,只要80美元,值得一试。

下面两个课程来自麻省理工:一个是《应对大数据的挑战》(Tackling the Big Data Challenges),学费是500美元,这个课程为你提供了坚实的大数据理论基础;另一个是只要100美元学费的《分析学前沿》(The Analytics Edge),课程精辟地讲解了分析法是如何被用于解决日常运营问题。如果你每天可以抽出几小时的时间,那么试试Udacity提供的针对数据分析师的Nanodegree课程,每月支付200美元,6个月左右能完成,他们和facebook、Zipfian学院和MongoDB合作提供这个课程。ThinkFul每月收费500美元的项目是有一个导师实时指导你成为数据科学家。

那么,那些想成为数据科学家,但是负担不起或者进不了竞争激烈和收费高昂的项目的人应该怎么办呢?还有那些来自于发展中国家,想在数据科学这一重要领域提高他们的竞争力,或者即使只是尝试应用这些先进技术改善他们的周边环境、社区和国家的人又该怎么办呢?

免费资源

以下就是我不花一分钱成为数据科学家的“独门秘籍”:

1. 理解数据:单纯的、没有任何背景的数据是没有意义的,也容易让人误解。数据需要有具体的背景才能说明问题。数据就像是一种颜色,需要有一个具体的外观才能证明它的存在。以红色为例,它需要一些具体的外观才能让我们看到,比如红色的汽车、红色的围巾、红色的领带、红色的鞋子或任何红色的东西。同理,数据也需要和它的环境、内容、模型、方法以及它产生、发生、使用、修改、执行和终止的整个生命周期结合在一起。

我还没发现一个数据科学家和我谈数据的时候不提及像Hadoop、NoSQL、Tableau的技术或其它老牌供应商与流行语。你需要与你的数据建立亲密的关系,你需要彻底地了解它。问他人“你的”数据为何出现异常就像是问自己的妻子怀了谁的孩子一样荒谬。我们在与联合国的合作以及确保学校远离爆炸的相关软件中具备一个独有的优势是:对底层数据的控制力。当全世界在使用统计图表讨论这些数据时,我们是那些回家体验数据的人,让它融入我们的日常生活,这些数据的价值、细节和增值,是我们不能在其它地方找到的。对于其它的项目和客户,我们也是同样对待的。

2. 理解数据科学家:不幸的是,“数据科学家”恰好是数据科学这个领域中最容易使人困惑和被误用的词之一。有人将其联想为知晓世间所有事情的神秘预言家;有人认为他们仅仅是统计学家;少数人认为他们只是一些熟悉Hadoop 和 NoSQL的人;还有人认为他们就是一些会做简单测试或是在管理会议中使用很多晦涩难懂的数学和统计学术语的人。甚至于,某些人眼中的可视化控制面板,在另一些人看来只是永无止境的ETL(Extract-Transform-Load,数据仓库技术 )过程。在我看来,数据科学家是一类比数据创造者少一些对科学的理解,比数据生成者少一点对数据的理解的人,而他们恰恰是知道如何把这两部分工作融会贯通的人。一个好的数据科学家应该知道外部有哪些资源可用,应该和哪些人联系,应该雇佣什么样的人,以及采用什么样的技术可以完成工作;可以将商业目标和数据集市(data mart)连接起来,可以把每一个点,从商业利益到人类行为、从数据生成到付出的款项简单地联系在一起。

3. 观看Ted网站上的这13个视频

http://www.ted.com/playlists/56/making_sense_of_too_much_data

4. 观看Hans Rosling的视频,理解可视化的力量

http://www.ted.com/talks/hans_rosling_shows_the_best_stats_you_ve_ever_seen

5. 收听PartiallyDerivative的关于数据科学的每周博客,查看博客中提供的一些有用资源

http://www.partiallyderivative.com/

http://www.partiallyderivative.com/resources/

6. 华盛顿大学的两个课程:

《数据科学入门》(Introto Data Science)和《数据分析计算》(Computing for data analysis)会是个好开头

7. 利用GitHub上的资源,要尽量多读

8. 浏览Measure for America网站(http://www.measureofamerica.org/),了解数据如何起作用

9. 阅读免费图书Field Guide to Data Sciences(http://www.boozallen.com/media/file/The-Field-Guide-to-Data-Science.pdf)

10. 努力完成“如何成为数据科学家”的信息图中的每一个步骤

11. 阅读博客“The DataCamp”(http://blog.datacamp.com/),提高R编程技术

12. 阅读博客“simplystats”(http://simplystatistics.org/),提高统计分析能力

13. 阅读Zipfian学院网站上一篇非常实用的文章“A Practical Intro to Data Science”(http://www.zipfianacademy.com/blog/post/46864003608/a-practical-intro-to-data-science

14. 试着完成“The Open SourceData Science Masters”系列课程

http://datasciencemasters.org/

15. 学习Coursera网站创始人之一AndrewNg的机器学习课程

https://www.coursera.org/learn/machine-learning

16. 尽一切努力完成Coursera上的数据科学专项课程(DataScience Specialization),完成所有9门课以及核心项目

https://www.coursera.org/specializations/jhudatascience

17. 如果你缺乏计算机科学的背景或是想侧重于数据科学中的编程部分,请完成Coursera 上数据挖掘专项课程(Data Mining Specialization)

https://www.coursera.org/specializations/datamining

18. (可选项)根据你想从事的领域,可以参考下面这些专业相关的数据科学课程:医疗保健分析——入门和专项课程(healthcare analytics – intro and specialization), 教育(education), 性能优化(performanceoptimization)和一般学术研究(general academic research)

https://www.coursera.org/course/bigdataanalytics

https://www.coursera.org/specializations/medicaltech

https://www.open2study.com/courses/big-data-for-better-performance

http://www.liebertpub.com/big

19. 如果要了解数据科学应用的部署方面,Coursera上的“云计算”专项课程以及免费的AWS(Amazon Web Services)培训则是“必修课”

https://www.coursera.org/specializations/cloudcomputing

http://aws.amazon.com/training/intro_series/

20. 学习“海量数据挖掘”(MiningMassive Datasets)和“过程挖掘”(Process Mining)这两门顶尖课程

https://www.coursera.org/course/mmds

https://www.coursera.org/course/procmin

21. 27本最好的免费数据挖掘类书籍

http://www.dataonfocus.com/21-free-data-mining-books/

22. 每天阅读Data ScienceCentral,类似这样的文章可以让你在面试中节约很多时间。

23. 尽可能多在Kaggle上参与比赛项目

24. 如果还想更上一层楼,以下这些Coursera上的统计课程会让你脱颖而出:推论统计学(InferentialStatistics, 描述统计学(Descriptive Statistics,数据分析和统计学(Data Analysis and Statistics),Passion driven stats和MakingSense of Data

25. 关注预测分析领域大牛的Twitter:@mgualtieri,@analyticbridge, @doug_laney, @Hypatia_LeslieA, @hyounpark, @KDnuggets,@anilbatra

26. 关注大数据和数据科学领域大牛的Twitter:AlistairCroll, Alex Popescu, @rethinkdb, Amy Heineike, Anthony Goldbloom, Ben Lorica,@oreillymedia., Bill Hewitt, Carla Gentry CSPO, David Smith, David Feinleib,Derrick Harris, DJ Patil, Doug Laney - Edd Dumbill, Eric Kavanagh, Fern Halper,Gil Press, Gregory Piatetsky, Hilary Mason, Jake Porway, James Gingerich, JamesKobielus, Jeff Hammerbacher, Jeff Kelly, Jim Harris, Justin Lovell, Kevin Weil,Krish Krishnan, Manish Bhatt, Merv Adrian, Michael Driscoll, Monica Rogati,Neil Raden, Paul Philp, Peter Skomoroch, Philip (Flip) Kromer, Philip Russom,Paul Zikopoulos, Russell Jurney, Sid Probstein, Stewart Townsend, Todd Lipcon,Troy Sadkowsky, Vincent Granville, William McKnight, Yves Mulkers

这张表里的全部内容需要3-12个月的时间完成,但是完全免费。并且我保证你掌握这些技能后,工作机会就会滚滚而来。即使你只完成了一半,通知我一声,我也可以告诉你接下来该怎么办。现在就看你的了,无论你在哪里,能负担多少,如果你想拥有超过平均水平至少四倍的收入,这就是你接下来该做的事,至少是接下来这十年,这十年中每人每年将会产生20TB的数据,是过去十年的20倍。

我还会另外发表文章介绍数据科学方面的书(在过去的六个月里我读了127本书)和网络公开课(今天正在庆祝自己在MOOC上获得的第25个证书)。

对于其他人来说,数据科学是一个机遇,但对于我,是一种激情。我的tweeter账号:@ZeeshanUsmani

更重要的,每天阅读微信公号“大数据文摘”,哈哈,这是我们加上的:)

大数据文摘从2013年7月创建至今,每日坚持发布优质内容,目前已是最有影响力的大数据媒体,而且大数据文摘完全依靠志愿者在运营,没有一个全职人员。如果想了解大数据文摘,请读:仅靠志愿者运营,大数据文摘20万粉丝,如何炼成?(点击即可)

如果想加入我们,请在大数据文摘后台回复“志愿者”,谢谢!

大数据文摘编译者简介

丁雪

华中师范大学情报学专业硕士,从事用户行为与个性化服务方向的研究。关注大数据的发展,欲从事互联网与咨询行业的相关工作。

王婧

中科院生物学博士,有多年畅游分子和细胞微观世界的经验。热爱科学,热爱大数据。

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2015-10-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏姬小光

初创公司如何在 BAT 的夹缝中寻找机会

创业的思路有很多种,若你不乏奇思妙想,点子源源不断,那么本文可能并不适合你。本文想讨论的,是围绕大公司的产品生态,或各个产品之间的夹缝地带催生的一些机会。长期关...

9220
来自专栏佳爷的后花媛

象牙塔之旅

又是一年暑假季,八月的炎热比起七月要温和点,只是每每到了夜晚,隔三两天就会暴雨如注,清晨起来,一夜好梦。 不知不觉毕业快两个月了,偶尔恍惚还以为自己才大四,前...

9820
来自专栏VRPinea

Adobe发布研究报告——AR/VR的讨论量在18个月内暴增548%

38480
来自专栏编程一生

我要给团队什么样的输出

13110
来自专栏章鱼的慢慢技术路

飞鱼48小时游戏创作嘉年华_厦门Pitch Time总结与收获

明确美术队友和程序队友的水平,提需求的过程中尝试做减法,在保留核心玩法的基础上,看队友水平和时间判断是否添加需求。

7810
来自专栏机器人网

工业机器人与哪些高科技含量的技术有关?

工业机器人是目前广泛应用机器人设备,在汽车制造业、造船、钢铁、电力设备等行业运用广泛,近年来随着技术发展,工业机器人技术日新月异,那么到底工业机器涉及到哪些高科...

13140
来自专栏DT数据侠

如何创造出优秀的数据可视化作品?这些“实战经验”请收好

早就有人称赞过DT君的数据可视化是业界清流,也经常有想要入门的同学前来求教。那么,作为一名专业的可视化设计师,如何能够结合具体业务做出炫酷的可视化作品呢?

14500
来自专栏CreateAMind

为什么强大的 MXNet 一直火不起来?

看了下mxnet,觉得很厉害的,支持各个流行的平台,支持多种语言,支持多机多GPU并行。相比起来,caffe就没这么好的支持的。既然这么好,为什么mxnet就一...

17320
来自专栏工科狗和生物喵

计算机(处理器)发展史 (PS:课程论文)

正文之前 写死写活的一篇课程论文,让我去探讨了下计算机的发展历史。很有趣,写了我好几天呢!! 正文 【摘要】 计算机的发展史,很大一部分是计算机处理器的发展史。...

41990
来自专栏机器人网

详解工业机器人都涉及哪些工业与电子科技?

工业机器人是目前广泛应用机器人设备,在汽车制造业、造船、钢铁、电力设备等行业运用广泛,近年来随着技术发展,工业机器人技术日新月异,那么到底工业机器涉及到哪些高科...

28550

扫码关注云+社区

领取腾讯云代金券