如何学习数据科学

本文翻译自一篇博客文章,作者是一名软件工程师,他描述了在五年时间内学习数据科学的经历和心得,他的学习途径包括了自学(书籍、博客、小项目),课程学习,教学讨论,会议交流和工作实践。

一、入门

1)自学(2 - 4个月)

自学是起步的关键。两年前,我和几个同事组成了一个研究小组,讨论统计202课程的学习材料。这让我感觉很兴奋,并由此开始数据分析的学习研究。研究小组有5名成员,但最后只有2个人选择去更深入地研究这个领域(数据科学并不适合每一个人)。

学习基本的统计知识:统计202课程是非常合适的入门资料

学习一种统计工具:作为一个菜鸟,我用了3个月的时间埋头学习R语言,R学起来非常有趣。(为什么要学习R?)

解决一些好玩的小问题:好奇心是数据科学的关键。如果你对国家的经济问题,犯罪统计,体育成绩等感兴趣的话,去收集数据并开始回答你的问题吧。

学习Unix工具:我选择了O'Reilly出版的数据之魅作为学习材料。

学习SQL和脚本语言:我了解的有Java,Ruby和SQL。 Python也在我的名单上。

有很多的培训材料可以在网上找到:

统计202

加州理工学院的数据科学课程

Coursera:数据科学,机器学习,数据分析,数据分析计算

加州大学伯克利分校 - 数据科学

骑士新闻中心的课程:资讯图像和数据可视化

统计101:Udacity(统计入门),可汗学院,卡耐基梅隆大学的统计课程

Learn R

2)课堂训练(9 - 12个月)

如果你想认真提高这项技能,那就选择一门课程,严肃的对待它。斯坦福大学提供了很优秀的课程。

数据挖掘分析STATS202

线性和非线性优化MS&E211

挖掘海量数据集CS246

现代应用统计:STATS315A

统计方法的金融应用STATS240P

现代应用统计:数据挖掘STATS315B

二、聚焦

1)集中所有精力

当我迷上了数据科学时,我发现只花20%的时间是不够的,这需要花100%的时间,所以我会去发现并解决工作中出现的所有和数据相关的问题(大数据分析,医疗保健,零售分析,优化问题)。

2)着手有趣的问题

把学习目标和个人兴趣放在一起。解决有趣的问题,同时学习新的技术是很有用的。例如我对零售,医疗保健和体育数据分析很有兴趣。

3)加速学习:

教学相长:我会给同事和朋友教一些R语言和数据挖掘的入门知识。这使我在这方面的知识更为扎实,也使得周围的人对这个主题更有兴趣。这对我来说也是一种回馈开源社区的方式。博客写作也是另一种学习和贡献的方式。

关注业内领袖:网络中有很多厉害的数据科学家,关注这些人可以得到很好的启发。例如: DJPatil, Hillary Mason,Jeff Hammerbacher, Carla Gentry, Monica Rogati, CathyO'Neil。

阅读有趣的博客:http://datascience101.wordpress.com,http://columbiadatascience.com/blog,http://www.r-bloggers.com,http://www.datawrangling.com,http://flowingdata.com(Quora的最好的的数据博客列表)

定期参加聚会:本地的数据科学/ R聚会,这一领域的发展非常迅速,我至少每隔一年去那里。看看有什么好玩的新东西。

了解大数据技术:MapReduce / Hadoop,云计算。我尽量不使用任何商业技术供应商,现在回想起来,这是一个很好的决定。

4)了解业务领域知识

我很幸运,有机会接触到内部和外部的数据科学家,他们帮助我理解他们处理数据问题的方法。我从他们身上学到的“假设驱动的数据分析”,而不是“盲目加蛮力数据分析”的重要性。重点是理解的业务领域问题,然后再尝试从数据中提取有意义的见解。这使我了解一些运营,零售,旅游及物流收入管理和医疗行业。“纽约时报”近日发表文章,强调有必要为直觉。

3、有用的数据科学读物

数据挖掘导论

果壳中的R

数据之魅

可视化之美

查看更多的数据科学的书籍:O'Reilly,Manning

4、对我感觉没多大用的东西

学习多个统计工具:一年前,我开始有一些SAS编程的工作要求,我学了一个月左右的SAS,但没什么效果。主要的原因是学习惯性,而且我喜欢用R.我真的没有需要去学习另一种统计工具。R虽然不是完美的,但将R和其他我熟悉的软件工具结合,我可以解决所有数据的科学问题。因此,我的建议是,如果你已经知道了SAS,STATA,MATLAB,SPSS,STATISTICA,非常好,坚持下去。但是,如果你正在学习一种新的统计工具,那就选择R吧。

公开课程:我试图用Coursera来自定进度学习,但对我来说,这不是有效的。我需要有压力,有学分的正式课程。

过多的学习量:需要注意工作与生活的平衡。今年早些时候,我试图同时学习多门困难的课程,我很快就意识到这么干没什么好处。

来源:博客数据科学与R语言

原文发布于微信公众号 - 数据的力量(shujudeliliang)

原文发表时间:2014-11-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

浅谈机器学习的职业发展方向

一、机器学习相关的公司分析 1、大的有师傅的公司 这类公司主要是百度,阿里和腾讯。共同的特点是数据很大,机器学习的团队比较庞大,一般进去的同学都可以有师傅带...

37017
来自专栏AI科技评论

旷视科技产品总监李晨光:详解人脸识别的应用场景(含PPT)

雷锋网按:本文根据旷视科技商业产品总监李晨光在高交会《读脸·对话——AI 技术风暴沙龙》的演讲内容整理而来,主要谈论人工智能如何商业化的问题。 人工智能如何商业...

3755
来自专栏数据派THU

【独家】DataVisor:基于Spark平台的智能大数据网络反欺诈(视频+PPT+课程精华笔记)

[导读]为了让清华大学大数据能力提升项目的学生在基础学习和科研的基础之上,更好地了解大数据技术行业领域中的应用,清华-青岛数据科学研究院支持开设了金融大数据方向...

2488
来自专栏AI启蒙研究院

@所有人,为什么突然之间所有人都在讨论人工智能

552
来自专栏智能算法

浅谈机器学习的职业发展方向

一、机器学习相关的公司分析 1、大的有师傅的公司 这类公司主要是百度,阿里和腾讯。共同的特点是数据很大,机器学习的团队比较庞大,一般进去的同学都可以有师傅带着学...

3328
来自专栏灯塔大数据

当HR遇上大数据,我们看看腾讯是如何做的?

? 搜索一下“HR+大数据”,可以轻松得到几百万条记录,可见大数据在HR领域并不是一个陌生的话题,遗憾的是,热度有余而深度不足。北大光华的穆胜博士在其写的《大...

2805
来自专栏罗超频道

映射真实世界后,百度地图开始用人工智能优化这个世界

今天,百度地图与北京交管局有一个很有意思的战略合作,这将直接影响北京市民的出行:百度地图为北京交警量身打造了一个城市灯控路口路况监测平台——百度地图智慧信号灯研...

2796
来自专栏镁客网

动作捕捉技术,VR体验沉浸感的“助燃剂”

1333
来自专栏钱塘大数据

2018全球人工智能突破性技术TOP10

人工智能是个高科技、宽领域、多维度、跨学科的集大成者,从立足大数据、围绕互联网的纯计算机应用,逐步衍生到人们日常生产生活的方方面面,在细微之处改善和改变着我们。...

952
来自专栏数据科学与人工智能

【机器学习】浅谈机器学习的职业发展方向

一、机器学习相关的公司分析 1、大的有师傅的公司 这类公司主要是百度,阿里和腾讯。共同的特点是数据很大,机器学习的团队比较庞大,一般进去的同学都可以有师傅带...

28410

扫码关注云+社区