【数据科学】如何学习数据科学

本文翻译自一篇博客文章,作者是一名软件工程师,他描述了在五年时间内学习数据科学的经历和心得,他的学习途径包括了自学(书籍、博客、小项目),课程学习,教学讨论,会议交流和工作实践。 一、入门 1)自学(2 - 4个月) 自学是起步的关键。两年前,我和几个同事组成了一个研究小组,讨论统计202课程的学习材料。这让我感觉很兴奋,并由此开始数据分析的学习研究。研究小组有5名成员,但最后只有2个人选择去更深入地研究这个领域(数据科学并不适合每一个人)。

  • 学习基本的统计知识:统计202课程是非常合适的入门资料
  • 学习一种统计工具:作为一个菜鸟,我用了3个月的时间埋头学习R语言,R学起来非常有趣。(为什么要学习R?)
  • 解决一些好玩的小问题:好奇心是数据科学的关键。如果你对国家的经济问题,犯罪统计,体育成绩等感兴趣的话,去收集数据并开始回答你的问题吧。
  • 学习Unix工具:我选择了O'Reilly出版的数据之魅作为学习材料。
  • 学习SQL和脚本语言:我了解的有Java,Ruby和SQL。 Python也在我的名单上。

有很多的培训材料可以在网上找到:

  • 统计202
  • 加州理工学院的数据科学课程
  • Coursera:数据科学,机器学习,数据分析,数据分析计算
  • 加州大学伯克利分校 - 数据科学
  • 骑士新闻中心的课程:资讯图像和数据可视化
  • 统计101:Udacity(统计入门),可汗学院,卡耐基梅隆大学的统计课程
  • Learn R

2)课堂训练(9 - 12个月) 如果你想认真提高这项技能,那就选择一门课程,严肃的对待它。斯坦福大学提供了很优秀的课程。

  • 数据挖掘分析STATS202
  • 线性和非线性优化MS&E211
  • 挖掘海量数据集CS246
  • 现代应用统计:STATS315A
  • 统计方法的金融应用STATS240P
  • 现代应用统计:数据挖掘STATS315B

二、聚焦 1)集中所有精力

  • 当我迷上了数据科学时,我发现只花20%的时间是不够的,这需要花100%的时间,所以我会去发现并解决工作中出现的所有和数据相关的问题(大数据分析,医疗保健,零售分析,优化问题)。

2)着手有趣的问题

  • 把学习目标和个人兴趣放在一起。解决有趣的问题,同时学习新的技术是很有用的。例如我对零售,医疗保健和体育数据分析很有兴趣。

3)加速学习:

  • 教学相长:我会给同事和朋友教一些R语言和数据挖掘的入门知识。这使我在这方面的知识更为扎实,也使得周围的人对这个主题更有兴趣。这对我来说也是一种回馈开源社区的方式。博客写作也是另一种学习和贡献的方式。
  • 关注业内领袖:网络中有很多厉害的数据科学家,关注这些人可以得到很好的启发。例如: DJ Patil, Hillary Mason, Jeff Hammerbacher, Carla Gentry,Monica Rogati, Cathy O'Neil。
  • 阅读有趣的博客:http://datascience101.wordpress.com,http://columbiadatascience.com/blog,http://www.r-bloggers.com,http://www.datawrangling.com,http:// flowingdata.com(Quora的最好的的数据博客列表)
  • 定期参加聚会:本地的数据科学/ R聚会,这一领域的发展非常迅速,我至少每隔一年去那里。看看有什么好玩的新东西。
  • 了解大数据技术:MapReduce / Hadoop,云计算。我尽量不使用任何商业技术供应商,现在回想起来,这是一个很好的决定。

4)了解业务领域知识 我很幸运,有机会接触到内部和外部的数据科学家,他们帮助我理解他们处理数据问题的方法。我从他们身上学到的“假设驱动的数据分析”,而不是“盲目加蛮力数据分析”的重要性。重点是理解的业务领域问题,然后再尝试从数据中提取有意义的见解。这使我了解一些运营,零售,旅游及物流收入管理和医疗行业。 “纽约时报”近日发表文章,强调有必要为直觉。 3、有用的数据科学读物

  • 数据挖掘导论
  • 果壳中的R
  • 数据之魅
  • 可视化之美
  • 查看更多的数据科学的书籍:O'Reilly,Manning

4、对我感觉没多大用的东西

  • 学习多个统计工具:一年前,我开始有一些SAS编程的工作要求,我学了一个月左右的SAS,但没什么效果。主要的原因是学习惯性,而且我喜欢用R.我真的没有需要去学习另一种统计工具。R虽然不是完美的,但将R和其他我熟悉的软件工具结合,我可以解决所有数据的科学问题。因此,我的建议是,如果你已经知道了SAS,STATA,MATLAB,SPSS,STATISTICA,非常好,坚持下去。但是,如果你正在学习一种新的统计工具,那就选择R吧。
  • 公开课程:我试图用Coursera来自定进度学习,但对我来说,这不是有效的。我需要有压力,有学分的正式课程。
  • 过多的学习量:需要注意工作与生活的平衡。今年早些时候,我试图同时学习多门困难的课程,我很快就意识到这么干没什么好处。

来源:

http://www.r-bloggers.com/lang/chinese/1214

英文链接:

http://www.rcasts.com/2012/12/software-engineers-guide-to-getting.html

原文发布于微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文发表时间:2015-11-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏钱塘大数据

【干货】一个数据分析师如何改变比码农还惨的人生?

导读:我们坚信,未来是大数据的时代,而数据分析师,就是走在时代前端的人。别把时间花费在低产出的数据整理和清洁上面,善于利用工具,朝向正确的方向努力,一定可以在成...

37510
来自专栏人称T客

移动OA研究:用户总体满意度致远,蓝凌,通达位居三甲 金蝶,泛微表现不佳

今天我们来分析一下移动OA的总体满意度,考核一家厂商产品的满意度我们通常会从以下几个维度进行分析,售前、实施、产品质量和支持服务等方面,这几个因素构成了满意度的...

2843
来自专栏我就是马云飞

我更喜欢这样的工程师

提及影响力时,工程师通常迫切希望自己成为一名管理者,以便获得更多的信息和决策权。这是一个不好的信号,但却非常普遍。

821
来自专栏数据科学与人工智能

【数据科学】什么? 你还不知道数据科学!?在不了解,就OUT了!!

商僧语 2012年《哈佛商业评论》( Harvard Business Review)把数据科学家誉为“21世纪最性感的职业”。数据科学也日渐成为更多小僧们的追...

22810
来自专栏产品成长日志

4年产品经理工作总结,这3个问题没想清楚一辈子都是初级产品

简单做一下自我介绍,田宇洲,北京大学软件工程管理硕士,北京电信4年产品经理,负责B2B电商平台的前后端产品设计,对自己的定义是坠落到国企的互联网产品经理。爱好画...

931
来自专栏华章科技

让机器理解语言的魔法师——揭秘Facebook语言技术小组

将照片翻译成语言、用户消息排序、虚拟助手和聊天机器人……Facebook 的「语言技术组」正在用人工智能改变 Facebook 用户与世界的交互方式。

765
来自专栏AI科技大本营的专栏

李彦宏:AI模仿人脑是走不通的

人工智能(Artificial Intelligence)并不是一个新的概念,它实际上诞生于 20 世纪 50 年代。作为一门前沿交叉学科,人工智能一直没有统一...

1024
来自专栏携程技术中心

沙龙报名 | 云海机器学习Meetup,5月6日上海

1163
来自专栏机器人网

什么是机器人?看看这些创业者怎么回答

“机器人(Robot)是自动执行工作的机器装置。它既可以接受人类指挥,又可以运行预先编排的程序,也可以根据以人工智能技术制定的原则纲领行动。它的任务是协助或取代...

3117
来自专栏通信云团队

2018即将结束,过去一年的移动视频你了解吗?

2018年已经接近尾声,剩下不足2个月的时间了

2021

扫码关注云+社区

领取腾讯云代金券