[干货] 一个数据科学家的新年计划

关于转载授权

大数据文摘作品,欢迎个人转发朋友圈,自媒体、媒体、机构转载务必申请授权,后台留言“机构名称+文章标题+转载”,申请过授权的不必再次申请,只要按约定转载即可,但文末需放置大数据文摘二维码。

选文|孙强 翻译|赵娟 王珏 校对|姚佳玲

简介

新年并非仅仅是更换日历或是清晨起床后揉开双眼。新年是充满喜悦的一个崭新开始。它给我们一个完美的理由养成一个新习惯,它意味着新“希望”的到来。

如果你正在阅读这篇文章,我确信数据科学会让你兴奋!你要在2016年做出改变,难道不是吗?如果你从今天开始致力于实现这些目标,这是完全可能的。你必须明白,成为一个数据科学家需要一个过程,它不是一朝一夕的成功。因此,你必须耐心地朝着目标而努力。

提示:

1. 原文中涉及了大量链接,值得收藏!在大数据文摘后台,回复“计划”,可下载doc文件,获取文中提供的所有链接。

2.这些通用的学习计划是为有抱负的/有经验的数据科学家准备的。该文章可能不适合非数据分析领域的人员。

一个数据科学家的新年计划

我已经将这些学习计划根据数据科学家的三个水平阶段进行了分类。你来决定那个阶段最适合你,并进行实践。当你完成本阶段的学习任务后,便可进入下一个阶段。针对不同的学习主题,我列出了可获取的最好的课程。为了达到最佳效果,我建议你逐一学习这些课程。如果你觉得课程学习困难,请与我讨论,我会给你提供一个备选方案。方便起见,我分享了可供下载的连接。

初级水平

谁是初学者?如果数据分析和数据科学对你来说是一个全新的领域,你不了解这个行业是如何运作的,但是,你满怀好奇的在该领域发展你的事业,那么,你就是个初学者。下面就是你的学习目标:

1.从编程语言开始,无论是R或Python。

我曾看到有学生同时学习R和Python。最终,他们什么都没学会。这种学习方法很糟糕。你必须保证自己深入学习R或Python。这是两个在公司中广泛应用的开源工具。Python是公认的最简单的编程语言。R仍是人们最为喜爱的统计工具。选择权在你。两者都很好。

学习课程:在Codecademy完成Python的学习。在DataCamp完成R的学习。

2.学习统计学和数学

统计学是关于假设和运算的学科。但是,如果你不懂统计和数学,很难在这个行业立足。它是数据科学家的核心竞争力。如果你的数学不好,是时候改变了。习惯使用强大的统计技术、代数和概率学。在可汗学院(Khan Academy)、 Udacity 等平台上有非常棒的统计学课程。装上这些APP,便可马上开始学习。

学习课程:在Udacity上完成 InferentialDescriptive统计学习。在 Khan Academy完成代数的学习。

3.报名参加一个大型开放式网络课程(MOOC)

大型开放式网络课程(简称MOOC)可以自由访问和学习。但是,这是你做出的最难实现的承诺。学生们通常一次性报名参加多个课程,但最终一个也完成不了。因此,你必须专注于一个课程,完成之后,在进入下一个课程的学习。你可以在coursera, edX, Udacity上学习任何课程。

学习课程:在Coursera完成数据科学专业(R)的学习。在Dataquest完成数据科学Python的学习。

4.积极参与行业实践,发现新事物

你需要知道这个行业正在发生哪些变化。我们生活在一个充满活力又瞬息万变的世界。今天还十分盛行的技术明天可能就过时了。你必须与经验丰富的专家交流,结识“未来的自己”。现在就开始行动吧,加入讨论、参加聚会、关注博客、参加团体活动,并阅读专业书籍。你可以在Facebook 上跟进这方面的最新消息。

中等水平

谁是中等水平的数据科学家?如果你已经完成了初级水平的学习,并且已经尝使用机器学习的基础知识,熟练掌握了建立预测模型的知识,那么你已经到达了数据科学家的中级水平。达到这个水平需要巨大的决心和大量的练习。准备好迎接这个挑战了吗?

1. 理解并构建机器学习技能

机器学习是数据科学与技术的未来。所有大公司在雇佣该项技术人才方面投入大量的资金和人力。毫无疑问,当前这种人才的市场需求巨大。对个人而言,也是个不可多得的好机会。今年,你应当在机器学习方面深入拓展。熟练掌握回归分析(Regression)、聚类分析( Clustering)、 CART 算法。打开下面的连接,你可以找到关于机器学习方面的免费学习资源:

学习课程:在Andrew Ng完成机器学习的课程。

2. 专注于Ensemble和Boosting 算法的学习

一旦你对机器学习充满自信,那么转攻下一个模型吧。使用boosting和ensemble算法,可以使得模型的精度远远高于其他算法。上面分享的免费学习资源已经涵盖了这个主题。但是,要让自己更深入的理解这个主题。

学习课程:阅读 Kaggle的Ensembling 指南(Guide)。在MIT Lecture完成Boosting的学习。

3. 探索使用Spark, NoSQL以及其他大数据处理工具

本年,你将开启自己的大数据之旅。鉴于大数据人才需求的蓬勃发展,你必须学会Spark软件。最近它非常流行。大数据的未来依赖于Spark,它被广泛应用于大数据的操作和处理。通过学习Spark,你还可以拓展自己的专业知识到NoSQL , Hadoop上。

学习课程:首先学习Spark.

4. 教育社区同伴

还有什么比知识分享更棒!从今年开始,同那些努力学习数据科学的人分享你的知识。你可以加入活跃的数据科学论坛(forums),帮他们解疑答惑,教会他们有用的技巧和窍门。你也可以举办类似的聚会。

行动指南:追随我们Facebook

5. 参加数据科学竞赛

是时候检验你的学习效果了。今年你必须参一些竞赛,它能帮你认清自己的长处和短板。此外,你会对已掌握的知识更加自信。我希望你能荣登Kaggle Top500排名榜。从现在开始,你的目标是成为the Last Man Standing(点击打开连接,这是一个数据科学领域的竞赛)。

行动指南:加入KaggleData Hack

提示:比赛可能有点儿难。你可以通过查看这些实际问题来检查自己的技能和知识。他们一点儿不难,但非常有趣!

高级水平

我无需定义这类人群。大部分人都非常害怕去尝试数据科学,但他们却十分精通。他们已经过上了轻松惬意的生活,但是,他们热爱挑战。他们是经验丰富的专家。下面是一些学习计划:

1.构建一个深度学习模型(deep learning model)

今年,你要为立志于成为数据科学家的人树立榜样。你必须创建深度学习(deeplearning)的模型。在世界各地,已经有人使用这些模型进行预测了。这是机器学习的高级阶段。其准确性已明显优于一般的机器学习模型。

学习课程:完成Tutorial 的深度学习。

2. 回馈社群

我相信知识是用于分享而不是用于存储的。分享得越多,学到的越多。换种方法解释,“你学到一个新概念,然后解释给你的两个朋友听,你对这个概念的记忆可能会更久。“今年,你制定一个计划,利用你的知识和经验帮助数据分析社区的成员。这会帮助那些在数据分析领域苦苦挣扎的人们找到胜利的彼岸。

行动计划:在Discuss 上分享你的知识。

3.探索强化学习(Reinforcement Learning)

强化学习是(Reinforcement Learning)机器学习中最强大的,然而少有人开发的一个分支。今年,在这一领域做些研究。虽然很有挑战性,但值得一试。无人驾驶、间谍无人机就是强化学习的成果。一旦你开始涉足该领域,你就自动进入人工智能领域。

学习课程:完成Andrew Moore的tutorial

4. 进入Kaggle前50名

今年,你必须保持住在Kaggle上的“大师”地位,准确的讲,确保自己在Kaggle排名进入前50。参加适合自己领域的相关竞赛,与其他kagglers组队。参与这个水平的竞赛,你会学习到一些在其他地方学不到的理念。

行动计划:加入Kaggle

追踪你的进程。2016年新年学习计划表 Download

结束语

我理解,这些学习计划对你具有挑战性,但值的一试。根据你当前的情况,自由选择适合自己的学习计划。我只是罗列了有抱负的数据科学家必须要知道的重要知识和技能。

在上周我意识到,人们并没有足够的勇气制定新年计划。这个问题也曾困扰着我。因此,我决定写下这篇文章。我希望,在2016年结束之前,你会完成初级水平的学习(假设你是一个新手)。

这篇文章已经为你制定新年计划扫除了障碍。作为一个有野心的数据科学家,我已经为你提供了“硬骨头”,就等着你去啃下它了。在学习的过程中如果遇到任何困难,请在下面的评论分享你的想法。

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2016-01-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【技术辟谣】Facebook机器人发明语言系误读,专家访谈还原真相

【新智元导读】Facebook AI “发展出人类无法理解的语言” 火了,但这实际上源自一些媒体的误读和炒作。研究计算机是否能(非监督地)独立产生自己的语言本身...

33340
来自专栏PPV课数据科学社区

数据挖掘:层次性和时髦性

在银行做了两年的数据分析和挖掘工作,较少接触互联网的应用场景,因此,一直都在思考一个问题,“互联网和金融,在数据挖掘上,究竟存在什么样的区别”。在对这个问题的摸...

39060
来自专栏CDA数据分析师

收藏 | 新手零基础数据分析入门指南

什么是数据分析? 数据分析是指用适当的统计分析对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。在实用中,数据分析可帮助人...

268100
来自专栏人工智能头条

搜索,大促场景下智能化演进之路

24840
来自专栏AI科技大本营的专栏

观点 | 计算机视觉到底是个什么鬼?

翻译 | AI科技大本营(rgznai100) 参与 | Joe 房间的那一边,一个人冲你扔了一个球,你接住了。看上去特别简单,对吧? 事实上,尝试去全面理解的...

35840
来自专栏CDA数据分析师

吴甘沙:数据分析师进化的3道阶梯

9月11日—9月12日,由经管之家(原人大经济论坛)主办的“2015中国数据分析师行业峰会(CDA?Summit)”在北京举行。 英特尔中国研究院院长兼首席工程...

23470
来自专栏大数据文摘

网络直播被严查,机器如何帮助鉴别小黄图?

25390
来自专栏机器学习原理

2018苏州GTC会议笔记主题演讲可解释性、鲁棒性和公平性:THUIR 个性化推荐研究进展 [CH81402]机器学习的发展和行业应用前景 [CH8502]用 TensorFlow 加速 AI [CH

NVIDIA 创始人兼 CEO 黄仁勋先生关于计算领域之未来的主题演讲。 演讲人:黄仁勋 NVIDIA 创始人兼 CEO 2018/11/21 周三 1...

19040
来自专栏新智元

谷歌 TPU 的强大与局限:TPU/GPU/CPU性能功耗全面对比

【新智元导读】谷歌公布 TPU 论文(被ISCA-17 接收)引发新一轮讨论,连英伟达CEO黄仁勋都亲自撰文回应。使用 TPU 代表了谷歌为其人工智能服务设计专...

88190
来自专栏机器之心

观点 | SwiftKey联合创始人谈智能的基础:创造智能机器也许还需要身体

选自aeon 作者:Ben Medlock 机器之心编译 参与:黄小天、吴攀 本文作者 Ben Medlock 是 SwiftKey 的联合创始人。SwiftK...

355120

扫码关注云+社区

领取腾讯云代金券