首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[干货] 一个数据科学家的新年计划

[干货] 一个数据科学家的新年计划

作者头像
大数据文摘
发布2018-05-22 11:30:52
4980
发布2018-05-22 11:30:52
举报
文章被收录于专栏:大数据文摘大数据文摘

关于转载授权

大数据文摘作品,欢迎个人转发朋友圈,自媒体、媒体、机构转载务必申请授权,后台留言“机构名称+文章标题+转载”,申请过授权的不必再次申请,只要按约定转载即可,但文末需放置大数据文摘二维码。

选文|孙强 翻译|赵娟 王珏 校对|姚佳玲

简介

新年并非仅仅是更换日历或是清晨起床后揉开双眼。新年是充满喜悦的一个崭新开始。它给我们一个完美的理由养成一个新习惯,它意味着新“希望”的到来。

如果你正在阅读这篇文章,我确信数据科学会让你兴奋!你要在2016年做出改变,难道不是吗?如果你从今天开始致力于实现这些目标,这是完全可能的。你必须明白,成为一个数据科学家需要一个过程,它不是一朝一夕的成功。因此,你必须耐心地朝着目标而努力。

提示:

1. 原文中涉及了大量链接,值得收藏!在大数据文摘后台,回复“计划”,可下载doc文件,获取文中提供的所有链接。

2.这些通用的学习计划是为有抱负的/有经验的数据科学家准备的。该文章可能不适合非数据分析领域的人员。

一个数据科学家的新年计划

我已经将这些学习计划根据数据科学家的三个水平阶段进行了分类。你来决定那个阶段最适合你,并进行实践。当你完成本阶段的学习任务后,便可进入下一个阶段。针对不同的学习主题,我列出了可获取的最好的课程。为了达到最佳效果,我建议你逐一学习这些课程。如果你觉得课程学习困难,请与我讨论,我会给你提供一个备选方案。方便起见,我分享了可供下载的连接。

初级水平

谁是初学者?如果数据分析和数据科学对你来说是一个全新的领域,你不了解这个行业是如何运作的,但是,你满怀好奇的在该领域发展你的事业,那么,你就是个初学者。下面就是你的学习目标:

1.从编程语言开始,无论是R或Python。

我曾看到有学生同时学习R和Python。最终,他们什么都没学会。这种学习方法很糟糕。你必须保证自己深入学习R或Python。这是两个在公司中广泛应用的开源工具。Python是公认的最简单的编程语言。R仍是人们最为喜爱的统计工具。选择权在你。两者都很好。

学习课程:在Codecademy完成Python的学习。在DataCamp完成R的学习。

2.学习统计学和数学

统计学是关于假设和运算的学科。但是,如果你不懂统计和数学,很难在这个行业立足。它是数据科学家的核心竞争力。如果你的数学不好,是时候改变了。习惯使用强大的统计技术、代数和概率学。在可汗学院(Khan Academy)、 Udacity 等平台上有非常棒的统计学课程。装上这些APP,便可马上开始学习。

学习课程:在Udacity上完成 InferentialDescriptive统计学习。在 Khan Academy完成代数的学习。

3.报名参加一个大型开放式网络课程(MOOC)

大型开放式网络课程(简称MOOC)可以自由访问和学习。但是,这是你做出的最难实现的承诺。学生们通常一次性报名参加多个课程,但最终一个也完成不了。因此,你必须专注于一个课程,完成之后,在进入下一个课程的学习。你可以在coursera, edX, Udacity上学习任何课程。

学习课程:在Coursera完成数据科学专业(R)的学习。在Dataquest完成数据科学Python的学习。

4.积极参与行业实践,发现新事物

你需要知道这个行业正在发生哪些变化。我们生活在一个充满活力又瞬息万变的世界。今天还十分盛行的技术明天可能就过时了。你必须与经验丰富的专家交流,结识“未来的自己”。现在就开始行动吧,加入讨论、参加聚会、关注博客、参加团体活动,并阅读专业书籍。你可以在Facebook 上跟进这方面的最新消息。

中等水平

谁是中等水平的数据科学家?如果你已经完成了初级水平的学习,并且已经尝使用机器学习的基础知识,熟练掌握了建立预测模型的知识,那么你已经到达了数据科学家的中级水平。达到这个水平需要巨大的决心和大量的练习。准备好迎接这个挑战了吗?

1. 理解并构建机器学习技能

机器学习是数据科学与技术的未来。所有大公司在雇佣该项技术人才方面投入大量的资金和人力。毫无疑问,当前这种人才的市场需求巨大。对个人而言,也是个不可多得的好机会。今年,你应当在机器学习方面深入拓展。熟练掌握回归分析(Regression)、聚类分析( Clustering)、 CART 算法。打开下面的连接,你可以找到关于机器学习方面的免费学习资源:

学习课程:在Andrew Ng完成机器学习的课程。

2. 专注于Ensemble和Boosting 算法的学习

一旦你对机器学习充满自信,那么转攻下一个模型吧。使用boosting和ensemble算法,可以使得模型的精度远远高于其他算法。上面分享的免费学习资源已经涵盖了这个主题。但是,要让自己更深入的理解这个主题。

学习课程:阅读 Kaggle的Ensembling 指南(Guide)。在MIT Lecture完成Boosting的学习。

3. 探索使用Spark, NoSQL以及其他大数据处理工具

本年,你将开启自己的大数据之旅。鉴于大数据人才需求的蓬勃发展,你必须学会Spark软件。最近它非常流行。大数据的未来依赖于Spark,它被广泛应用于大数据的操作和处理。通过学习Spark,你还可以拓展自己的专业知识到NoSQL , Hadoop上。

学习课程:首先学习Spark.

4. 教育社区同伴

还有什么比知识分享更棒!从今年开始,同那些努力学习数据科学的人分享你的知识。你可以加入活跃的数据科学论坛(forums),帮他们解疑答惑,教会他们有用的技巧和窍门。你也可以举办类似的聚会。

行动指南:追随我们Facebook

5. 参加数据科学竞赛

是时候检验你的学习效果了。今年你必须参一些竞赛,它能帮你认清自己的长处和短板。此外,你会对已掌握的知识更加自信。我希望你能荣登Kaggle Top500排名榜。从现在开始,你的目标是成为the Last Man Standing(点击打开连接,这是一个数据科学领域的竞赛)。

行动指南:加入KaggleData Hack

提示:比赛可能有点儿难。你可以通过查看这些实际问题来检查自己的技能和知识。他们一点儿不难,但非常有趣!

高级水平

我无需定义这类人群。大部分人都非常害怕去尝试数据科学,但他们却十分精通。他们已经过上了轻松惬意的生活,但是,他们热爱挑战。他们是经验丰富的专家。下面是一些学习计划:

1.构建一个深度学习模型(deep learning model)

今年,你要为立志于成为数据科学家的人树立榜样。你必须创建深度学习(deeplearning)的模型。在世界各地,已经有人使用这些模型进行预测了。这是机器学习的高级阶段。其准确性已明显优于一般的机器学习模型。

学习课程:完成Tutorial 的深度学习。

2. 回馈社群

我相信知识是用于分享而不是用于存储的。分享得越多,学到的越多。换种方法解释,“你学到一个新概念,然后解释给你的两个朋友听,你对这个概念的记忆可能会更久。“今年,你制定一个计划,利用你的知识和经验帮助数据分析社区的成员。这会帮助那些在数据分析领域苦苦挣扎的人们找到胜利的彼岸。

行动计划:在Discuss 上分享你的知识。

3.探索强化学习(Reinforcement Learning)

强化学习是(Reinforcement Learning)机器学习中最强大的,然而少有人开发的一个分支。今年,在这一领域做些研究。虽然很有挑战性,但值得一试。无人驾驶、间谍无人机就是强化学习的成果。一旦你开始涉足该领域,你就自动进入人工智能领域。

学习课程:完成Andrew Moore的tutorial

4. 进入Kaggle前50名

今年,你必须保持住在Kaggle上的“大师”地位,准确的讲,确保自己在Kaggle排名进入前50。参加适合自己领域的相关竞赛,与其他kagglers组队。参与这个水平的竞赛,你会学习到一些在其他地方学不到的理念。

行动计划:加入Kaggle

追踪你的进程。2016年新年学习计划表 Download

结束语

我理解,这些学习计划对你具有挑战性,但值的一试。根据你当前的情况,自由选择适合自己的学习计划。我只是罗列了有抱负的数据科学家必须要知道的重要知识和技能。

在上周我意识到,人们并没有足够的勇气制定新年计划。这个问题也曾困扰着我。因此,我决定写下这篇文章。我希望,在2016年结束之前,你会完成初级水平的学习(假设你是一个新手)。

这篇文章已经为你制定新年计划扫除了障碍。作为一个有野心的数据科学家,我已经为你提供了“硬骨头”,就等着你去啃下它了。在学习的过程中如果遇到任何困难,请在下面的评论分享你的想法。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-01-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 简介
  • 一个数据科学家的新年计划
  • 初级水平
    • 1.从编程语言开始,无论是R或Python。
      • 2.学习统计学和数学
        • 3.报名参加一个大型开放式网络课程(MOOC)
          • 4.积极参与行业实践,发现新事物
          • 中等水平
            • 1. 理解并构建机器学习技能
              • 2. 专注于Ensemble和Boosting 算法的学习
                • 3. 探索使用Spark, NoSQL以及其他大数据处理工具
                  • 4. 教育社区同伴
                    • 5. 参加数据科学竞赛
                    • 高级水平
                      • 2. 回馈社群
                        • 3.探索强化学习(Reinforcement Learning)
                          • 4. 进入Kaggle前50名
                          • 结束语
                          相关产品与服务
                          大数据
                          全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
                          领券
                          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档