大数据文摘作品,转载要求见文末
原作者 | David Venturi
编译 | yawei,Arcturus,
Saint,大饼,卫青
视频 | 卫青,海波,陈少伟,郭丽
一年前,我退出了加拿大最好的计算机科学项目之一,利用在线资源开始创建属于自己的数据科学硕士课程。我意识到我可以通过edX, Coursera,以及Udacity学习我所需要的一切,而且学的更快、效率更高,学费更低。
数据可视化:Alanah Ryding
现在我差不多快要完成了。我上了很多数据科学相关的课程,旁听过更多课程的部分内容。我知道对于一个准备成为数据分析师或数据科学家的初学者来说有哪些选择,以及什么样的技能是必需的。几个月前,我开始创建一个用评价驱动的指南,用来为数据科学中的每个主题推荐最佳课程。
如果你不确定数据科学课程入门涵盖什么,这篇文章将向你介绍。
为了制作这份指南,我花了10多个小时设法识别了截止2017年1月所有的数据科学的线上入门课程,从它们的大纲和评价中提取关键信息,并为它们编制评级。除了开源的Class Central 社区和它数以千计的课程评分及评论的数据库,我没有借助其他任何帮助。
Class Central的主页
自2011年以来,Class Central的创始人Dhawal Shah无疑比世界上的任何其他人都关注在线课程。他亲自帮我列出了这份资源清单。
如何挑选入围课程
每门课程必须满足三个标准:
我们确信这个指南已经涵盖了满足以上三个标准的所有重要课程。Udemy上有上百种课程,因此我们只选择那些评论最多和评分最高的课程。然而,我们仍然有可能百密一疏。所以如果我们漏掉了哪个不错的课程,请在评论区里告知。
我们如何评估课程
我们汇总从Class Central和其他评论网站得来的平均评级和评论数量,来计算每门课程的加权平均评分。同时我们阅读文本评论,并将其作为数据评分的补充。
我们基于以下两点对教学大纲进行主观判断:
Python和R语言是数据科学领域最主流的两种编程语言
数据科学过程(data science process)是什么?
数据科学是什么?数据科学家做些什么?这是数据科学入门课程需要回答的基本问题。下面这张来自哈佛大学教授Joe Blitzstein和Hanspeter Pfister的示意图,概述了典型的数据科学过程,可以帮助我们回答这些问题。
可视化来自于Opera Solutions
我们对于数据科学入门课程的目标是熟悉数据科学过程,并不想对过程的某个方面涉入过深,这也是为什么标题使用了“入门”字眼的原因。
对于每一方面,理想的课程都会在过程的框架内解释关键概念,介绍常用工具,并提供一些案例(动手操作会更好)。
我们只搜集入门课程,因此这份指南并不包括像约翰霍普金斯大学在Coursera的Data Science Specialization或是Udacity上的Data Analyst Nanodegree这样的专项课程或项目。这些课程的汇编与这份指南的目的相悖:为数据科学教育寻求每个方面最好的单独课程。本系列文章的最后三份指南,将详细介绍数据科学过程中的每个方面。
基本的编程、统计和概率背景是必须的
下面列出来的一些课程需要基础的编程、统计和概率背景。这个要求很容易理解,因为新的内容为进阶阶段,而且这些主题经常要用到这些背景知识。
这些背景知识可以在这份我们推荐的数据科学就业指南的前两章(编程,统计)中获得。
我们认为最好的数据科学入门课程是——
在我们评估的20多门数据科学课程中,Kirill Eremenko在Udemy上的“数据科学从A到Z”不管从广度还是深度上来说都是当之无愧的赢家。它拥有3071条评论,4.5星的加权平均评分,是评分最高、评论最多的入围课程。
它概述了完整的数据科学过程,并提供了真实案例。视频内容为21小时,长度刚好。评论者们喜欢导师的讲解方式和内容组织方式。价格经常会跟着Udemy的优惠而变化,因此你也有可能以10美金的低价购买到该课程。
虽然它并不满足我们“使用通用数据科学工具”的评估原则,但是非Python/R工具的应用(gretl, Tableau, Excel)也都算恰如其分。Eremenko在解释他为什么用gretl(一种统计软件包)时说了以下这段话,这个解释也适用于他所使用的其他工具(敲黑板划重点!):
使用gretl,我们可以像在R和Python中一样建模,但却不必编程。这很重要。你们中的一些人可能已经很熟悉R语言,但还有一些人可能不。而我的目标是向你们展示如何建立稳定的模型,并且给你一个可以应用于任何工具的框架。gretl能够帮助我们避免于纠结编程。
一个著名的评论者是这样写的:
Kirill是我在线上发现的最好的老师。他通过生活中的案例向你解释一些常见问题,这样你就能对课程作业有更深的理解。他还提供了很多关于作为一个数据科学家意味着什么的洞见,从如何处理不充分的数据到向高级管理层汇报工作等。我强烈建议初级和中级数据分析师们学习这门课程。
“数据科学从A到Z”预览视频
专注于Python的精品入门课程
Udacity的数据分析入门(Intro to Data Analysis)是门新上线的课程,是受欢迎的Data Analyst Nanodegree系列中的一部分。虽然在建模方面有所欠缺,它仍然清晰地涵盖了使用Python的数据科学过程。预估课程时间是36个小时(跨度六周,每周六小时),尽管以我个人经验看会更短。它仅有1个5星好评(译者安:现在有两个),并且免费。
该课程的视频制作精良,导师(CarolineBuckey)思维清晰、风度翩翩,有大量的编程小测验可以强化人们在视频中学到的概念和知识。课程完成后,学生们会为他们新学和/或提高的NumPy和 Pandas(这两个都是流行的Python库)技能感到自信。最后的作业(在这个单独的免费课程中没有,但是会在Nanodegree中得到评分和评估)是一个很好的额外补充。
Udacity导师Caroline Buckey
概述了数据分析过程(也叫数据科学过程)
一门很不错却没有评价数据的课程
数据科学基础是由IBM的大数据大学(Big Data University)提供的有四门课的系列课程。这四门课分别是数据科学101、数据科学方法论、使用开源工具开始学习数据科学,以及R语言 101。
它涵盖了整个数据科学过程,并介绍了Python、R以及其他开源工具。课程的实用价值惊人。估计需要13-18小时学习时间,具体取决于你是否参加最后一门“R 101”。当然,从这份指南的目的来说,这门课也不是必须。不幸的是,我们用于这次分析的主要评论网站上竟然一个评价都没有,因此我们无法基于评论做出评价,不过这个课程是免费的。
来自大数据大学(Big Data University)
数据科学101课程(数据科学基础系列课程)
第一模块的视频
第一名是加权评分4.5星评论超过3068条的课程。下面我们按评分降序排列来看看其他值得一学的课程。如果你对R语言感兴趣,你还能在下面找到重点教授R语言的课程。
Jose Portilla在Udemy上
设置了两个分别使用Python
和R的数据科学与机器学习的训练营
V2 Maestros的数据科学应用课程
有两个版本,一个使用Python,一个使用R。
上面两个课程来自于微软的
在edX上的“数据科学专业认证”
密歇根大学在Coursera上教授
“专注Python的应用数据科学”
下列课程截至2017年1月没有任何评论。
图片来源于Harvard CS109的首页
结语
本文是六部曲系列的第三篇文章,涵盖了引领你进入数据科学领域的最好的在线课程。我们已经在第一篇文章中涵盖了编程,第二篇中涵盖了统计学和概率论。该系列的剩下部分将涵盖数据科学的其他核心部分:数据可视化和机器学习。
?戳阅读原文填写问卷,获取福利
来源:https://medium.freecodecamp.com/i-ranked-all-the-best-data-science-intro-courses-based-on-thousands-of-data-points-db5dc7e3eb8e
本文仅代表原作者观点
大数据文摘和文中涉及的
所有课程均无利益关系