给想要学习数据科学的人的7个资源

有时你需要知道的是如何开始。

数据科学是通过与计算机,数学,人员和企业合作获得的多种技能和经验的自然结果。有些人会从多年的多次经历中自然地发展出这些技能......但是,如果有捷径呢?

我决定将我认为的前七大资源编译为我个人数据科学之旅的基本步骤。以下资源是为了产生处理数据和所涉及的科学所需的兴趣和直觉。

写在前面

“数据科学”中的关键词不是数据,而是科学 - 杰夫·莱克

约翰霍普金斯大学彭博公共卫生学院教授Jeff Leek在5年前写道:“数据科学中的关键词不是'数据',是'科学'。仅在使用数据回答问题时数据科学才有用。这是等式的科学部分。这种数据科学观点的问题在于它比关注数据大小或工具的观点要困难得多。计算数据集的大小要容易得多,并且说“我的数据比你的大”,或者说“我可以在Hadoop中编码,你能吗?” 而不是说'我有这个非常难的问题,我可以用我的数据回答吗?'。“

数据科学已经上了年头了。John Graunt在它还是很新的概念时就接触它了。正是在十五世纪的小冰河时代,他利用概率模型开发了人口统计学的第一部作品。到1960年,该主题已经非常成熟并被称为数据但仅在2012年哈佛商业评论发表文章“ 数据科学家:21世纪最性感的工作”“这个词 - 以及工作 - 越来越受欢迎。在此之后仅两年,就可以获得关于该主题的大量在线课程。谷歌趋势显示了一些有趣的东西:尽管自2004年以来“统计学家”一词呈下降趋势,但“数据科学家”这一术语在HBR的文章之后有了更强烈的积极变动,并且当在线课程的提供增加时,它得到了提升。

考虑到这一点,我需要说清楚:数据科学家不是统计学家,他们不会取代统计学家(反之亦然),但对统计学和数学的真正兴趣是实现正确数据科学的关键。我自己不是统计学家,但下面的第一个资源让我喜欢这个主题。

还请观察下面的资源如何更多地关注“好奇心”和“理解”而不是“应用”。

7种资源的名单

简而言之,7种资源是:

  1. The Drunkard’s Walk,Leonard Mlodinow的书
  2. Machine Learning Course,由斯坦福大学出版,由Andrew Ng博士教授
  3. Introduction to Mathematical Thinking,由斯坦福大学出版,Keith Devlin博士教授
  4. Coding
  5. A prejudice-free review on Maths
  6. People
  7. Reading about Heterodox and Orthodox Economics

该清单既不是按时间顺序也不是重要顺序。很多资源你可能同时用到,第4至7项几乎肯定会成为您作为数据科学家永远的日常工作的一部分

详细介绍

The Drunkard’s Walk

许多年前(2009年?)当我把这本书作为秘密圣诞老人的礼物时,我并没有留下深刻的印象,但事实证明这是我一直以来的最爱之一。

根据亚马逊的产品描述,Drunkard's Walk是关于了解随机性对我们生活的影响,并“揭示妨碍我们理解从采摘到品酒的一切的心理幻想”。

它让我意识到一个人很容易成为偶然事件的受害者,并理解为什么解释导致事件发生的所有因素比预测何时 - 或者是否 - 类似事件将再次发生更为简单。

从分析的角度来看,本书展示了预测模型的重要性,并展示了统计分析背后的历史,同时也展示了如何使用数据来回答难题,以及其中一些问题将如何得不到解决。我记得这是我第一次接触“数据科学”。

Machine Learning

在斯坦福大学的Coursera上能找到,这是许多机器学习的入门。起码在我看来,是我的入门。

它首先为您提供线性代数关键概念的修订,并教您基本的Matlab(或Octave)编程。只有这样,才能呈现出具有一个变量的回归的第一个概念。进一步的课程将引导您完成有趣的部分,如主成分分析和神经网络,但如果你认真学习它与适当的评论,测验和掌握课程之外的概念,这肯定会培养你的直觉,并教你关键人工制品和机器学习中使用的数学。

Introduction to Mathematical Thinking

我在2008年在大学读了一些离散数学,我喜欢它!即便如此,我决定使用斯坦福大学通过Coursera提供的这门课程来回顾核心概念并提高技能。该课程涵盖了我在第一学期所看到的部分内容,它增强了我的分析思维能力。它很容易成为很多人的新范例,因为课程中提出的数学思维与普通的推理过程有很大的不同,特别是普通的书面语言。此外,最后几节可能会在数学证明方面变得相当具有挑战性。不可避免地,它会让你感觉学习一门新的口语。

您不会介意学习这种“新语言”,因为批判性思维对数据科学至关重要。本课程的一个重要的附加(或无关紧要的替代)是掌握常见谬误的概念,在探索性数据分析期间避免或检测它们或从数据中获取洞察力。

逻辑谬误的主要清单 utminers.utep.edu/omwilliamson/emgl1311utminers.utep.edu

在开始这些课程后的最初几周,将自己锁在房子里吧,因为兴奋会让你批评你听到和阅读的很多东西。记住目标:数据科学!

Coding

首先,无论您的职业选择如何,您都应该学习如何编码。它在许多领域都很有用,可以让您的生活更方便,更有趣!

确实,由于AlteryxAzure StudioDataikuH2O.aiKnime等大幅削减编码工作的平台,我们可能不再需要任何编码来进行预测或群集的简单数据科学例程。然而,编码和通用框架方面的专业知识仍将(并且很长一段时间)成为居住在信心,生产力和精确领域的重要资产,特别是在处理荒谬的数据量或机器学习的实时应用时。

一开始你的典型问题是“如何将这个csv读入数据框?如何进行简单的可视化?如何将所有分类值转换为数字?我如何处理这个多索引数据集呢?“那么在某些时候你会发展成” 在这里使用循环是否可以或者是否有实现这一目标的矢量化方法?如何让我的算法在计算能力上变得更简单,更便宜呢?“

幸运的是,您有很多选择来处理这些问题和挑战:更有经验的人,Stack Overflow和Quora等等。

根据编程语言,我推荐Python入门,因为它易于学习,在数据科学家中很受欢迎,并且拥有大量的库,如Pandas,Numpy和Matplotlib,用于处理数据准备,争论和可视化以及Tensorflow等框架。在众多特权中,您可以轻松利用GPU处理。

另一个常见的路径是通过R(编程语言)。是的,您可能需要更长的时间才能使用Python进入“数据科学”,而R将引导您进入统计建模而不需要使用。另一方面,Python将使您更好地理解除数据科学以外的常用编程原理以及其他编程语言(如C ++或Java)。无论你选择哪一种,你都没事。

你可以在Udemy上查看本课程。我没有这样做,但大约6美元的价格和内容让它看起来很厉害的样子:

The Data Science Course 2018: Complete Data Science Bootcamp

另一个很好的资源是Gareth James的An Introduction to Statistical Learning with Applications in R 。该书在链接中公开,并涵盖了R编程的统计概念。如果线性代数让你害怕,它将是一个挑战(你将在第10页面对它)。无论你做出什么选择,你都需要......

.....A prejudice-free review on Maths

我一直很喜欢数学,但在高中时我并不擅长。我在大学里做得非常好,经历了很多努力,但只是在2013年 - 当我决定在未来某个时候攻读硕士学位时或多或少 - 我已经认识到有多少基本概念生锈了微弱。因为我认真考虑进入硕士学位,所以我决定学习GRE和GMAT,因为我对数学一无所知,所以我可以回到基础知识而不会感觉不好。有趣的部分:我开始观看减法和为孩子们添加的视频。

几个月后,我转向了数据科学和机器学习的基石:先进的线性代数和微积分。虽然成为数据科学家并不需要它,但理解主成分分析实际上在做什么是非常有用的。理解数据科学背后的数学可以在你的讲故事过程中为你提供很多帮助。

尽管价格昂贵,曼哈顿准备在线课程和书籍在我重新遇到数学时至关重要。现在我发现理解机器学习,统计和财务分析要容易得多。坚实的基础肯定会让您更快,更自然地接受新概念,在生产力和自尊中发挥关键作用。

请在以下资源中查看

GRE Just Math | Manhattan Prep

Manhattan Prep GRE Set of 8 Strategy Guides, 4th Edition : Manhattan Prep : 9781937707910

除非你正在研究或者想要自己实现算法,否则我会说更先进的线性代数和微积分不是强制性的,但它对我来说是一种快速获取关键概念的方法,特别是在统计建模中。

People

数据科学可能要求您坐下来,键入似乎无穷无尽的代码行,并在任何有见地的输出之前进行数周或数月的特征工程。如果不能解释至少在高层次理解中所做的事情,以及为什么这样做,就无法充分享受它的美。最重要的是,您首先需要明确定义您要解决的问题。

假设您是一名在电子商务公司工作的数据科学家,他向您介绍了“欺诈性信用卡交易的突然增加”。你仍然不知道这个问题,虽然你可能已经知道了一些方法。一个新手的错误就是直接进入分类或聚类模型只是因为“欺诈”这个词引起了你的注意......探索性数据分析可以在一开始就帮助你,但关键问题仍然没有答案:分析什么,从哪里开始从什么是最终目标以及如何衡量工作的影响。您最终可能会发现原始问题实际上是最新网站版本中的一个错误,您不需要花哨的数据科学来解决这个问题。

事实上,设计思维是一个众所周知的与人打交道的附加组件。特别是对于一般的沟通,讲故事,问题定义和产品开发。尽管与数据科学没有直接关系,但其原则对于数据科学家来说非常有用,他们致力于提供需要每天与人交互的“数据产品”。

显然,经验越丰富的人在特定领域,通过支持数据和提出解决方案来提高生产率或效率,就越容易准备,建模和可视化问题。不可避免的是,即使是最资深的数据科学家也不得不与人们谈论他们所面临的新挑战。

A Virtual Crash Course in Design Thinking

从经验丰富的人(无论是技术领域还是业务领域)中汲取创意是非常有用的,并且在很多情况下都是一个很大的捷径。您还可以与来自各个角落的人们会面,分享经验,参加黑客马拉松和聚会,因为世界上大多数主要城市都会举办此类活动。关键的想法是沟通,学习和分享,绝对没有被孤立的借口。

Heterodox and Orthodox Economics

如果您处理消费者数据,此资源特别有用,但如果您正在处理数据中心监控,药品,金融取证,生物医学数据或工厂中的传感器,则此资源不太相关。请记住,这篇文章是基于我的经验,但这里的关键点是从特定领域获取知识。

用最简单的方法我可以说:正统经济学关注用一堆主流模型解释过去,现在和未来事件,而异端经济学则增加了生活在社会中的个体的互动,往往将主观性带入等式。

以巴西的汽车价格为例。虽然这个国家确实在努力应对高昂的生产成本,荒谬的税收以及大约12%的铺设道路,汽车制造商仍然有很高的利润率。此外,人们在购买汽车时会倾向于与上层或额外人员调情,有时会以高昂的利率将分期付款分成72期。有许多与此相关的客观和主观原因:公共交通质量的相对感知,拥有一辆好车作为地位的标志,人们希望在交通繁忙的车内感觉良好......这些变量可以由正统经济学家估计,但是不是直截了当地表达,因为每个人都会有不同的价值观。挑战在于定义一个产品和价格,其中买方和利润的数量最大化,因此了解文化群体最重视的价值与宏观经济因素如何影响他们的看法可以为您的分析提供进一步的优势。个性化,数据科学的一个关键主题。顺便说一下,根据上面的例子,即使利率也来自主观因素,例如借款人和贷方的时间偏好。

在处理全球业务时,了解经济学至关重要。了解主流指标(如GDP或盈余)无法完全解决宏观经济动态,这自然会促使您寻求替代性但引人注目的解释。

由于我对金融危机的好奇心,我在2008年左右开始研究这些主题,但直到2012年我才接触到这些资源:

Winning At Innovation: The A-to-F Model

Winning At Innovation: The A-to-F Model

Journals

Demand: Creating What People Love Before They Know They Want It

这一切是如何结合在一起的?

现在假设您通过订阅为一家主要的宠物产品提供商负责CRM和内容管理的代理商工作。

通过您对业务和人员动态的理解,您编写了一个程序,其中包含一个算法,能够对哪些客户容易流失进行分类,并确定根本原因与多种因素相关,包括“背景有多大呼叫中心的噪音“随着”丑陋的狗的内容越来越多“正在该公司的应用程序中发布。

您还意识到,“呼叫中心响度”和“狗丑”并不是独立考虑时流失的主要原因。您已经向首席战略官介绍了使用Seaborn在Python中构建的图表,并允许他们使用数据,以便他们可以使用数据可视化工具。你已经成功地向组织的关键领导解释了结论是如何组成的,比如一个管弦乐队的大师,但是你对数学和统计建模而不是指挥棒进行了充分的理解。你有信心,你的论点是有道理的,这会导致领导层的支持,因为你现在正在创造一个繁荣的环境来讨论真正的问题而没有谬论。

CRM将解决客户流失客户的案例,现在内容管理人员将开始发布更多关于美洲驼的信息,这增加了假期季节的附加销售额,因为大多数客户都位于一个经常前往秘鲁的城市。

最后,您还使用在GPU上运行Tensorflow的密集神经网络来训练这种流失预测算法,以应对数十亿条记录和功能。它的部署方式是,应用程序,网站,实体店和呼叫中心内的所有客户交互都可以立即进行评估,从而使系统能够理解模式并在检测到高流失可能性时通知您。

听起来很疯狂,但这就是数据科学的重点:将问题转化为答案,将挑战转化为重大机遇(在很多情况下,需要几个月甚至几年!)

总结

当然,您接触新信息的速度将超过您吸收它们的能力。我仍然在学习很多我不完全理解的事情。确实,我的学位和专业经验帮助我几乎自然地进入这个领域,但上面的资源是与学位无关的,我可以肯定地说,几乎每个职业都有可以在数据科学中使用的可转移技能。

选择某个地方开始可能是令人生畏的,特别是有这么多可用信息,但我希望经验可以帮助您找到一些资源来开始。

展望

我对数据科学有很多乐趣,我相信那些喜欢多学科领域和不断学习的人也会有。如今,我仍然依赖上面的一些资源来保持自己的前进。尽管如此,我还是非常重视听取人们的经历。

确实,围绕它的炒作和嗡嗡声可以让很多人感到沮丧,并且会出现很多神话 - 而且过于简单化 - 但无论你是开始还是只是路过,我希望这些资源对你有用。

原文标题《7 Resources for Those Wanting to Learn Data Science》

作者:Bruno Trentini

译者:February

不代表云加社区观点,更多详情请查看原文链接

原文链接:https://towardsdatascience.com/7-resources-for-those-wanting-to-learn-data-science-a89e25d1b55e

原文作者:Bruno Trentini

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

【经验】如何发现销售报告中有错误的数据

你是否有这种经历:开会的时候,一屋子人正在热火朝天的讨论着一项计划,突然听见有人大叫一声“不对,这个数字是错误的”!大家一看果然有个数字是有问题的。于是有人开...

3638
来自专栏大数据文摘

物理学家看人工智能:懂了你就不怕了

70814
来自专栏VRPinea

干货丨从VR运动机制中的科学原理,看VR体验晕动症

39312
来自专栏PPV课数据科学社区

吴喜之:数据分析和数据挖掘是最大的求职法宝

前语 本文是中国人民大学教授吴喜之在“2015中国数据分析师行业峰会(CDA•Summit)”上的演讲全文,演讲的主题是“如何成为一名数据科学家”。 ? 吴喜之...

3696
来自专栏数据科学与人工智能

【数据科学】什么是数据科学家与数据科学

仅仅在几年前,数据科学家还不是一个正式确定的职业,然而一眨眼的工夫,这个职业就已经被誉为“今后十年IT行业最重要的人才”了。 一、数据科学家的起源 “数据科学”...

2906
来自专栏PPV课数据科学社区

给外行能看懂的科普:这就叫自然语言处理

前几年曾经马少平老师的引荐,为某科普图书写过一篇短文介绍自然语言处理。如果只是介绍NLP的概念、任务和挑战,应该可以参考这篇小文。原文如下,仅供参考。 自然语言...

3496
来自专栏CDA数据分析师

吴喜之:数据分析和数据挖掘是最大的求职法宝

上午嘉宾的讲课,讲的东西大部分是给管理阶层和领导阶层说的。我是讲给学生,给年轻人听的。如果你管理阶层再好,你找不到人也什么也没有,而对于每个人来说最重要的就是把...

2319
来自专栏人工智能头条

合肥工业大学吴信东:大数据Processing Framework多层架构

1564
来自专栏数据科学与人工智能

【数据科学】数据科学家与数据科学

仅仅在几年前,数据科学家还不是一个正式确定的职业,然而一眨眼的工夫,这个职业就已经被誉为“今后十年IT行业最重要的人才”了。 一、数据科学家的起源 "数据科...

2519
来自专栏数据科学与人工智能

【数据科学家】如何成为一名数据科学家?

一、数据科学家的起源 “数据科学”(DataScience)起初叫”datalogy “。最初在1966年由Peter Naur提出,用来代替”计算机科学”(丹...

2526

扫码关注云+社区

领取腾讯云代金券