[译文]机器学习不是数据科学

对于很多人来说,机器学习就是数据科学。在我这道这两个术语的含义之前,我也简单的认为数据科学只不过是机器学习一个流行的叫法而已。过了一段时间,再次考虑这个问题的时候,我真的很开心,原来这两个词是不同的。我总是想,这样的误解还要持续多长时间—就我目前的工作假设:人们最怕它看起来非常的傻。很害怕问别人:“什么是机器学习?什么是数据科学?两者之间的差别?”。所以,对于这些人们都不敢问的问题,那我就假设你问了这些问题。现在,对于你假设的问题,我也以假设的方式进行解答。好好的读读这篇文章。

机器学习

机器学习是一个方法集,这个集合通过得到一个程序,通过某种度量,如程序员的经验,使之更好的完成任务。亚马逊的推荐引擎就是一个机器学习系统的例子,而这个程序就是推荐引擎,且它的任务就是给你提供一些你可能喜欢买的东西的推荐。我就这么说对你进行购买推荐的数量、你曾经作出推荐的数量,而这个度量通过系统发到你的身边。这个推荐引擎曾看到你看过什么商品,你买过什么商品。机器学习有3个非常不同寻常的领域,而且以下也有很详细的阐述,它们是:监督学习、非监督学习以及强化学习。

监督学习

监督学习是一个找近似函数的过程。其中,它可以根据旧金山前10年的房价来预测下一年的房价,而把它精确计算不太可能。我们负责我们所得到的数据,而这些数据不太可能完美。因此,我们也许不需要完全根据前10年的房价来做一个完美的预测。而以往的房价数据集也只是价格方面的信息,它与地理位置、多少间房、最近厨房的更新等等因素决定的房价数据集不同。所以,下一年的房价很有可能受各种外部因素的影响(比如自然灾害、经济的增长、衰退)。因此,我们很难通过构建模型这种方式来预测未来的房价。感到感激的,是对于使用最多的例子,我们对未来的近似预测和平常我们希望找到的一般近似函数而感到满意。

非监督学习

非监督学习是一个利用数据结果,从而得出“有趣的归纳”的过程。我们假设一下所有的统计学家各在NFL的其中一支队伍里。而且,让我说一下,就是我们想要知道我们对这个队伍有多熟悉,因为我们想我们曾找到这些相似性,我们也许找到的这些与成功的特许经营权(UN)相关的属性。在我们从事这一行之前,我们需要定义我们的熟悉是什么,并通过定义什么样的统计学家是我们想要让他们来衡量其直接的差异(我们多年来打法的经验,多年来教练职教的经验)。我们也需要确认欧式距离也是我们感兴趣的距离之一。我们会运用一些算法从而使一群人基于距离,在一个或多个团队中使用。团队间成员联系越紧密,他们越觉得在团队里找到了归属感;而团队间成员越疏远,他们就越觉得在团队没有归属感。这个群体持续的归纳了NFL的原始数据。现在,这里有个很重要的部分:它现在就根据人们的判断来决定这个获得的群体是否是“有趣的”。

强化学习

强化学习就是从奖赏延误进行学习的过程。这里有一个代理(或者是程序)的概念,而它正朝着某个目标采取行动来实现它。然后,这个代理并不会马上对你的行动进行反馈,而它需要在它的世界实施。我们直到在未来的这些步骤是否是第1、第2、第3步的行动,而这些行动也许是至关重要的或是具有重要意义的,才找到了其答案所在。想一下你在棋局走的每一步棋,要想得到奖赏就必须要赢得这盘棋的胜利。当你和强大的对手交手过很多次以后,你的代理反应就是明白哪些招是败招,而你下一次当然会避免它。一个好的代理会最终学会走比以前更好的棋,从而增加了你和强大的对手竞争的砝码。

尽管我分别的对这几个分区进行描述,要是它们能结合在一起就可以创造出一个强大的系统(比如看一下IBM Watson)。

数据科学

现在,我们说一说数据科学吧。数据科学是一个新的术语,因此也有更多错误的定义。我对数据科学的定义是源自约翰霍普金斯大学的数据科学学院的。数据科学是一个对数据进行获取、转化、分析以及得出结果的过程。如果你是一个渴望知道其线性过程的人,其中可以看以下下面的内容:

线性的数据科学过程

然而,你可能会猜测,这个线性图并不具备真实性。但这种描述也不是完全没有用。这里,实际上,当你在做与数据科学有关的事情的时候,你要对某些步骤进行适当的调整。既然,你对这个错误有了心理准备,那么我们来看看实际是怎样的吧:

真正的数据科学过程

这个结构图包含了这个过程中一些杂乱的部分,使之更为精确。而任何未来的步骤都有可能影响前面的步骤。为了便于讨论,我们会使用线性过程描述。那么我们来过一下这些步骤吧:

数据问题

数据问题就是可以通过引用数据解决的问题。重要的是这样的问题一旦提问了,实际上,你可以通过现有的数据或者在一定时间内用合理的方法获得相关数据来解答这样的问题。你也许会被问到这样的问题,也许是你自己提问的。

原始数据

原始数据就是你之前听到的那样。它用来回答你的问题,但是却以“原始”的方式表示。为了能保证你可以从分析过程中得到你需要的相关结果,你需要把原始数据转化为成具体易读懂的形式。这个把原始数据转化成具体易读懂的形式的过程就是数据清洗。设想一下你要下载一个包含这个国家过去五年来男女生的大学毕业比率的CSV文件,而这个CSV文件里的数据就是原始数据。对于在网站的服务器点击按钮下载原始数据来说,从网页的分布文件系统,或者数据库中进行网页数据抓取和程序性提取数据也是相当常见的。人们不怎么会提起Sneakernet,但是它也是其中一种形式。

具体数据

具体数据就是经过清洗以后进行后续分析的数据。我们继续以之前提到的CSV文件为例,而毕业率可能看起来不像是对你的数据分析有什么特别的作用。因此,它看起来更像是其它类型的信息,诸如你可能对此不感兴趣的个人ID,或者是最后的时间排序。而且,文件里可能含有一些产生误差较大的数据,或者部分数据丢失了(比如毕业率值432)。基于这些原因,你需要把部分不准确的信息进行修正。我还需要告诉你,人们已经花了相当的时间来定义什么是准确的数据,而且这么做是值得的。

数据分析

数据分析就是分析运行的结果。而这一步似乎可以看出每个人对数据科学有什么样的想法,而这也是开始引人注目的地方。通常来说,这里有几种分析的类型。那么,我们意义对其进行阐述。

描述性分析

关于这个词,你会试着明白数据的具体形态。你也许对能否对你的数据的特性进行归纳最感兴趣。想一下最小值、最大值、模、平均数、取值范围等等

探索性分析

对于这个词,你会尝试去寻找目前数据是否存在什么关系。你通常都会创建很多快捷的散点图来决定哪种类似的数据你是想要在下一步进行分析的。想一想直方图、箱图以及x,y坐标图像等等。

评估分析

如果你对基于样本数据容量进行评估感兴趣,那么这种分析正是你想要的。评估分析一般来说都是值得的,因为它涉及到了相关的结论进行评估。想一想统计假设测试和置信区间。

预测分析

如果你的问题是涉及到预测相关事件,你会发现你做的过程的名词就是这个术语。这里,你试着要确认一个最好的属性集,从而能让你对其它的一些事情进行预测。想一想监督学习。

原因分析

如果你想要得出如“事件X产生事件Y这样的结论,你真的需要进行随机实验对照。如果这种情况下对你来说是不可行的,而且你已经对这些数据进行了观察(这是通常案例),你也许会进行准实验设计(但它的准确性实在不敢恭维)。诸如模型分析这样的事情更倾向于在人们同时再考虑随机分析的时候出现。但基本的想法就是,考虑一下随机对照试验。

机器分析

这种分析需要你有一个机器模型(或与它类似)来展示一些可能发生的事情。这种模型并不会因为为了方便统计而使用,但用于具体的科学原因。对于一个用于具体科学原因的模型来说,你随后会致力于基于你目前拥有的数据,准确的决定哪个变量影响了另一个变量。想一想你进行科学性选择模型的统计分析的时候。

数据产品

数据产品就是你怎样理解这个问题的答案。它可以以演讲的形式、项目的形式、博客的形式、学术文章的形式、交互式可视化的形式,又或者是网页/移动终端/个人电脑/后端应用的形式展现。哪个会是你想要和他交流相关结果的人,这会影响你最终会产生怎样的数据类型。

机器学习和数据科学的不同

你把之前的内容都看了一遍,你应该已经知道答案了。机器学习充其量也就是数据科学中的其中一种分析方法。从另一个角度来讲,机器学习并非一定需要数据科学(也许需要统计学!)。如果你恰好在做一个预测性的任务,你也许要用到监督学习。如果你恰好在做描述性/探索性分析,你也许会用到非监督学习。对于强化学习来说,它没有监督学习和非监督学习那样流行,在数据科学领域知道的人就更少了。

原文链接:

https://medium.com/@nwokedi/machine-learning-isn-t-data-science-67cc66867dbc

翻译:品言 审核:陆勤

PPV课原创翻译文章,转载请注明出处和链接!

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2015-11-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

Intel研究院院长吴甘沙:大数据分析师的卓越之道(珍藏版)

素材来自:经管之家(bbs.pinggu.org) 组织“中国数据分析师行业峰会”。

19320
来自专栏新智元

【2017深度学习框架大事记】PyTorch成TensorFlow最大竞争对手,微软、亚马逊、Facebook 合作联盟对抗谷歌

来源:towardsdatascience.com 作者:Indra den Bakker 编译:刘小芹 【新智元导读】2017年,深度学习框架领域出现了许多新...

41160
来自专栏量子位

分享实录 | 第四范式程晓澄:机器学习在推荐系统中的应用

主讲人:程晓澄 | 第四范式资深算法科学家 屈鑫 整理编辑 量子位 出品 | 公众号 QbitAI 9月20日晚,量子位邀请到第四范式资深算法科学家程晓澄,他以...

37450
来自专栏CDA数据分析师

警惕!机器学习入门阶段易犯的5个错误

怎样进入机器学习领域没有定式。我们的学习方式都有些许不同,学习的目标也因人而异。 但一个共同的目标就是要能尽快上手。如果这也是你的目标,那么这篇文章为你列举了程...

18650
来自专栏数据派THU

手把手教你用Kaggle开启机器学习之旅(附资源链接)

本文分析了Kaggle利于数据科学领域新手学习的几点特征,并带你学习ML相关知识。

21920
来自专栏FD的专栏

什么是最小可行性数据产品(MVP)?如何用它做机器学习?

本文作者是一名数据科学家,现在离开了Pivotal公司加入了idealo公司,正在帮助其搭建数据科学团队以及把机器学习整合到公司的产品中。

8520
来自专栏ATYUN订阅号

IBM开发全新的深度学习芯片,旨在极大提高利用率

深度学习领域仍在不断变化,但有些事情已经开始着手解决。特别是专家们认识到,如果芯片使用低精度数学近似得出答案,神经网络可以用很少的能量完成大量的计算。这在移动和...

9030
来自专栏华章科技

Intel研究院院长吴甘沙:大数据分析师的卓越之道(珍藏版)

亲爱的各位同仁,各位同学,早上好。大数据时代数据分析师应该做什么改变?我今天的标题是大数据分析师的卓越之道。这个演讲信息量比较大,我讲的不一定对,即使对的我也不...

9220
来自专栏数据派THU

第四范式程晓澄:机器学习如何优化推荐系统

本文经AI新媒体量子位(公众号ID:qbitai )授权转载,转载请联系出处 本文长度为9532字,建议阅读10分钟 本文为你介绍推荐系统的诞生土壤和早起演进、...

32250
来自专栏人工智能头条

贾扬清:希望Caffe成为深度学习领域的Hadoop

39740

扫码关注云+社区

领取腾讯云代金券