一文读懂数据科学、机器学习和AI的区别

当我跟别人介绍自己是一名数据科学家时,别人总会问我“数据科学与机器学习之间有什么区别?”或者“那你从事的工作一定是跟人工智能有关吧?”关于这些问题我已经回答过了无数次了,每次解释的答案都是基于我自己总结的“三原则”:

相同的代码如果写了3次,那最好把它写成函数 当相同的建议跟别人说了3次,那最好把这些建议写成一篇博客 — David Robinson(@drob)2017年11月9日

这几个领域之间的确存在着很多重叠的地方,但是其实它们之间并不是可互换的:这些领域的大多数专业人士对如何将特定的工作分类为数据科学、机器学习还是分类为人工智能,都有一种直观的见解,即使这种见解很难用语言表达。

所以在这篇文章里面,我将对三个领域之间的差异性做一个简短的定义,该定义如下:

  • 数据科学负责见解
  • 机器学习负责预测
  • 人工智能负责行为

需要清楚的是,这三者之间的限定并不是那么绝对:并不是所有符合每个定义的东西都只属于这个领域。(就像算命先生在做预测,但是他们并不是机器学习!)当然,这些差异也不是确定某个人角色或职位的好方法(“我是数据科学家吗?”),这是跟经验相关的。

但是我认为这个定义是区分这三种工作的有效方法,并且如果谈论三者之间的区别的时候,这个回答听起来也不会很傻。值得注意的是,我使用的是描述性的方法而不是说明性的方法:我对这些术语“应该是什么”并不感兴趣,而是对该领域的人们通常如何使用它们感兴趣。

数据科学负责见解

数据科学与其他两个领域不同,因为它的目标跟人类的目标尤其接近:获得洞察力和理解力。Jeff Leek对数据科学所能达到的见解类型有一个很好的定义,包括描述性,探索性和因果关系。

同样,并不是所有产生见解的东西都有资格成为数据科学(数据科学的经典定义是它包含了统计、软件工程和领域专家的结合)。但是我们可以用这个定义把数据科学同机器学习和人工智能区别出来。它们之间的主要区别在于,在数据科学中,总是有一个人在循环当中:某人理解这个观点,看到数字,或者从结论中获益。说“下棋算法使用数据科学来选择下一步行动”,或者“谷歌地图使用数据科学来推荐驾驶方向”都是毫无意义的。

因此,数据科学的定义强调:

  • 统计推断
  • 数据可视化
  • 实验设计
  • 领域知识
  • 沟通

数据科学家可能使用一些简单的工具:可以报告百分比,并根据SQL查询绘制线形图。还可以使用非常复杂的方法:可能与分布数据商店合作,分析数以万亿计的记录,开发前沿的统计技术,建立交互式可视化。不管使用什么,目的是为了更好地理解数据。

机器学习负责预测

我认为机器学习是一个预测领域:“给定实例X具有特定的特征然后进行预测”。这些预测可能是关于未来的(“预测这个病人是否会进入脓毒症”),但也可能是对于计算机来说并不是很轻易就识别出来的一些特质(“预测这个图像是否有鸟在里面”)。几乎所有的Kaggle竞赛都认为是机器学习的问题:提供一些训练数据,然后看看竞争对手能否对新的例子做出准确的预测。

数据科学和机器学习之间有很多重叠。例如,可以使用逻辑回归得出见解的关系(“富裕的用户更有可能会买我们的产品,所以我们应该改变我们的营销策略”),从而进行预测(“该用户有53%机会购买我们的产品,所以应该把产品推荐给他们”)。

像随机森林这种模型可解释性稍差,更适合“机器学习”的描述,而深度学习等方法则难以解释。如果你的目标是获取真知灼见,而不是做出预测,这可能会妨碍你。因此,我们可以假设有一个数据科学和机器学习的“光谱”,更倾向于数据科学的可解释模型和机器学习方面更多的“黑匣子”模型。

大多数的实践者会在两个任务之间来回切换非常轻松。在我的工作中使用了机器学习和数据科学:我可以在Stack Overflow上安装一个模型,以确定哪些用户可能正在寻找工作(机器学习),然后构建总结和可视化来检验模型的工作原理(数据科学)。 这是发现模型中的缺陷,并与算法偏见作斗争的重要途径。这是数据科学家经常负责开发产品的机器学习组件的原因之一。

人工智能负责行为

人工智能是这三个名称当中迄今为止最古老以及最广为人知的,因此它的定义也是最具有挑战性的。感谢那些寻求金钱或关注的研究人员、记者和初创公司,使得人工智能这一术语被大量的传播和营销。

当你筹集资金的时候,这属于人工智能。 当你在招聘时,这属于机器学习。 当你执行时,这属于线性回归。 调试时,这属于printf() — Baron Schwartz (@xaprb) 2017年11月15日

在“人工智能”的所有定义中,有一个共同点就是自主代理人执行或推荐操作(例如Poole, Mackworth和Goebel 1998, Russell和Norvig 2003)。一些我认为应该描述为AI的系统包括:

  • 游戏算法(Deep Blue,AlphaGo)
  • 机器人技术与控制理论(运动规划,行走两足机器人)
  • 优化(谷歌地图选择路线)
  • 自然语言处理(bots)
  • 强化学习

同样,我们可以看到很多与其他领域的重叠。深度学习既属于机器学习范畴,又属于AI领域,这是非常有趣的。典型的用例是对数据进行训练,然后生成预测,在像AlphaGo这样的博弈算法中已经取得了巨大的成功。

但也有区别。如果我分析一些销售数据并发现特定行业的客户比其他行业的客户更新更多,那么输出是一些数字和图形,而不是特定的操作。(高管们可能会用这些结论来调整销售策略,但这种做法并不是自动的)。

人工智能和机器学习之间的区别更加微妙,历史上的机器学习经常被认为是人工智能的一个分支(特别是计算机视觉,这是一个典型的人工智能问题)。但我认为,机器学习领域很大程度上已经从人工智能独立出来了,部分原因是上面描述的反弹案例:大多数从事预测问题的人不喜欢把自己描述为人工智能研究人员。

根据今天的定义,y=mx+b是一个人工智能机器人,它可以告诉你一条线的去向。 — 艾米Hoy✨(@amyhoy)3月29日,2017年

案例研究:三项技术如何一起使用?

假设正在建造一辆无人驾驶车,现在卡在了停车标志这个具体问题上面。我们需要用到这三个领域之间的相关技术。

  • 机器学习:汽车必须通过摄像头识别停车标志。我们构建了数以百万计的街边物体照片数据集,并训练算法来预测哪些街边是有停车标志。
  • 人工智能:一旦汽车能够识别停车标志,它就需要决定何时采取刹车动作。我们需要它能够根据不同的路况进行判断(例如,在湿滑的路面上要能知道不能刹车刹的太快),太早或太晚都是有危险的,这属于控制理论的范畴。
  • 数据科学:街头测试的结果证明这辆车的性能还不够好,在某些场景下面,它可能沿着停车标志额右边行驶,但是这种情况漏报了。在分析了街道测试数据之后,我们得到了结论,漏报场景的概念根据一天当中不同的时间段有关:在日出之前或日落之后,更有可能错过一个停车标志。我们发现了大部分的数据集里面的数据只包含了白天的物体,因此又构造了一个更好的数据集,它包括了夜间图像,然后重新回到机器学习步骤。

原文发布于微信公众号 - CSDN技术头条(CSDN_Tech)

原文发表时间:2018-01-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

数据挖掘工程师的面试问题与答题思路

机器学习、大数据相关岗位根据业务的不同,岗位职责大概分为: 1、平台搭建类   数据计算平台搭建,基础算法实现,当然,要求支持大样本量、高维度数据,所以可能还...

3103
来自专栏专知

2017年深度学习总结:文本和语音应用

【导读】近日,大数据科学家Volodymyr Fedak发布一篇博客,总结了2017年深度学习的发展:深度学习在文本和语音领域的应用。深度学习从发展伊始就在图像...

3744
来自专栏机器学习算法与Python学习

【爆】机器学习与大数据面试问题与答题思路

机器学习、大数据相关岗位根据业务的不同,岗位职责大概分为: 1、平台搭建类  数据计算平台搭建,基础算法实现,当然,要求支持大样本量、高维度数据,所以可能还...

4226
来自专栏机器学习算法与Python学习

机器学习类面试问题与思路总结,你需要吗?

机器学习、大数据相关岗位根据业务的不同,岗位职责大概分为: 1、平台搭建类  数据计算平台搭建,基础算法实现,当然,要求支持大样本量、高维度数据,所以可能还...

1150
来自专栏机器之心

专访 | 阿里搜索事业部研究员徐盈辉:剖析阿里背后的强化学习技术

机器之心原创 作者:杜雪 2013 年,DeepMind 在 NIPS 大会上发表的一篇深度强化学习的文章,一举惊艳了学术界。2016 年 1 月,Alpha...

54211
来自专栏祝威廉

从内容/用户画像到如何做算法研发

中午和一前同事一起用餐,发现还是有很多碰撞点的。交流了很多正在做的事情, 对方也提供了非常多的思想值得自己很好的思考。

1413
来自专栏大数据挖掘DT机器学习

数据挖掘工程师的面试问题与答题思路

机器学习、大数据相关岗位根据业务的不同,岗位职责大概分为: 1、平台搭建类   数据计算平台搭建,基础算法实现,当然,要求支持大样本量、高维度数据,所以可能...

5618
来自专栏新智元

TensorFlow 工程总监 Quora 问答:深度学习系统瓶颈及用户痛点

【新智元导读】TensorFlow 工程总监Rajat Monga9月29日在Quora 上答疑,就深度学习效率瓶颈、TensorFlow 用户的痛点、如何用T...

41811
来自专栏AI科技大本营的专栏

AI 技术讲座精选:深度学习将彻底改变人们与技术交互的方式

【AI100 导读】在最近的六年当中,深度学习技术使得机器在物理世界的认知能力方面取得了巨大的进步。这只是一个开始。在未来几年,创业公司和一般的大型科技巨头都会...

4059
来自专栏AI科技大本营的专栏

​产品经理如何学机器学习——一篇以产品为中心的机器学习概论

我现在常常听说产品负责人/经理、技术经理和设计师通过网上课程学习机器学习。我一直鼓励这种做法——实际上,我本人曾学习过那些课程(并且在博客上发表了相关内容)。 ...

4168

扫码关注云+社区

领取腾讯云代金券