论当下机器学习的根本局限 | 一个万能算法会让工程师都失业吗?

2016年10月18日, 世界人工智能大会技术分论坛,特设“新智元智库院长圆桌会议”,重量级研究院院长 7 剑下天山,汇集了中国人工智能产学研三界最豪华院长阵容:美团技术学院院长刘江担任主持人,微软亚洲研究院常务副院长芮勇、360人工智能研究院院长颜水成、北京理工大学计算机学院副院长黄华、联想集团副总裁黄莹、Intel 中国研究院院长宋继强、新华网融媒体未来研究院院长杨溟联袂出席。

【新智元导读】机器学习当下的根本局限在于没有通用性,也没有自主性。在接下来的几年中,我们也许依然需要教机器去学习我们希望它掌握的内容,但是,世界上诸多机构和研究者也在为实现通用的、自主的人工智能而努力。

几个月前,我姑姑给她的同事们发了一封email,标题是:“数学问题!答案是什么?”内容是一个看似简单的问题:

姑姑和她同事们得出了不同的答案——姑姑觉得显然是她的解答有道理,她的同事却认为她们的答案才对。两种答案里有一个是错的吗?还是问题本身有问题?

姑姑和她的同事们遇到的是机器学习中的一个基础问题,即计算机的学习。我们希望计算机做的几乎所有学习行为——其中很多是我们自己的学习——都是根据潜在的模式推导信息,然后推论出未知的信息。姑姑的数学题也是这种形式。

对于人来说,挑战是去找出这种潜在的模式。当然了,我们的猜测受到思维和直觉能力的局限。但计算机根本没有直觉。从计算机的角度看,发现模式的困难之处在于:模式的变体无穷无尽,技术也多种多样,怎样判断哪个是“正确”的而另一个“错误”呢?

这个问题就变得有关系了。在1990年代之前,AI系统完全不用做那么多的学习。例如,DeepBlue的前辈——下象棋的Deep Thought,就没能从胜局和败局中学得很好。反之,象棋大师和编程高手们制定精细的规则去教计算机哪盘棋下得好,哪盘不好。这种人工调整是哪个时代典型的“专家系统”方法。

回到姑姑的数学题中,专家系统方法需要一个人去观察前三行,然后得出下面的模式来:

1 * (4+ 1) = 5

2 * (5+ 1) = 12

3 * (6+ 1) = 21

这个人于是教给计算机这个模式:x * (y + 1) = z,让计算机运行这个模式,得到第四行的答案是96.

专家系统早期虽然获得了一些成功,但人工去设计、调整、升级这个系统非常不实用。于是,研究者们的关注点转为设计能自行推倒模式的程序。这个程序能检查数以千计的照片或者市场交易情况,得出指向某个人脸的数字信号或即将到来的价格高峰。这种方法很快成为主流,从信件自动排序到垃圾邮件过滤到信用卡盗刷侦测,在方方面面得到广泛应用。

但是,机器学习系统的所有这些成功的应用仍然离不开设计它们的工程师。在此回到姑姑的数学题中:我们假设每一行有三个相关要素(每个等式的三个数字)。但是还有第四个隐藏的要素:前面一行等式的和。假如这第四个要素也当做一行,那么会得到另外一种模式:

0 + 1 +4 = 5

5 + 2 +5 = 12

12 + 3+ 6 = 21

这样的话,第四行问题的答案就是40.

哪种模式才是正确的呢?要么两种都正确,要么两种都不正确。这取决于机器被要求使用哪种模式。你也可以吧第一个数字和第二个数字相乘,找出另一种模式,得出的答案是前一种的五分之一,然后四舍五入为整数。(虽然很怪,但确实可以。)再加入我们要考虑这些数字的形状,也许我们又要得出另外一种包含了笔画和线条的模式。选择哪一种模式取决于做题者的假定。

机器能自主学得那么好,以致不需要外部指导吗?

对于机器学习来说也是如此。就算机器能自主学习,模式还是由人类来选择的:人脸识别软件能推倒出清楚的if/then规则吗?或者它能处理每个作为是/否某个人的根据的增量特征吗?这个系统应该处理的是哪些特征?需要考虑每个像素点吗?需要考虑亮的区域和暗的区域的边界吗?这些因素决定了系统可能选择的模式。机器学习工程师的新挑战是找出一种完美的组合。

LAYER CAKE:在神经网络中,数据在层和层的”神经元”之间传输,每一步都发生简单的转换。中间层能够学会分辨更高层的特征,影响最终的输出。

图源:Michael Nielsen /NeuralNetworksandDeepLearning.com

当然,自主学习的过程并不是在那里停下来。就像曾经厌烦了写规则一样,工程师们也开始厌烦设计这些特征。计算机要是能够自主识别这些特征不是更好吗?于是他们设计了深度神经网络,一种能够根据基本信息推论更高层的特征的机器学习技术。往一个神经网络里输入一些像素,不需要外部命令它就能学习考虑边缘、曲线、甚至纹理结构。

那么,只要有一个万能算法,工程师们就得失业了吗?

并非如此。神经网络仍然未能适用于所有问题。一个神经网络包括“神经元”的层,每层根据输入运行一种计算,然后向下一层输出结果。那么,有多少层,多少个神经元呢?每个神经元都得接收上一层的每个神经元的输入吗?还是只接收经过严选的某些神经元?输入和输出的过程中,每个神经元都经历了怎样的转换?问题如此种种。

这些问题阻碍了在新问题上应用神经网络的尝试:一个非常好的人脸识别网络完全无法用于自动翻译。经过人选择的元素会暗地里把网络推向特定模式,推离其他模式。所以,工程师目前还不能失业。

当然,从逻辑上来说,神经网络的下一步是自主解决它包含了多少神经元,有多少种联系等等问题。这方面的研究已经进行许多年了。

能到达什么程度呢?机器能自主学得那么好,以致不需要外部指导吗?理论上,你可以想象一个完美的普适学习器(UniversalLearner)——能够自主决定任何事情,而且总能根据任务选择最佳模式。

但在1996年,计算机科学家DavidWolpert证明了不存在这样的普适学习器。他提出著名的“没有免费的午餐”(No Free Lunch)定理,证明一个学习者在某个模式上很擅长的同时,也存在另外一个它很难学会的模式。这个理由让我又想起姑姑的数学谜题——有限的数据能与无穷的模式相匹配。选择一种学习算法只是意味着选出那些机器可能不擅长的模式。例如,图像模式识别所有的任务将最终开始于一个包罗万象的算法。但没有哪个学习算法擅长所有学习。

这让机器学习和人类大脑惊人的相似。不管我们认为人类有多聪明,我们的大脑也不可能完美地学习所有东西。大脑的每个部分精细地进化到能认识某些特定的模式,例如识别我们看到的东西,听到的语言,以及物体运动的方式。但在发现股市规律这个问题上,大脑就不那么灵光了:机器显然表现得更好。

机器学习的历史表明模式多种多样,但最有可能的是:接下来的许多年里,我们都还得教机器自主学习。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-09-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

需求与匹配 | 从数据挖掘角度看世纪佳缘推荐系统

昨天看到同事在朋友圈的这篇文章:《佳缘用户推荐系统》,再结合自己之前的几年的推荐系统经验,以及在婚恋网站半年多的经验,来谈谈我眼中的婚恋市场的推荐系统。 如作者...

3285
来自专栏华章科技

万字长文回溯深度学习革命,盘点 16 大历史时刻

编译来源:http://fortune.com/ai-artificial-intelligence-deep-machine-learning/

1124
来自专栏CDA数据分析师

R 语言数据分析师养成计划——从零开始的 14 个任务

作者 CDA数据分析师 1992年,肉丝(Ross Ihaka)和萝卜特(Robert Gentleman)两个人在S语言(贝尔实验室开发的一种统计用编程语...

3097
来自专栏大数据文摘

[译]贝叶斯生存分析之“权利的游戏”

2866
来自专栏新智元

深度 |《财富》万字长文回溯深度学习革命,盘点 16 大历史时刻

【新智元导读】《财富》今日刊文,深度报道阐述深度学习推动的人工智能如何在整个计算生态系统引发革命。文章从深度学习发展的历史关键点入手,介绍重大的标志性技术突破,...

3405
来自专栏机器之心

CCL 2017最佳论文公布,看全国计算语言学前沿研究

机器之心报道 作者:邱陆陆 10 月 14 日、15 日,由中国中文信息学会(CIPS)举办的第十六届全国计算语言学会议(CCL 2017)暨第五届自然标注大...

3628
来自专栏PPV课数据科学社区

不加班,上班可以打游戏,年薪20万起,什么职位这么牛逼...

“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”——全球知名咨...

3236
来自专栏数据科学与人工智能

【应用】信用评分卡 : 变量选择

下面的故事可以追溯到我开始从物理到商业的转变。我在周五晚上的派对上遇到了这位投资银行家。喝完几品脱啤酒后,他的情绪变得有些阴沉,他告诉我他是如何讨厌他的工作。然...

1205
来自专栏AI科技大本营的专栏

又一名逃犯在张学友演唱会被 AI 捕获,人送绰号“热心歌神张先生”

据悉,先后有两名嫌犯在张学友演唱会上,被智慧安保人像识别功能锁定,抓捕归案。网友分析称犯罪嫌疑人大多是 30 岁 - 40 岁左右的人群,这个年龄段的人都爱张学...

741
来自专栏新智元

更正 |《财富》万字长文回溯深度学习革命,盘点 16 大历史时刻

【新智元导读】《财富》封面文章报道深度学习推动的人工智能如何在整个计算生态系统引发革命。文章从深度学习发展的历史关键点入手,介绍重大的标志性技术突破,讲述了 H...

3397

扫码关注云+社区

领取腾讯云代金券