译-机器学习的十大误解

Pedro Domingos Professor of computer science at U. Washington and author of “The Master Algorithm”. pedrodomingos.org

机器学习过去一直是幕后:亚马逊挖掘你的点击和购买数据来进行推荐,谷歌对搜索查询进行挖掘从而去做广告投放,而脸书会挖掘社交网络来选择展示给你的内容。但是现在机器学习已经成为了新闻头条,处在激烈讨论的浪口风尖。学习算法可以驾驶汽车、翻译演讲,甚至赢得知识比赛(Jeopardy)! 那么什么是机器学习可以做的,什么是不可以做的呢?它们是否会成为隐私、工作甚至人类种群的终结的开端呢?这不断增长的关注很收欢迎,因为机器学习必将是塑造未来的主要推动力,我们需要去掌握这项技术。不幸的是,关于机器学习是存在几个误解的,讲清楚这些是我们的第一步工作。所以,来快速看一下这些主要误解吧:

机器学习仅仅是数据总结. 而实际上,机器学习的主要目的是预测未来. 知道你过去已经看过的电影仅仅是帮助预测出你将来可能会喜欢的电影. 你的信用记录是你是否会准时还款的指导. 如同机器人科学家,学习算法会构想出假设、不断改进,在预测正确时相信他们. 学习算法还没有科学家那么聪明,但是他们要快上数百万倍.

学习算法仅仅会发现事件对之间的关联(correlations). 这是在媒体对机器学习的报道中所反映出来的印象. 在一个著名的例子中,谷歌搜索“flu”是流感爆发的早期信号. 这挺不错的,但大多数机器学习算法是能够发现更加丰富的形式的知识,比如说如果一个痣有不规则的形状和颜色并且在增长,那么它可能会是皮肤癌.

机器学习仅能够发现关联,不能发现因果关系. 实际上,机器学习的最流行的类型之一就包含了尝试不同的行动观察相应的后果——因果发现的本质. 例如,电商网站可以尝试不同的方式呈现商品并选择那个会产生最大购买量的去部署. 你可能已经参与到了数千个这样的实验中而不自知. 因果关系可以在一些实验无法进行的场景中发现,而计算机的做法就是去看过去的数据.

机器学习不能够预测未见的事件,aka 黑天鹅事件. 如果某件事从未发现,那么预测它出现的概率肯定是 0——不是 0 能是什么呢?相反,机器学习是一门以高准确率预测罕见事件的艺术. 如果 A 是 B 的致因,而 B 又是 C 的致因,那么 A 可以导致 C 发生,即使我们之前没有看见这个境况出现. 每天,垃圾邮件过滤器正确标注垃圾邮件. 如 2008 年次贷危机这样的黑天鹅事件实际上是已经被广泛预测出来——当然不是那时候银行使用的一些问题很大的风险模型.

数据越多,越可能产生模式幻觉. 假设,NSA 有更多的通话记录,就越可能将一个无辜群众当做是潜在的恐怖分子,因为他偶然地匹配到了一个恐怖分子发现规则. 挖掘同一实体的更多属性可以增加幻觉的风险,但是机器学习专家非常擅长将其降到最低. 另外,挖掘同样的属性集的更多的实体会降低这样的风险,因为从中学到的规则将会有更强的支持. 一些学习算法可以找到包含多个实体的模式,这样可以提升模型的健壮性:一个在拍摄 NY City Hall 的人并不一定是疑犯,另一个购买了大量的硝酸铵的人也不一定可疑;但是如果这两个存在在一个紧密的电话联系中,可能 FBI 需要去看看,确保这不是一个爆炸点.

机器学习忽视已有知识. 机器学习已经渗透进入的领域内专家怀疑地看待他们已经知道的一些机器学习算法的“空盘”观点. 真实的知识是推理和实验的长期过程的结果,这个你不可能通过运行一个通用的算法进行模仿. 但是不是所有的学习算法是从一个空盘开始的,一些算法使用数据去提炼已有的知识,这个可以是非常精妙的,当然会是依照机器可以理解的方式进行编码.

机器学到的模型对人类来说难以理解. 这是一种自然的顾虑. 如果一个学习算法是黑盒,我们如何才能相信它做出的推荐?一些类型的模型实际上是很难理解的,如代表着机器学习取得最显著成功(识别油管视频的猫)的深度神经网络. 但是其他的方法确实是可以理解的,比如上面提到的诊断皮肤癌的规则.


所有这些误解是悲观的,就是说他们假设了机器学习比它实际表现更为受限. 但是也有一些乐观的误解:

更简单的模型更加准确. 这个信念有时候会和奥卡姆剃刀等同起来,但是剃刀法则仅仅是说倾向于更简单的解释,而不是原因. 他们受到欢迎仅仅是他们更加容易被理解、记忆和推理. 有些时候与数据一致的最简单假设对预测来说想较复杂的模型不够准确. 某些最为强大的学习算法输出的模型看起来是不必要的复杂精密——有时候在他们已经完美地拟合数据后还在持续增加——但是这就是他们能够击败那些相对简单的模型的原因.

计算机发现的模式可以被当做权威规则使用. 如果一个学习算法输出了皮肤癌诊断的规则并且这个规则特别准确(就是能够完全准确地预测出是否确诊),但这不是说你就要相信这些规则. 因为数据中的微小的变化就可能使得算法导出一个非常不同的——但是同样准确度——规则. 只有那些可信的规则而不是数据中的随机变化可以被用作相应的权威规则,而不是仅仅是可以用来预测的工具.

机器学习将很快达到超人智能. 从 AI 发展的日常新闻中,很容易得到计算机在视觉、听觉和推理上已经达到了人类的水准,很快就将超越人类. 我们已经走过了人工智能的前 50 年,机器学习是人工智能的近期成功的主要原因,但是我们还有很长的路要走. 计算机可以做很多专门的任务,但是他们仍旧没有常识的概念,也没有人真正知道如何去教会他们这些.

所以你已经知道这些误解. 机器学习比我们想像的要强大且弱小. 如何构建出这些是人类的任务——前提就是我们对其已经有了一个准确的认知.

原文发布于微信公众号 - UAI人工智能(UniversityAI)

原文发表时间:2016-09-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【数据分析】Intel研究院院长吴甘沙:大数据分析师的卓越之道

吴甘沙 Intel中国研究院第一位“首席工程师” Intel中国研究院院长 ? 亲爱的各位同仁,各位同学,早上好。讲到大数据,就要问数据分析师应该做什么?所以我...

2755
来自专栏企鹅号快讯

拿下吴文俊奖,今日头条李磊谈AI如何实现内容创作

机器之心发布 机器之心编辑部 近日,第七届吴文俊人工智能科学技术奖颁奖盛典在苏州举行。今日头条与北京大学共同完成的「互联网信息摘要与机器写稿关键技术及应用」项目...

2306
来自专栏AI科技评论

干货 | 「我的第一次数据科学家实习经历」

AI 科技评论按:「数据科学家」可谓是近几年的一大热门职位,很多学习了数学、信息、计算机相关专业的同学都对它表示跃跃欲试。Admond Lee 学习了物理专业...

1122
来自专栏机器之心

深度 | 致开发者:2018 AI发展趋势

36511
来自专栏AI科技评论

独家科普:谷歌“汉译英”错误率降低60%是怎样算出来的?

两天前谷歌宣布发布新一代神经网路机器翻译系统(Google Neural Machine Translation),简称GNMT,因为使用当前最先进的训练技术,...

3177
来自专栏CDA数据分析师

一名合格的机器学习工程师需要具备的5项基本技能,你都get了吗?

你是否对机器学习充满兴趣呢?其实到目前为止,每天有越来越多的工程师开始将好奇的目光转向机器学习领域。实际上,你会发现现在没有哪一个领域比机器学习能引起更多的曝光...

1839
来自专栏AI科技评论

深度 | 中国科学院孙哲南研究员:带你认识虹膜识别研究进展

2016人工智能湖南论坛暨自兴人工智能研究院揭牌仪式,来自国内外的许多顶级专家在会上给我们做了报告。中国科学院自动化研究所模式识别国家重点实验室研究员、天津中科...

4284
来自专栏AI科技大本营的专栏

深度学习在2017年的十大发展趋势及预测

在本篇文章中,作者对深度学习在接下来一年中的发展趋势作出了十条预测。本文作者在《2011年软件开发趋势和相关预言》的十条预言中,有六条是准确的。 ? 在之前的博...

3047
来自专栏新智元

【重磅】马斯克的AI野心——OpenAI Gym系统深度解析

【新智元导读】开源人工智能系统 OpenAI 的成立打破了谷歌、Facebook 等巨头霸占 AI 领域的格局,但其创始人、特斯拉CEO马斯克多次发表人工智能威...

3539
来自专栏灯塔大数据

一名合格的机器学习工程师需要具备的5项基本技能,你都get了吗?

你是否对机器学习充满兴趣呢?其实到目前为止,每天有越来越多的工程师开始将好奇的目光转向机器学习领域。实际上,你会发现现在没有哪一个领域比机器学习能引起更多的曝...

4088

扫码关注云+社区