《主算法》作者 Pedro Domingos 谈机器学习十大误解

新智元

发布于 2018-03-23 15:37:06

5290

发布于 2018-03-23 15:37:06

文章被收录于专栏：新智元

【新智元导读】机器学习热潮掀起，关于机器学习的误读也随之盛行。为此，机器学习专家、《主算法》作者、华盛顿大学计算机科学教授 Pedro Domingos 日前撰文，指出当下对于机器学习最为常见的十大误解。结合他以前写的文章《机器学习那些事》，能让你更准确地理解机器学习。“机器学习比我们想像的更强大，也更弱小。如何应用它们是我们的任务——前提是我们对其要有准确的认识。”

机器学习过去常常在背后发挥作用：亚马逊会根据你的点击给你推荐商品，谷歌基于用户搜索的内容放置广告，Facebook会挖掘你的社交网络以选择显示在你时间线上的帖子。但如今机器学习已经成为新闻头条，处在激烈讨论的浪口风尖。学习算法可以驾驶汽车、翻译演讲，甚至赢得 Jeopardy！

那么，哪些是机器学习能做到的，哪些它们是做不到的呢？它们是否会成为终结隐私、工作甚至人类种群的开端呢？

人们对机器学习的关注越来越多是件好事，因为机器学习必将是塑造未来的主要推动力，我们需要去掌握这项技术。但是，关于机器学习存在一些误解，我们先要理清这些误解。所以，来快速看一下主要的一些误解吧：

误解一：机器学习就是总结数据

实际上，机器学习的主要目的是预测未来。知道你过去看过的电影，仅仅能帮助预测你将来可能会喜欢的电影。你的信用记录能预测你是否会准时还款。如同机器人科学家，学习算法能提出假设、不断改进，但只在预测正确时相信它们。学习算法还没有科学家那么聪明，但是它们要快上数百万倍。

误解二：学习算法只能发现事物之间的联系

这种印象通常来源于媒体对机器学习的报道。一个著名的例子是，谷歌搜索里“flu”的搜索量增加是流感爆发的早期信号。这挺不错的，但大多数机器学习算法能探索更深层的知识，例如“假如痣的形状不规则，颜色深，而且在增长，那么可能是皮肤癌”。

误解三：机器学习只能发现相关性，无法发现因果关系

实际上，机器学习的最流行的类型之一就包含发现因果关系的本质——尝试不同的行动并观察相应的结果。例如，电商网站可以尝试不同的方式呈现商品并选择那个会产生最大购买量的去部署。你可能已经参与过无数这样的实验而不自知。机器学习甚至可以在无法进行试验的情况下发现因果关系，计算机所做的就是观察过去的数据。

误解四：机器学习无法预测没有发生过的事件

如果某件事从未发现，那么它未来会发生的概率肯定是0——不然是什么呢？相反，机器学习能以高准确率预测罕见事件。如果 A 是 B 的致因，而 B 又是 C 的致因，那么 A 可以导致 C 发生，即使我们从未见过A导致C的事件。每天，垃圾邮件过滤器都在准确地标注垃圾邮件。如 2008 年次贷危机这样的“黑天鹅事件”实际上已经被广泛预测过——当然不是使用当时银行的一些问题很大的风险模型。

误解五：数据越多，越可能产生模式幻觉

一般来说，NSA 有越多的通话记录，就越可能将一个无辜群众当做是潜在的恐怖分子，因为他偶然地匹配到了一个恐怖分子检测规则。挖掘同一实体的更多属性可以增加幻觉的风险，但是机器学习专家非常擅长将其降到最低。另外，挖掘同样的属性集的更多的实体能降低这种风险，因为从中学到的规则将会有更强的支持。一些学习算法可以找到包含多个实体的模式，这样可以提升模型的可靠性：一个在拍摄 NY City Hall 的人并不一定是疑犯，另一个购买了大量的硝酸铵的人也不一定可疑；但是如果这两人存在在一个紧密的电话联系中，可能 FBI 需要去看看，确保这不是一个爆炸点。

误解六：机器学习忽略了已有的知识

在机器学习已经渗透的领域里，专家怀疑地看待他们已经知道的一些机器学习算法的“空盘”方式。真实的知识是推理和实验的长期过程的结果，这个你不可能通过运行一个通用的算法进行模仿。但不是所有的学习算法是从一个空盘开始的，一些算法使用数据去提炼已有的知识，这个非常精妙，当然是依照机器可以理解的方式进行编码。

误解七：人类难以理解机器学到的模型

这是一种自然的顾虑。如果一个学习算法是黑盒，我们如何才能相信它做出的推荐？一些类型的模型实际上很难理解，如代表着机器学习取得最显著成功的深度神经网络（能够识别YouTube视频里的猫）。但是，其他的方法确实是可以理解的，比如上面提到的诊断皮肤癌的规则。这种误解是悲观的，就是说他们假设了机器学习比它实际表现更为受限。但是，也有一些乐观的误解：

误解八：越简单的模型越准确

这个信念有时候会和奥卡姆剃刀等同起来，但是剃刀法则仅仅是说倾向于更简单的解释，而不是原因。简单模型受欢迎仅仅是它们更加容易被理解、记忆和推理。有时候，与数据一致的最简假设，对预测相对复杂的模型不够准确。一些最强大的学习算法输出的模型，看起来复杂精密得不必要——有时候它们在已经完美地拟合数据后还持续增加。但是，这就是它们能够击败那些相对简单的模型的原因。

误解九：计算机发现的模式可以被当做权威规则使用

假设一个学习算法输出了皮肤癌诊断的规则并且这个规则特别准确（就是能够完全准确地预测出是否确诊），但这不是说你就要相信这些规则。因为数据中微小的变化就可能使得算法导出一个非常不同的——但同样准确的——规则。只有那些可信的规则而不是数据中的随机变化可以被用作相应的权威规则。

误解十：机器学习将很快迈向超人智能

AI 发展的新闻中，很容易得到计算机在视觉、听觉和推理上已经达到了人类的水准，很快就将超越人类的错觉。我们已经走过了人工智能的前 50 年，机器学习是人工智能近期的成就的主要原因，但是我们还有很长的路要走。计算机可以做很多专门的任务，但是它们仍旧没有常识的概念，也没有人真正知道如何去教会它们这些。

现在，你已经知道这些误解。机器学习比我们想像的更强大，也更弱小。如何应用它们是我们的任务——前提是我们对其要有准确的认识。

编译来源：https://medium.com/@pedromdd/ten-myths-about-machine-learning-d888b48334a3#.8wzfb5si0

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2016-09-21，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自新智元微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

《主算法》作者 Pedro Domingos 谈机器学习十大误解

《主算法》作者 Pedro Domingos 谈机器学习十大误解

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐