人工不智能？

木羊

发布于 2022-04-11 17:38:11

1740

发布于 2022-04-11 17:38:11

文章被收录于专栏：睡前机器学习

今天聊智能。

你觉得机器学习的本质是什么？停下来想一想，然后我告诉你，这原本是这篇文章的题目，不过一来面太大，二来太正经（主要原因），今天的时间又只来得及写一篇短文。起因是这样，最近MIT有位教授心情不太好，他觉得现在我们太过于依赖数据了（We are too focused on data），别看现在深度学习上天入地，离了数据就一事无成。现在大家热火朝天构建的所谓人工智能系统，不过都是概率系统，而非真正的智能系统。

你们都跑偏了（Have it all Wrong）。这位教授最后怼道。

实话实说，初次看到这新闻，也许感觉挺新鲜，现在人工智能大行其道，大公司恨不得都在手臂上纹一条“ALL IN AI”的纹身，深度学习差不多就是“未来”的同义词，没想到居然还有教授敢跳反。其实吧，学术界怒怼人工智能不智能早已怼出了有着历史悠久的传统，从人工智能诞生的哪一天起，隔一段就有大大小小的学者教授跳出来当头棒喝，都觉得我们现在跑偏了。

当然了，就算是新瓶装旧酒，总得也是有只新瓶的。这次这位MIT教授似乎认为，终于到了对数据动手的时候了。什么意思呢？这里其实说的是机器学习的一个特点，或者是一个痛点。

机器学习有句话叫数据决定了模型的上限，而模型的选择和调参只不过是逼近这个上限。汽油对引擎有多重要，数据对于模型就有多重要。所以，在实践中如果模型预测效果不理想时，花点时间多收集些数据，效果往往远比翻开书本研究公式要好。要想模型跑得好，大量的数据少不了。

这是机器学习在实战中总结出来的经验，MIT教授抓住怼的正是这点。他说，现在人们评论机器学习系统好坏的标准一共三条，一是收集了多少数据，二是神经网络有多深，三是训练烧了多少数据。当然，他还balabala说了很多，要我概括就一句话：你们是数据邪教，搞出来的人工智能是人工不是智能。

有人就有江湖，人工智能也不例外，从很早看开始就分成了推理派和统计派。推理派主张分得清因果的才算智能，统计派则有点拿来主义，只要结果有用就算智能。

这样不容易说清楚，不妨举个例子。有句农谚叫“蚯蚓路上爬，雨水乱如麻”，意思很好懂，原因大概是降雨前空气比较湿，蚯蚓喜欢这样的湿空气，就纷纷从地下爬出来了。这就是因果。

那么，现在让机器学习模型出场。它属于统计派，我们给它定的目标是天气预报，预测明天是不是雨天。这是典型的分类问题。模型看了三百多集动物世界，经过统计后发现，一旦出现“蚯蚓上路”这个现象，随后就很可能会下雨，也就是统计学书上说的强相关。模型心里就有底了，也就可以得出“蚯蚓路上爬，雨水乱如麻”的正确结论。

那么，既然结论正确，那统计派的问题在哪里呢？

就出在因果上。相关性不是因果，Judea Peral老爷子（贝叶斯网络之父）专门写了一本书《The book of why：the new science of cause and effect》就讲这个问题。书的内涵很丰富，这意味大家都不太可能真的去读，就算读也不太可能真的读完。所以，下面我尝试用两句话说清楚其中的意思，如果觉得我说清楚了，麻烦右下角点个在看，让我也来“统计派”一下。

那我们开始。回到上面那句农谚，蚯蚓路上爬，雨水乱入麻，我们读了这句话，只会认为蚯蚓爬出来是下雨的征兆，而不会觉得蚯蚓有什么办法让雨神叫爸爸。不过，只管相关性的模型是看不到因果的，它只知道蚯蚓爬出来和下雨经常一起发生，至于谁是因谁是果，是谁导致的谁，它一概不管。于它而言，无论是已知蚯蚓爬出来了要预测会不会下雨，还是已知快下雨了要预测蚯蚓会不会爬出来，模型的训练过程是完全一样的，就是通过统计，找出二者的相关性。在它看来，没准蚯蚓堪称环节动物门的萧敬腾呢。

下次再聊。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-02-26，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习