过拟合的成年人

自从1956年达特矛斯会议,断言“学习或者智能的任何其他特性的每一个方面都应能被精确地加以描述,使得机器可以对其进行模拟”之后,人工智能进入第一个黄金发展的十年。 而最近十年人工智能得以飞速发展,则得益于机器学习。根据维基百科的定义,机器学习“主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。”也就是说,机器可以从大量的数据和经验中,不断完善自己的算法。是机器学习,让AI成为了“会学习的计算机程序”。如果其训练的数据有标注的结果,就是有监督学习,为了让训练出来的算法更具有普适性,需要通过指标来衡量预测的效果,其中有两个很重要的概念是偏差(bias)和方差(Variance)。偏差代表“准”,方差代表“确”,如果我们也要学会从错误中学习,其实可以借鉴机器的这种思维方式。

归纳和演绎

如果从机器学习的理论,来解释人类的心理。那所谓的认知失调,就是人们用既有的心智模型去拟合新观察到的现实时,偏差过大。

(图片来自知乎)一开始,如象限右下,由于方差也比较大,所谓心理还没有不适,觉得这是个个案;然后,当一再遇到这类“验证集”,而且方差逐渐减少(如左下,事实上这也是机器学习中降低方差的方法)时,人就开始不安了,自己的心智严重脱离了现实,并且集中度还非常高,这就是认知失调。

于是,为了解决这种认知失调,人们开始用了两种方法:一种是归纳,如象限右上,即通过通用性强的更高阶的理论,来解释现实世界。此时,我们需要引入更多的变量,更加复杂的算法,来增大“火力范围”。当然,宗教是一种极端情况,其教义一般非常的宽泛,而且有很多案例教学,由其指定的传人拥有最终解释权;接下来就是演绎,与理论上的归纳不同,演绎需要我们通过实证的方式,把我们归纳的理论应用到具体的案例上,增加确定性。如象限左上,抛弃自己的成见,迭代和修正自己的心智模型,此时我们需要的是大量的样本数据。

好算法不如烂开始

我们再来看机器学习中,关于数据集和算法的关系。首先来看一个英文完型填空问题:I ate__eggs.这是一个英文自动作业器,称为“learning system”,在2001年研究的时候,有4种不同的算法,感知器、朴素贝叶斯还是winnow(线性分类器)算法,样本量低于100万时,还有所谓算法的优劣之分,但是达到亿级的时候,准确率都差不多了。

(图表摘自斯坦福机器学习讲义)但是,这类问题有个限制条件,就是没有未知的特征变量,比如英文的完形填空,其输入变量是恒定的,反之,预测房价,其特征变量你了解的并不充分。所以,一个英文较好的人类就能准确的预测作业器中的y,但一个富有经验的房产经纪人,如果你只告诉他房屋的面积,他也无法准确的预测房价。

所以,我们需要的是一个烂开始,即使我们的想法很幼稚(机器学习的词典里没有幼稚,naive翻译成朴素),但只要不断输入特征变量,用大量的数据去喂她,她也会变得很强大,偏差和方差都会很小。这也许是“读万卷书,不如行万里路”的机器学习届的解释了。

过拟合的成年人

与其去研制模拟成人思维的计算机,不如去试着制造更简单的,也许只相当于一个小孩智慧的人工智能系统,然后再让这个系统去不断学习。—图灵这种思路正是我们今天用机器学习来解决人工智能问题的核心指导思想,正如前面所述,在大训练样本的情况下,算法并没有优劣之分。所以,机器学习的主要思想源自于小孩,在一个简单的模型和算法之下,不断的去尝试。而成年人,大多处于“过拟合”(overfit)的状态,“准而不确”,偏差不大,但是方差很大,这样,成年人所谓的理论就具备了普适性,当面对小孩子的刨根问底,最后的绝招就是“等你长大了就明白了”。那么,“过拟合”怎么办?按照机器学习的方法,我们可以这么做:减少变量:我们的心智模型、理论道理通通要做减法,只保留最经典的那几种。延伸开来,就是我们平时的信息收集,要注意收集经典的、有营养的知识;增加样本量:原来的理论,非常的精妙复杂,并且“过于完美”的拟合了训练集,这将导致应用到新的数据上时过拟合了(方差大),因此增加训练的样本量可以不断的修正算法。快速的从失败中进行学习,也许是未来跟机器协作的重要品质。比起油腻的大叔,我们更应该警惕,不要做一个“过拟合”的成年人。

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20171225G0WHVS00?refer=cp_1026

相关快讯

扫码关注云+社区