深度学习:AI监督学习与人的区别到底有多大

从监督学习上来看,人类学习(其机制、原理背后的本质人们知之甚少)和机器学习是根本不同的,且比机器高级得多得多。比如,只要曾经见过猪一次,几乎可以在任何种情况下轻松地把它分辨出来。而机器却要经历数以千计“是”“非”图片,标注后反复输入输出、调参,长时间训练才可能勉强辨识,即便是这样,也会老犯错误

对于(人工智能)的监督学习,以对猪的辨认来看人的学习与机器学习的区别和难度。

一个正常的人,不论长幼,一般来说,只要曾经在哪儿见过猪一次,都几乎可以在任何一个地方、任何种情况下把猪从其他动物或物件中分辨出来。然而机器却不同:

机器要学会对猪的辨认,需要将数量众多,甚至成千上万张猪的图片输入,让其“记住”,并“消化”。这些图片都有人工或人们借助于工具标记的分类标签(无监督学习不需要标签),不仅包括家猪、野猪和公猪、母猪等种类(含卡通、漫画、写意等绘画、影视或实景种类),还要包括猪从出生到成年的各类体形变迁图,猪在各种体态下如跑、卧、跪、侧身、仰头等的特征图,以及包括局部的、全面的以及体现特征细节的解剖图等等。通过程序输入输出,调节参数,直到机器对猪的辨认度达到一定要求为止。另外,还要向机器输入众多甚至成千上万张标记有“不是猪”的图片,只有找到了猪不同于其他动物或物体的特点,才能把机器训练成为一个合格的选手。

应该这样来理解,在监督学习中,“非猪”训练样本要比“是猪”训练样本的采集与标记还要难得多得多。用一个极端的例子来类比:某仓库的货物可确认是在这个月丢失的,要证明不是你偷的,就得把这一个月30天来,每时每刻在干什么、所干事项的证据逐时逐刻对应着全部拿出来,才能证明清白。这个有多么难,是可以想象的。当然,实践中的训练样本肯定是有限度的。所以,很可能出现这样的情况,投入了巨大的精力、花费了很长的时间和成千上万张图片训练出的机器,经过长期测试,认为它已经达到了无所不能的“辨猪”境界。但是,某天在某种场景下,却惊讶的发现:这台神器居然把一张有点模糊,向下微微弯曲的山形截图当成了猪,或者把某张瘦瘪水牛肚子的截图也辨认成了猪,会怎么接受呢?再以此类推,如果一架从未出过问题的无人驾驶机,某天把某个与机场很相似(从未见过的训练空白)的建筑物楼顶当成了机场,一头撞过去会怎样呢?

由此,这从反面也证明了更加需要对机器进行无监督学习、半监督学习的重要性,因为只有在规避标记或少做标记的情况下,才能容许机器学习所需训练样本集合的无限大,这也才能迎合如今大数据时代下海量数据挖掘的需求与现实。

上述这种“是猪”和“非猪”训练样本,不论再多都是有限的分类集合,要穷尽一切是不可能的,也是没有意义的。因为目的就是要用有限样本训练,使机器能够在无限事物类别中将“猪”给分辨出来。

一般看来,在监督学习中,人工或人工借助工具的分类标记,越多越细越好,但是,在实践中,得到的数据,诸如在各种场景下的自然语音、文本、人物表情等,都比猪或非猪图片要复杂很多很多。标记越多越细,越容易受到很多隐含信息的影响导致分类标准的模糊和混淆。比如bag-of-words模型(即“词袋”模型,最初用于文本分类,基本思想是针对某一个文本,忽略语法、句法和词序,仅仅将该文本看着是一些独立词汇的集合,有如一个装满无数独立词汇的袋子,根据袋子中各种词汇的多少来判断分类,如文档中土地、山谷、猪、牛、羊、马等词汇多些,而大街、大厦、汽车、公园、银行等词汇少些,则倾向判断其为描绘乡村的文档,而不是描述城镇的)的聚类。

面对一大堆高维数据,若要分为100个类别;或者在某种分类标准下,存在着除主要特征之外数百个次要特征,且次要特征的权重有些逼近甚至比主要特征还要明显的情况,对于这样一大堆数据让分类。很可能已经无力将每个数据标记并说这个应该是哪个类,那个又应该是哪个类了。而且甚至可能会怀疑这些类别之间的相似度或差距(距离)到底如何,是否存在混淆?显然,即便是通过长时间的艰苦努力,勉强分类成功,其结果也是:很容易造成机器学习的混乱,进而降低了机器的分辨力。这也是浅层监督学习到一定时候难以再能提升机器性能的原因之所在。所以,这种矛盾就导致了机器学习的难度非常之大。

早在数十年前,机器学习就产生了,当时囿于数据获取难度和分类等各类算法、技术水准较低等原因,机器学习滞步不前。时至如今,大数据提供了丰富的样本空间,机器学习取得了突破性进展,比如棋类比赛、语音识别、图像识别、网页搜索等。不过,上述分类越细越难的矛盾始终是存在的,同时,在实际应用中,分类标签的获取常常需要耗费极大的人力和工作量,有些几乎属于不可能准确描述和完成的,困难极大。所以,实践中常常出现了这类的实例:如在自然语言处理(NLP)中,宾州中文树库(Penn Chinese Treebank)在2年里只完成了对4000句的语言做出了分类的标记。

如上,仅从监督学习上来看,人类学习(其机制、原理背后的本质人类知之甚少)和机器学习是根本不同的,且比机器高级得多得多。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181027A00ZAD00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券