机器的智能和人类的智能有什么重要区别?这些区别对于我们培养后代有什么启示?

本提问为「知乎 2018『互联网洞见者』」十个提问的第四问,由国际人工智能联合会主席、香港科技大学杨强教授( 知乎 ID : 杨强 )提出。更多详细信息,请点击进入「互联网洞见者」专题。

解浚源

深度学习(Deep Learning)话题的优秀回答者

一个常见的误解是人工智能没有创造力/感情,所以在人工智能的时代人类应该专注艺术创造。这些论断由于缺乏对名词的精确定义,导致模糊不清鸡同鸭讲。

为了讨论这个问题我们先要精确定义名词。首先,这里对“艺术”的讨论局限在绘画,文学,音乐等传统表现形式上。然后,我们将艺术创作的过程分为两部分:“逻辑”和“表达”。

对于人工智能来说,表达相对容易,难的是逻辑。

逻辑如何定义?我们来看两个绘画的例子(引自论文https://arxiv.org/pdf/1711.08972.pdf):

这几幅图虽然很粗糙,5岁小孩就可以画出来,但是包含了很多逻辑信息。比如鸟有两条腿,腿长在身子上,鸟用腿站立,等等。这还只是单个物体的静态情况,如果包含运动以及多个物体的交互,信息量会几何爆炸。比如鸟可以飞,腿以腿根为轴运动,母鸟在给小鸟喂食……

这些模糊,涉及多个领域和大量常识,并且交互复杂的逻辑信息对于人工智能来说非常难以理解。目前为止试图建立“常识数据库”的研究都不是很成功,多个常识之间的交互推理更是无从谈起。

那么表达是什么?同样来看两个例子:

基于上面的“逻辑”图,以及对于“鸟”的统计意义上的认知,画出鸟的细节,就叫“表达”。表达对于人工智能来说是一个容易的多的问题,近几年研究进展很大,实际上上面的图就是算法自动生成的,我觉得已经比很多没学过画画的人画的好了。

类似的可以举一个作文的例子:

昨天晚上胖虎把大雄揍了一顿,大雄跪地求饶。

这一句话里包含了很多逻辑,比如胖虎比大雄壮,大雄被打很痛苦,弱小的大雄要向强大的胖虎示弱,等等。这些逻辑对于人工智能来说同样十分难以理解,如果再加上一段文章里多句话之间的逻辑关系,就基本等价于目前不可企及的强人工智能问题了。

但是如果给定上面一句话,让人工智能“润色”成下面一句话,却是相对简单的:

在一个月黑风高的夜晚,胖虎使出一招黑虎掏心,将大雄击倒在地,大雄以头抢地连连求饶。

人工智能经过基本的语法分析以后,可以基于统计信息总结修辞手法,然后进行替换和扩展,生成一句有“武侠”感的句子。实际上现在很多起点文作者都在用类似功能的写作助手(当然比这个例子还要弱一点)。

总之,人类比人工智能强在对模糊逻辑的理解和推理上,而不是艺术表达的技巧。随着人工智能辅助程序的发展,普通人和艺术家在表达手法上的差距会被缩小。然而艺术学习更多专注在表达手法的训练上。尤其在打基础时期,很多的时间都花在重复训练上了,并没有发挥人类智能的优势。

顺便说一句,“现代艺术”有很严重的淡化逻辑,强调表达的倾向。我认为这是走歪了,或者说现代艺术在让自己更容易被人工智能替代的方向上一路狂奔。

比如前几天一副人工智能“创作”的画在拍卖会上卖出了300万的高价,而毕加索的画在同一个拍卖会上只卖出了70万。请大家欣赏人工智能的大作:

很明显这幅画逻辑信息很少,只有一张模糊的脸和一块大概是领子的空白。而这种模糊的表达方式很符合现代艺术的口味。

荷兰猪

LIRMM-CNRS 机器人研究所博士在读

机器智能:处理少量单一信号 + 针对单一任务 + Prediction horizon可以非常长

人类智能:处理大量复杂信号 + 针对多任务 + Prediction horizon较短

对于机器学习领域的专家来说,现在最热门的应用领域在于图像识别以及自然语言处理,然而这不过是两种类型的接收器罢了。人类并不仅仅拥有大量接收器去接收环境中各种类型的信息,(人类可以接受传感器信息比机器多的多,除了视觉,听觉,我们还有嗅觉,味觉,皮肤上分布着无数的压力和温度传感器),更重要的是人类拥有末端执行器:我们的手和脚,去感受环境并且做出相应的行为以完成我们的任务。

这里我着重强调了任务,因为现阶段的机器智能大多只有单一的任务,而且这个任务可以是:识别图像中有没有猫,打DOTA获得胜利,下围棋获得胜利 etc。这些任务有些可以直接通过数据建立模型判断(例如图像中有没有猫),然而复杂的任务(例如打DOTA,下围棋)不仅仅需要模型,更重要的是需要基于模型去预测环境中其他人的行为,然后做出最利于完成任务的行为。

在控制领域中,这种类型的控制算法叫做模型预测控制。我相信人类智能中有一部分是在大脑中做模型预测控制,尤其在竞技体育中(例如下围棋,打DOTA,踢足球)尤为明显。人类在与环境交互的时候每时每刻都在建立针对于这个环境的模型,利用这个模型来预测环境的变化,来做出相应的行为。举个例子:

梅西之所以如此的强大,不仅仅因为他一流的运动能力,更在于他对对手反应的预测能力,所以他总是可以做出假动作来摆脱对手的防守。模型预测控制在我们日常生活中业无处不在:

图中这个男生做出了开门的行为,其原因是因为预测到这位女士需要进门,且女士手中有书并不方便开门。

模型预测控制中的两个要点:

模型本身

Prediction horizon

模型本身

机器智能对于环境模型可以是数据驱动的,或者通过物理或者数学定律来描述的。而人类对于环境的模型应该大部分都是由数据驱动的。

当机器的环境模型是由后者驱动时,机器就会十分精确,例如需要机械手臂运动到三维空间的某一个位置,机器一定会比人更精确。

当机器的环境模型是前者驱动时,机器的优势在于能处理的单一数据量大,然而人类的优势在于可以处理复杂的信号。所以在复杂(多信号)环境中人类对于环境的模型比机器更好,然而机器,在单一环境中,针对性建立的模型比人类更精确。

Prediction horizon:

先解释一下这个词的意思,在模型预测控制中,需要利用模型对于系统未来的发展进行预测,prediction horizon越长,意味着我们看的更远,预测到更久以后系统的变化,反之我们看的更近,预测的是系统在短时间内的变化。人类的prediction horizon相较于机器是要短很多的,大多数时候我们只能对较短时间的变化做出预测,然而机器则不然,如果运算速度足够大,可以基于模型预测得更远(简单线性模型可以预测到无穷远,即LQR)。在单一环境下,机器优势非常明显,然而如果在复杂环境中,系统模型时变,有长的prediction horizon意义并不大。

说了很多从控制角度来看,机器智能和人类智能的差别,那么这对于我们培养后代有什么启示呢。。。Honestly I have no idea。。。强答一下就是,对于往后要从事竞技体育的下一代,要加强你们模型预测控制的能力呀!!!多多学习对手的路数,以建立更精确的模型来预测他们的行动,如果通过某种训练能增加你的prediction horizon的话,会让你表现的更优秀。

李韶华

研究者

只说下视觉,这方面平时想的比较多。

动物的视觉系统和CNN有相似之处,但是差别也是巨大的。动物的视觉主要基于hebbian learning, 即如果两个神经元同时激活,它们之间的突触(权重)就会增强。hebbian learning加上竞争机制可以让神经元学习输入刺激中的重复模式,比如小朋友可以很快识别三角形、圆形、矩形等等,因为这些模式在生活中很高频。而且小朋友喜欢看动画片,因为动画片色彩和图案简单,他们的视觉系统处理起来得到的中间表示比较简单,也容易记住其中的新的模式。而神经元记住的中间模式则构成了类似CNN的层次性的特征表示。所以人的视觉是从大致轮廓学起,慢慢掌握细微之处的。这种机制主体是无监督的,当然人有许多方式获得弱监督或者强监督信号,所以人仍然可以有很好的物体分类能力。但人在细节分类方面仍然需要长年训练才行,比如没经过训练的人很难分清楚几十种狗的区别,所以在imagenet上分类表现反而低于计算机。

但CNN的学习纯粹是基于back propagation的,也就是把annotation里很有限的信息从遥远的高层想方设法传到底层,除了这种机制完全没有生物基础外,可想而知传下来的监督信息是非常碎片化的和不靠谱的。虽然CNN分类效果很好,但是却遭受adversarial attack,说明CNN很多时候抓住的是一些细枝末节,却忽略了整体轮廓(比如海龟上加了一点步枪上独有的纹理,海龟就被识别为步枪)。但这种方法的好处是细节和大体结构“一锅煮”,训练者不需要关心怎么兼顾二者,bp自动就在二者之间获得了均衡,但副作用除了adversarial attack,也使CNN的中间表示很难visualize和interpret(尽管intuitively,越底层的语义信息越局部,越高层语义信息越是关于大物体的,但实际上visualize出来可能乱七八糟的)。

至于未来,显而易见的一个发展方向是把动物视觉的无监督机制和CNN的bp结合起来。这样既有人类视觉的“观其大略”的强大泛化能力,也有了CNN那种强大的抓细节的能力,从而得到超人的视觉系统。

-版权声明-

图文仅用于交流分享,如涉及版权,请联系我们删除。

来源:知乎

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181028B1C1YZ00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

同媒体快讯

扫码关注云+社区

领取腾讯云代金券