面向类人通用智能:新型算法有效克服灾难性遗忘 | Nature Machine Intelligence

CASIA

解锁更多智能之美

【团队新作】何为"智能"?回答莫衷一是,但人脑却是公认的高智能典范。人不仅可以在新环境中持续吸收新知识,还可以根据环境灵活调整行为。相较于人脑,传统深度神经网络还难以望其项背,既无法连续学习,也没有情景依赖学习的能力。近日,自动化所脑网络组研究中心与模式识别国家重点实验室团队提出了正交权重修改算法,与情境信息处理模块相结合,使人工神经网络具备了强大的连续学习和情境依赖学习能力,有效解决灾难性遗忘等难题。相关成果已在线发表于Nature Machine Intelligence上。

"智能"核心要义之一: 对于复杂环境的高度适应性

人工智能已成为21世纪最具挑战性的前沿科学领域之一,但究竟什么是"智能"?图灵奖得主Allen Newell和诺贝尔奖得主Herbert A. Simon曾经联合撰文将智能定义为"适应环境变化,实现自身目的",DeepMind的联合创始人之一Shane Legg总结了数十种智能的定义,提出智能的通用衡量指标应该是在不同的环境中实现特定目的的能力。从中可见,个体对复杂、动态环境的高适应性是智能的重要标志。

人类大脑显然是高环境适应性的典范。人不仅可以在新的环境中不断吸收新的知识,而且可以根据不同的环境灵活调整自己的行为。在此方面,深度神经网络(deep neural networks,DNN)与大脑相比存在着很大的差距。

传统DNN一方面会受到"灾难性遗忘"问题的困扰,难以在学习新知识的同时保留旧知识,即缺少连续学习(continual learning)的能力;另一方面,DNN往往只能实现预先训练好的固定操作,不能对实际环境中存在情境信息(比如自身状态,环境变化、任务变化等)做出灵活的响应,难以满足复杂多变的需求,即缺少情境依赖学习(contextual-dependent learning)的能力。这两方面能力的缺失是制约当前DNN发展出高水平智能的重要瓶颈。

自动化所提出增强DNN环境适应性的新算法

近日,自动化所脑网络组研究中心与模式识别国家重点实验室余山课题组在克服上述两个核心问题方面取得了重要进展,为提高人工智能系统对于复杂多变环境的适应性提出了新的思路和方案。

在Continual Learning of Context-dependent Processing in Neural Networks一文中,硕士生曾冠雄、博士后陈阳等提出了正交权重修改(orthogonal weights modification,OWM)算法和情境依赖处理(context-dependent processing,CDP)模块。

OWM算法可以有效克服神经网络中的灾难性遗忘,实现连续学习;受大脑前额叶皮层启发的CDP模块可以有效整合情境信息,调制神经网络的信息处理过程。二者的有效结合,使人工神经网络具备了强大的连续学习和情境依赖学习的能力,大大增加了其灵活性和适应性。该论文近日在Nature Machine Intelligence在线发表。

论文解析

OWM算法的核心思想

在学习新任务时,只在旧任务输入空间正交的方向上修改神经网络权重。如此,权重增量几乎不与以往任务的输入发生作用,从而保证网络在新任务训练过程中搜索到的解,仍处在以往任务的解空间中。OWM通过正交投影算子P与误差反传算法得到的权重增量

作用实现其目的,即最终的权重增量为

图1:OWM算法原理示意图。(a): 在权重更新时,OWM算法只保留传统BP算法计算的权重增量中与历史任务输入空间正交的部分。(b): 在新任务中,OWM算法将神经网络对解的搜索范围约束在旧任务的解空间中。

OWM算法实现了对网络中已有知识的有效保护,并可以与现有梯度反传算法完全兼容,在连续学习测试任务中表现出了良好的性能。在连续学习的标准任务disjoint MNIST与shuffled MNIST任务中,OWM算法的表现超过了同类的其他算法。并且,随着学习的任务数目增加,OWM算法的性能优势会进一步加大。

利用OWM算法,神经网络可以连续学习识别ImageNet的1000类图片和3755个中文手写体汉字(每个任务仅训练一类图片或一个汉字)。值得一提的是,算法具有优良的小样本学习能力,以手写体汉字识别为例,基于预训练的特征提取器,系统可以从仅仅数个正样本中就能连续的学习新的汉字。

图2:在连续学习MNIST手写体数字0-9的任务中,随着任务数目的增加,OWM算法的优势也愈加明显。同时,任务的学习顺序会对个别任务产生影响。如先学数字4和7,会显著提升数字9的识别正确率。

图3:OWM算法在ImageNet和中文手写体汉字识别的连续学习任务上体现出优良的性能

图4:OWM实现汉字识别的小样本连续学习

CDP模块则是受前额叶皮层启发提出的。前额叶是大脑中负责认知控制的核心皮层。其同时接收感官输入和情境信号,并选择与当前任务最相关的感官信号指导输出响应。

受此启发,作者引入了类似的处理架构—CDP模块,它包括两个子模块:1.编码子模块,其负责将情境信息编码为适当的控制信号;2."旋转"子模块,其利用编码模块的控制信号处理任务输入(由于其功能上相当于将特征向量在高维空间上进行了旋转,故称为"旋转"子模块)。

图5:类前额叶的CDP模块的结构设计。左上角是其工作原理示意图。

若将CDP模块与OWM算法联合使用,神经网络只需要一个分类器,就可以连续学习40种不同的脸部特征的识别任务。并且,当不同的提示信号出现时,其对相应的特征做出判断,效果与引入40个分类器的情况相当。

图6:同一个分类器对于同样的输入,连续学习40种不同人脸属性的分类任务(蓝色数据点),正确率与用40个分类器的系统(橙色线)几乎一致

通过OWM算法有效克服灾难性遗忘,并通过CDP模块实现单个网络基于情境信号的多任务学习,二者结合有望让智能体通过连续不断的学习去适应复杂多变的环境,从而逐步逼近更高水平的智能。

论文链接:

Continual Learning of Context-dependent Processing in Neural Networks

Guanxiong Zeng, Yang Chen, Bo Cui & Shan Yu

原文页面:

https://www.nature.com/articles/s42256-019-0080-x

全文阅读:

https://rdcu.be/bOaa3

荣誉时刻:

2018年10月,由中科院自动化研究所脑网络组研究中心和模式识别国家重点实验室余山研究员指导,研究生曾冠雄、崔波和博士后陈阳组成的团队凭借作品《基于情境信号的连续多任务学习》,从国内外84所高校和研究院所的近300支参赛队伍中脱颖而出,荣膺2018年国际大学生类脑计算大赛最高奖---创新特等奖,并获得奖金30万元。

【紫冬快讯】自动化所团队荣获“2018年国际大学生类脑计算大赛”创新特等奖

智显未来,洞见新知

Discover Intelligence Future

更多精彩内容,欢迎关注

中科院自动化所官方网站:

http://www.ia.ac.cn

欢迎后台留言、推荐您感兴趣的话题、内容或资讯,小编恭候您的意见和建议!如需转载或投稿,请后台私信。

来源:自动化所脑网络组研究中心

撰文:陈阳、曾冠雄、余山

编辑:鲁宁、欧梨成

原文发布于微信公众号 - 专知(Quan_Zhuanzhi)

原文发表时间:2019-08-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券