深度:机器如何模仿人类的学习方式?

导读:

古有算盘,今有计算机,人工智能(Artificial Intelligence,AI)始终是人类永恒又美好的梦想。然而,漫漫的历史长河中人类前仆后继,虽然计算机技术已经取得了长足的进步,然而仍然没有一台机器产生真正的“自我”意识。谷歌大脑认出猫和狗,阿法狗打败了李世石,智能车拉着我们去兜风……尽管深度学习(Deep Learning)让 AI 在近期取得了诸多突破,但人工智能始终还是离不开“人工+智能”,离不开大量的人工标定数据去指导智能系统的学习。

ImageNet,COCO,Places,我们为了智能而不断人工,为了一劳永逸而不断地标定数据。然而,这并不是人类的最终梦想——不劳而获。直到 Science 封面文章 Bayesian Program Learning(BPL,《Human-level concept learning through probabilistic program induction》),像人类一样学习的人工智能又引爆了人类曾经的梦想,Google DeepMind 的新成果 Memory-Augmented Neuaral Networks(MANN,《One-shot Learning with MemoryAugmented Neuaral Networks》)让梦想又朝现实迈进了一步。

懒惰是人类社会进步的原动力,单点学习(One-Shot learning)的目标是不劳而获。不同于传统机器学习方法需要大量数据去学习和反复的训练,One-Shot 通过单一的训练样本去学习并做出准确的预测。然而,One-Shot learning 是一个永恒的挑战。由于现有的机器学习模型参数量庞大,小样本下很难在巨大的搜索空间中找到刻画本质属性的最优解。

因此当遇到新的任务(Task)时,传统学习算法只能通过新任务的大量样本低效率地去调整(finetuning)原有模型,以保证在杜绝错误干扰(Catastrophic Interference)的情况下将新信息充分涵括。BPL 从认知科学的角度,基于贝叶斯过程模拟人类学习思路;MANN 从神经科学的角度,基于记忆神经网络构造仿生学习模型。相比于贝叶斯过程学习(BPL),记忆增强神经网络(MANN)将 One-shot Learning 从应用驱动型推向数据驱动型从已有数据出发去主动挖掘One-shot Learning的方法。通过关注存储内容的外部记忆机制快速吸收新知识,并且仅利用少数几个例子就可以从数据中做出准确预测。

一、人的学习—记忆与学习(Memory & Learning)

从神经科学的角度来说,学习(Learning)定义为将经验(Experience)编码进记忆(Memory)的过程。鱼的记忆只有 7 秒,没有记忆的学习不是智能,鱼永远是只能在水里游的鱼。学习形成了不同类型的记忆:形象记忆(以感知过的事物形象为内容),情绪记忆(以过去体验过的情感为内容),逻辑记忆(是以概念命题为内容),动作记忆(以操作性行为为内容)……记忆指导学习,学习增强记忆。人类从刀耕火种,婴儿从呱呱落地,“学习→ 记忆→学习”贯穿着社会与个体。对于社会,古书典籍让经验得到记忆;对于个体,大脑皮层让知识得到记忆。

人的学习过程中(如下图),大脑对外部环境进行感知,注意机制对感兴趣的信息保持关注;在工作记忆中,新知识在旧知识的基础上通过检索被快速建立起来;而后经过神经元的加工整理,形成难被遗忘的长时记忆。由此,人不断地从生活经验中建立并整合知识,从而学会处理日益复杂的任务。在持续不断的学习过程中,对以往知识检索利用,使得人们只需要少量的训练就能快速地学会新的任务。综上,一个真正的智能系统应具备以下两方面的作用:

(1)在长时记忆系统中建立一个可检索的知识库; (2)在交互过程中持续不断的整合更新知识库。

二、MANN——学会学习(Learning to Learn)

埃德加•福尔在《学会生存》中指出:“未来的文盲不再是不认识字的人,而是没有学会怎样学习的人 。 ”学会学习(Learning to Learn)不仅仅是教育界面临的问题,也是机器学习中面临的问题:未来的智能不再是能干活的机器,而是学会怎样学习的机器。“学会学习” 中的“学习”即为元学习(Meta-learning)。行为学意义上认为元学习是学习行为本身的改变;信息学意义上认为元学习是关于获取知识和经验的学习。人工智能意义上的元学习一般指的是一种迁移学习(Transfer Learning)方案,通过已有的知识辅助新知识的学习,照着葫芦画瓢,照着猫画老虎。可规模化的元学习方案应满足以下两个要求

(1)知识必须以稳定且可寻址的方式存储; (2)存储容量不与参数规模相关。

长短时模型(Long Short Term Model,LSTM)通过隐性的共享记忆结构,不完全地实现知识的存储。直到了神经图灵机(Neuaral Turing Machine,NTM)的出现,NTM 引入带记忆的神经网络去模拟大脑皮质的长时记忆功能,实现用极少量新任务的观测数据进行快速学习。不同于传统神经网络,NTM(如下图)通过控制器(Controller)对输入输出(Input/Output)向量进行选择性地读写(Read&Write Heads)操作,实现与外部记忆矩阵(Memory)进行交互。基于强泛化能力的深度神经网络架构,并综合长时观测的记忆模型与新观测的匹配信息对存储内容进行有效地更新。

相比于神经网络图灵机,记忆增强神经网络(MANN)提出了一种新读写更新策略——LRUA(Least Recently Used Access)。有别于 NTM 由信息内容和存储位置共同决定存储器读写, MANN 的每次读写操作只选择空闲或最近利用的存储位置,因此读写策略完全由信息内容所决定。这种更为灵活的读写策略更适用于时序无关的分类回归问题。MANN 结合了更灵活的存储能力和强泛化的深度架构,实现知识的更为高效的归纳转移(Inductive transfer)——新知识被灵活的存储访问,基于新知识和长期经验对数据做出精确的推断。

三、终极理想——终身学习(Life-long Learning)

活到老学到老,人的一生是学习的一生。终身学习(Life-long Learning)是一种能够存储学习过的任务知识,并能利用旧知识快速学习新任务的完整系统方案。相较于传统机器学习方法,终身学习凭借任务间的知识共享和知识库的知识积累,突破了学习过程在样本集和时间上的限制,为实现高效及高度智能化的系统提供可能。

一个终身学习系统包含以下基本组成部分,各模块间的相互作用共同实现“活到老学到老”。

(1)知识仓库(Memory)

记忆是智能的基础,终身学习系统期望充分利用已学过的知识辅助学习。知识仓库用于存储学习过程中需要长期存储的知识。其中可分为基础知识和抽象知识两类,分别支持知识从简单到复杂的纵向迁移,以及相关任务之间知识的横向迁移。

(2)任务队列(Controller)

任务队列考虑知识的学习顺序对系统的泛化能力与学习代价的影响。学习顺序设置对学习有着重要的影响,因此终身学习系统期望合理设置学习顺序以越快越好地进行学习,循序渐进,抛砖引玉。此外,高效的任务队列也为终身学习系统提供主动学习的可能,系统可以主动优先学习对关键任务。

(3)知识迁移(Read)

知识迁移是终身学习系统的基础。知识迁移从知识仓库中选择对新知识(目标领域,Target Domain)有帮助的旧知识(源领域,Source Domain)进行迁移。因此要求终身学习系统应具备有效度量并创造正迁移条件的能力,充分利用已经学到的任务知识,尽可能高效地学习新任务——迁移什么?如何迁移?何时迁移?

(4)知识整合(Write)

知识整合是终身学习系统中至关重要的环节,以保证知识仓库能得到及时的更新。取其精华,去其糟粕,知识在整合过程中,系统应对知识进行相应的筛选,在兼顾不损害原有知识的前提下,尽可能整合有利于迁移的新知识。

学海无涯,活到老学到老。人工智能之路漫漫,吾将上下而求索。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2016-09-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

KDnuggets热门深度学习工具排行:Pylearn2 居首,Caffe第二

1603
来自专栏CVer

机器学习&深度学习网站资源汇总

今天推荐一个超NB的开源项目mlhub123,我自以为自己收集的"黑科技"已经够多够全了,但直接看到mlhub123,哈哈,自惭形秽。

2731
来自专栏数据科学与人工智能

【陆勤践行】机器学习最佳入门学习资料汇总

这篇文章的确很难写,因为我希望它真正地对初学者有帮助。面前放着一张空白的纸,我坐下来问自己一个难题:面对一个对机器学习领域完全陌生的初学者,我该推荐哪些最适合的...

2336
来自专栏专知

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

【导读】专知内容组整理了最近六篇用户建模相关文章,为大家进行介绍,欢迎查看! 1. User Profiling through Deep Multimodal...

8726
来自专栏磐创AI技术团队的专栏

热点 | 四月最佳Github项目库与最有趣Reddit热点讨论(文末免费送百G数据集)

1312
来自专栏大数据挖掘DT机器学习

Slope one:简单高效的推荐算法

推荐系统最早在亚马逊的网站上应用,根据以往用户的购买行为,推荐出购买某种产品同时可能购买的其他产品,国内做的不错的当当网,有时候买书,它总能给我推荐出我感兴趣的...

3416
来自专栏申龙斌的程序人生

读书:学得少,考得好

《Learn More Study Less》这本书最早在网上直译为《学得少却考得好》,后来机械工业出版社翻译为《如何高效学习》。这本书我是2013年从褪墨网站...

37313
来自专栏玉树芝兰

如何快速梳理领域文献

给研究生上课的时候,有一次作业是让他们就某一个具体领域做文献分析。这个作业基本上就没有很完满而愉快地完成过。

1562
来自专栏AI科技评论

不一样的论文解读:2018 KDD best paper「Embeddings at Airbnb」

Airbnb 的 Real-time Personalization using Embeddings for Search Ranking at Airbnb...

1832
来自专栏灯塔大数据

每周学点大数据 | No.10何谓大数据算法

No.10期 何谓大数据算法 Mr. 王:下面我们就来谈谈大数据算法与一般算法的区别和联系。 小可:好。 Mr. 王:前面我们讲了如何评价一个算法,在相对比较...

3528

扫码关注云+社区

领取腾讯云代金券