首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大脑是如何学习的?元强化学习系统或揭秘!

技术前沿

编译整理:萝卜兔

去年,AI系统还在玩围棋,最近,它们已经开始转战电子游戏了,比如经典的打方块或者乒乓球。虽然看起来玩的有声有色,风生水起,但是AI玩游戏仍然依赖于数千小时的游戏时间去达到并超过人类玩家。相反,我们只需要几分钟时间就可以掌握一个我们从未玩过的游戏的基础算法。

人类大脑可以用很少的时间或者信息学到更多的知识,这引发了元学习理论,也就是让机“学习如何学习”。通常情况下,我们在两个时间尺度上学习:

1、在短期时间里,学习具体的例子。

2、在长期时间里,学习完成任务所需要的抽象技能和规则。

这样的结合可以帮助我们更加高效的学习和灵活运用知识,达到举一反三。在AI系统中重建这种学习结构(称为Meta-reinforcement Learning),在快速学习、一次性学习中取得了比较显著的成效。但是大脑的这一学习过程在神经科学上仍然有很多的疑问,无法解释。

在自然杂志刊登的一篇新Paper《Prefrontal cortex as a meta-reinforcement learning system》,研究AI元强化学习系统来调查大脑中多巴胺是如何帮助我们学习的。多巴胺——通常被称为大脑的兴奋信号,在AI强化学习系统中常类比于奖励预测误差信号,这些 AI系统在Reward的引导下反复进行试验。我们认为,多巴胺的作用不仅仅激励的作用,它在让我们高效、快速、灵活的学习等方面也是不可或缺的,特别是在前额叶皮层区域。

通过从神经科学领域创建6个元学习系统来测试我们的理论——每个实验需要一个代理来执行有相同底层规则(或者一套技能)但是在某些方面不同的任务。我们用标准深层强化学习技巧(代表多巴胺作用)训练一个循环神经网络(代表前额叶皮质),然后将循环网络中活动动态数据与神经科学实验中得到的真实数据进行比较。循环神经网络能够很好的满足元学习,因为RNN能够把过去的行为和观察内化成经验,然后在训练任务中用上这些经验。

我们重新创建的一个实验被称为Harlow实验,这是20世纪40年代用于探索元学习概念的心理学测试。在最初的测试中,一群猴子被展示了两个陌生的对象供选择,选择其中一个会得到食物奖励。实验进行六次,每次两个物体左右摆放都是随机的,所以猴子们要知道选择哪个物体会有食物奖励。六次之后,再给他们看两个全新的物体,同样只有其中一个会得到食物奖励。在训练过程中,猴子发现了一种选择奖励关联对象的策略:它们第一次会随机选择,然后根据奖励反馈来选择下一次的对象,而不是简单的根据左右位置。实验表明,猴子可以内化任务的基本原理,学习抽象的规则——实际上就是学习。

当我们使用计算机屏幕和随机选择的图像模拟一个Harlow测试时,“meta - RL agent”系统似乎也有类似于Harlow实验中动物的方式学习,即使我们呈现了前所未有的全新图像。

在我们的实验中,实验对象必须把目光转向它认为与奖励关联的图像

事实上,我们发现meta - RL agent可以学会快速适应具有不同规则和结构的广泛任务领域。因为网络学会了如何适应各种任务,它也学会了如何有效学习的一般原则。

重要的是,大部分的学习都发生在循环神经网络,这也支持了我们的想法——多巴胺在元学习中扮演的角色比以前认为的更重要。传统上多巴胺被认为是增强前额叶系统中突触联系,增强特殊的行为,对比在AI系统中,这表示多巴胺,像反馈信号在学习解决任务的正确方法时调节神经网络中的人工神经元的权重一样。

但是,在我们的实验中,神经网络中权重是被冻结的,也就是说在学习过程中并不存在神经元权重的调节。可是,meta-RL agent仍然可以解决和适应新的任务。这表明多巴胺——不仅仅是像用来调节权重的反馈信号,而且还传达和编码有关抽象任务和规则结构,从而更快适应新的任务。

神经学家早已观察到前额叶皮层类似的神经激活模式,这种模式适应快,灵活,但是一直难以找到充分的解释。前额叶系统不是依靠缓慢的突触权重变化来学习规则结构,而是用抽象模型——基于信息直接编码多巴胺。

为了证明人工智能元强化学习的关键因素也适应于人类大脑,我们提出了这一理论——多巴胺不仅仅是反馈信号,这一理论不仅符合多巴胺和前额叶皮层的已知知识,而且也解释了神经科学和心理学的一些疑惑。特别是,这一理论揭示了大脑中如何出现结构和,基于模型的学习,多巴胺本身为什么包含基于模型的信息,以及前额叶皮层的神经元如何适应学习相关信号。

利用AI的相关研究,可以结合到神经科学和心理学的发现甚至反哺于这些学科,可以看出每个领域都可以互相提供有价值的信息。未来的相关研究,在强化学习系统中设计新的学习模型时,可以从特定脑回路组织的指导下,从相反的方向可以获得新的发现。

论文链接:

https://www.biorxiv.org/content/early/2018/04/06/295964

https://deepmind.com/blog/prefrontal-cortex-meta-reinforcement-learning-system/

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180612A09DK300?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券