前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >解读PREFRONTAL CORTEX AS A META-REINFORCEMENT LEARNING SYSTEM

解读PREFRONTAL CORTEX AS A META-REINFORCEMENT LEARNING SYSTEM

作者头像
用户1908973
发布2019-07-01 16:46:21
6120
发布2019-07-01 16:46:21
举报
文章被收录于专栏:CreateAMindCreateAMind

之前强化学习理论给予了神经科学以灵感和启发:

最近在理解奖励驱动学习所涉及的机制方面取得了令人振奋的进展。这一进展部分是通过输入强化学习领域(RL)的思想来实现的。最重要的是,这种输入导致了基于RL的多巴胺能功能理论。在这里,相位多巴胺(DA)释放被解释为传达奖励预测误差(RPE)信号,这是在时间差RL算法中集中计算的意外指数。根据该理论,RPE驱动纹状体中的突触可塑性,将经验丰富的动作 - 奖励关联转化为优化的行为政策。在过去二十年中,该提案的证据稳步增加,将其作为奖励驱动学习的标准模型。

近期神经科学在前额皮质(PFC)的研究有了新发现又可以反过来指引RL:

前额皮质(PFC)研究引发了一个窘境。越来越多的证据表明,PFC实施了基于奖励的学习机制,执行与基于DA的RL相似的计算。它早已确立 PFC的各个部分代表着行动,对象和状态的期望值。最近,PFC中也出现了最近的行动和奖励的历史序列。编码的变量集以及关于PFC中神经激活的时间分布的观察结果得出结论:“PFC神经元动态[编码]转换来自奖励和 选择的历史到对象值,从对象值到对象选择“。简而言之,PFC中的神经活动似乎反映了一组操作,它们共同构成了一个独立的RL算法。在DA旁边放置PFC,我们获得了一个包含两个完整RL系统的图片,一个利用基于活动的表示,另一个是有关突触的学习

接下来,看这两个基于DA和PFC的强化学习如何整合:

他俩系统之间有什么关系?如果两者都支持RL,那么它们的功能是多余的?一个建议是DA和PFC提供不同形式的学习,其中DA实现基于直接刺激 - 响应关联的无模型RL,而PFC执行基于模型的RL,其利用任务结构的内部表示。然而,这种双系统视图的一个明显问题是重复观察到DA预测误差信号是由任务结构告知的,反映了“推断的”和“基于模型的”值估计很难与原始框架的标准理论。

论文中几个实验通过这个框架达到了他们各自的任务目的,下面具体地,由论文的simulation4来讲解一下,这是一个什么样的任务,又用什么样的架构解决了这个任务的问题:

下面说它用的什么框架:

这样训练完成它解决了什么问题:

当有一个新的序列输入时候,模型能分辨出这是哪一个任务,从而得出接下来该执行什么动作。更具体地说:比如上一个奖励是1,动作是A1,经过这个模型它能知道这个奖励是通过common 还是uncommon transition 得到的,(s0到s1再到奖励1是大概率跳转时称为common transition,是通过小概率跳转得到的奖励成为uncommon transition.因此,当通过模型知道奖励1是通过common transition得到时,模型知道接下来要多重复这个动作能得到更多奖励(论文中重复概率称为stay probability )。同样地,如果执行动作A2也得到奖励了1,但是模型学会了这是uncommon transition,它不会重复A2这个动作。同样都是得到奖励1,通过这个模型才可以知道该不该跟着干这个动作以或者更多奖励。 这就是这个模型要学到的最终效果,这个任务的效果,从另一个角度来说,是用RNN达到了world base的效果,尽管它并没有训练一个world 模型。

原文:Another important setting where structure-sensitive DA signaling has been observed is in tasks designed to probe for model-based control.

总结并强调这个新模型的本质

这种以前额皮质(PFC)的机制来建模的metal rl leaning,主要利用了PFC中发现的功能,它会吸收奖励和动作的历史序列,把这个序列encode为某种任务结构的内部表示。所以1,这个模型可以用于训练基于相同结构的多种任务上。所以2,训练完成后,你输入一个新的序列,这个模型能通过这个序列得到对应任务的内部结构表示,从而知道目前到底是哪个任务,从而给出针对这个任务该有的policy.

下面这个是代码链接:

https://github.com/mtrazzi/two-step-task

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-06-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档