【源头活水】深入理解：迁移强化学习之Successor Representation

马上科普尚尚

发布于 2021-03-17 11:19:54

1.3K0

“问渠那得清如许，为有源头活水来”，通过前沿领域知识的学习，从其他研究领域得到启发，对研究问题的本质有更清晰的认识和理解，是自我提高的不竭源泉。为此，我们特别精选论文阅读笔记，开辟“源头活水”专栏，帮助你广泛而深入的阅读科研文献，敬请关注。

作者：知乎—Papers

地址：https://www.zhihu.com/people/liu-lan-25-44

前面写过两篇论文解读，都是关于Successor Features在迁移强化学习中的应用（点击进入第一篇，点击进入第二篇）。这两篇文章都是基于强化学习中的Successor Representation (SR)概念发展出来的，今天我们来详细探讨一下这里的Successor Representation。

背景及发展脉络

一般强化学习算法分为两类：model-based和model-free。Model-based的算法通过reward函数和状态转移函数的学习来估计值函数；而后者不考虑模型的具体表达形式，从状态-动作-奖励序列信号中直接估计值函数。

以上两类算法各有优劣，从算法的计算效率来看，model-free更胜一筹，因为它从经验数据中对值函数进行估计，不需要对状态空间中的所有状态进行遍历，因此特别适用于像神经网络这样基于数据的函数拟合器。但是其缺点就是一旦采样数据的分布发生变化，或者环境发生了变化，则之前学习到的参数统统失效，甚至有的时候一些细微的变化都会导致性能大幅度下降，也就是所谓的“灾难性遗忘（catastrophic forgetting）（https://www.pnas.org/content/114/13/3521）”问题。因此，从算法的灵活性来看，model-free的算法表现较差。而model-based算法则正好反过来，它在计算效率上不如model-free算法节省资源，但是模型更加灵活。这是因为model-based算法具有模型本身的一些先验知识，因此当环境发生变化的时候，可以从模型参数上对模型进行相应的修正，则算法依然能够表现得很好。但是这类算法在状态空间比较大的时候，将会特别消耗计算资源，甚至不可求解。

那能不能找到一种算法，能够从计算效率（efficiency）和灵活性（flexibility）之间进行折中呢？这就引入了今天要介绍的Successor Representations。

Successor Representation最早由MIT的Peter Dayan于1993年提出（https://core.ac.uk/reader/188812946） [1]，以下我们简称SR。考虑到TD算法的核心是估计从当前时刻开始到未来的累积奖励值（value function），Dayan认为这个值和后继状态的相似度关系密切。如果有一个很好的表征（representation）能够描述当前状态到未来某个状态的转移特性，则value function就可以分解为两个部分，一部分是这个表征，另一部分描述奖励函数。于是他提出了SR的方法，结合TD learning的优势和基于模型算法的灵活性，使得该算法被称为除了model-based和model-free的第三类强化学习算法 [2, 3]。

SR算法刚开始提出来，并没有受到太多重视。直到近几年随着深度强化学习技术的发展，有人开始注意到基于SR的强化学习的优势。特别地，在算法灵活性上，由于SR对环境的依赖性并不像TD-learning那么大，因此在迁移强化学习领域特别受到重视。比较典型的利用SR来做迁移强化学习的文章请参考 [3-6]。

为了研究基于SR表征的生理学基础，Momennejad等人在《Nature》的“人类行为”子刊上发表文章，在人类和啮齿类动物上做了大量的实验，来证明SR具有一定的生物学基础 [7]。另外Gershman也从行为学、神经科学的角度，对SR的计算逻辑和神经学基础进行了详细的分析，并认为SR在计算效率和灵活性上，相较于 model-based 和 model-free 实现了很好的折中 [2]，如下图所示。

算法效率、灵活性比较图

SR的定义及其和强化学习的关系

SR将智能体在当前时刻的状态用一个特征来表示，该特征不仅和当前状态有关，还和未来时刻的后继状态序列有关，因此，和智能体所使用的策略也有关系。SR并没有否定传统强化学习的理论框架，而是在其基础上，提出了一种新的思路来求解最优策略。SR可以被定义为：

其中

表示括号里的为真，0则表示为非真。可以看出，（1）式也可以写成Bellman方程：

因此，给定一个SR，基于策略

的Q函数就可以表示为：

当然，这里的（3）式要想求得精确值，需要对状态空间中的每一个状态

进行遍历求解，这极其消耗计算资源。为此，Kulkarni等人在 [3] 中用非线性函数拟合器来逼近这里的Q函数（即（3）式）。

首先，他们将每个状态用一个

维的特征向量

来表示，并用一个参数化的神经网络将状态映射到特征空间中，即

。针对每个

，再定义一个基于特征的SR，记作

。然后用另外一个神经网络

来拟合

。除此之外，对于reward函数，用一个权重向量

和

作线性组合得到reward函数的近似值，即

，其中

。

经过以上的操作，（3）式对Q函数的求解，可以转化为：

而

则可以通过Bellman方程求解：

其中，

以上就是基于SR做强化学习的基本模式，这种方式使得Q函数的求解转化为1）SR的求解和2）权重

的求解。可以发现，前者的学习由于具有Bellman方程形式，因此一般的强化学习算法都适用于求解该问题；对于后者，则普通的监督学习算法就可以拟合了。SR作为环境状态的一种表征，对不同的任务具有一般性，因此这种算法求出来的模型比较稳定和灵活。不同的

可以代表不同的任务，所以也具有一定的可迁移性。

在此基础上，由于Barreto等人发现了基于SR强化学习的可迁移性优势，于是提出了基于Successor Feature（SFs）和Generalized Policy Improvement（GPI）的迁移强化学习框架。关于这部分内容，请各位参考我前面的两篇文章：1）Successor Features for TRL；2）Transfer in DRL Using SFs & GPI。

SR的优势和缺点

尽管基于SR的强化学习具有一定的迁移性，但是毕竟状态的转移是和策略息息相关的。一旦策略发生变化，则学习出来的SR或者SFs仍然需要继续学习才能保持其准确性。也就是说，对于迁移强化学习来说，它仍具有一定的不足。

Lehnert等人在 [8] 中，专门针对基于 SFs 迁移强化学习的优势和限制进行了研究和分析。在单任务强化学习中，基于SFs的算法在收敛速度上不如Q-learning快。这是因为基于SFs的学习在一开始不仅要学习特征，还要拟合reward函数，因此在效率上不如Q-learning。

在多任务强化学习学习中，虽然任务的初始学习速度不如Q-learning快，但是当reward函数发生一点变化之后，SFs的性能表现出了更好的鲁棒性。但是这种好的性质，在reward函数发生较大变化的情况下，则不是很明显。

因此，在迁移强化学习中，基于SFs的算法性能仍是有限的。一旦在源任务上学到了最优策略

，其SR或者SFs就和

密切相关。要想在目标任务上快速得到新的最优策略，学习一个新的SR或者SFs是不可避免的，这就又回到迁移强化学习问题本身来了。

总结

SR作为一种状态表征方式，结合了model-based和model-free两类算法的优势，使得基于SR的算法在模型灵活性和计算效率上有一个较好的折中。SR的这一特点被应用在了迁移强化学习中，但是仍然具有一定的限制。对于迁移强化学习来说，如果能从不同任务、不同环境中找到一个可迁移的特征表达，那再好不过了。但是Successor Representation却不具备理想的特征可迁移性，因为它依赖于一个特定的策略。一旦学到了某个任务最优策略的SR，则不太容易直接将它迁移到另一个不同任务的最优策略上。

参考文献

[1] Dayan, Peter. "Improving generalization for temporal difference learning: The successor representation." Neural Computation 5, no. 4 (1993): 613-624.

[2] Gershman, Samuel J. "The successor representation: its computational logic and neural substrates." Journal of Neuroscience 38, no. 33 (2018): 7193-7200.

[3] Kulkarni, Tejas D., Ardavan Saeedi, Simanta Gautam, and Samuel J. Gershman. "Deep successor reinforcement learning." arXiv preprint arXiv:1606.02396 (2016).

[4] Zhang, Jingwei, Jost Tobias Springenberg, Joschka Boedecker, and Wolfram Burgard. "Deep reinforcement learning with successor features for navigation across similar environments." In 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 2371-2378. IEEE, 2017.

[5] Barreto, André, Will Dabney, Rémi Munos, Jonathan J. Hunt, Tom Schaul, Hado P. van Hasselt, and David Silver. "Successor features for transfer in reinforcement learning." In Advances in neural information processing systems, pp. 4055-4065. 2017.

[6] Barreto, Andre, Diana Borsa, John Quan, Tom Schaul, David Silver, Matteo Hessel, Daniel Mankowitz, Augustin Zidek, and Remi Munos. "Transfer in deep reinforcement learning using successor features and generalised policy improvement." In International Conference on Machine Learning, pp. 501-510. 2018.

[7] Momennejad, Ida, Evan M. Russek, Jin H. Cheong, Matthew M. Botvinick, Nathaniel Douglass Daw, and Samuel J. Gershman. "The successor representation in human reinforcement learning." Nature Human Behaviour 1, no. 9 (2017): 680-692.

[8] Lehnert, Lucas, Stefanie Tellex, and Michael L. Littman. "Advantages and limitations of using successor features for transfer in reinforcement learning." arXiv preprint arXiv:1708.00102 (2017).

[9] Barreto, André, Shaobo Hou, Diana Borsa, David Silver, and Doina Precup. "Fast reinforcement learning with generalized policy updates." Proceedings of the National Academy of Sciences (2020).

本文目的在于学术交流，并不代表本公众号赞同其观点或对其内容真实性负责，版权归原作者所有，如有侵权请告知删除。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-03-08，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法