本教程是Google DeepMind 研究人员在 ICML 2020 做的基于模型的强化学习教程,作者为 Igor Mordatch and Jessica Hamrick,教程链接为 https://sites.google.com/view/mbrl-tutorial 。
本教程对基于模型的强化学习(MBRL)领域进行了广泛的概述,特别强调了深层次的方法。MBRL方法利用一个环境模型来做出决策,而不是把环境当作一个黑盒子来处理,它提供了超越无模型RL的独特机遇和挑战。我们讨论了学习转移模型和奖励模型的方法,这些模型可以有效地用来做出更好的决策,理解规划和学习之间的关系。我们还强调了在典型的RL环境之外可以利用世界模型的方式,以及在设计未来的MBRL系统时,可以从人类认知中获得什么样的见解。
近年来,强化学习领域取得了令人瞩目的成果,但主要集中在无模型(model-free)方法上。然而,社区认识到纯无模型方法的局限性,从高样本复杂度、抽样不安全结果的需要到稳定性和再现性问题。相比之下,尽管基于模型的方法在机器人、工程、认知和神经科学等领域有很大的影响力,但在机器学习领域,基于模型的方法还没有得到充分的研究(但发展很快)。它们提供了一系列独特的优势和挑战以及互补的数学工具。本教程的目的是使基于模型的方法更容易被机器学习社区认可和访问。考虑到最近成功地应用了基于模型的规划,如AlphaGo,我们认为有必要及时全面地了解这一主题。在本教程结束时,学员应获得:
本教程将面向一般机器学习受众,但具体针对以下具有特定学习目标的群体:
熟悉基本的监督学习方法,熟悉强化学习公式和无模型方法是有益的,但不是必需的。