【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

数据派THU

发布于 2022-09-27 17:12:49

2350

发布于 2022-09-27 17:12:49

文章被收录于专栏：数据派THU

来源：专知本文为论文介绍，建议阅读5分钟在这篇论文中，我们考虑了有趣的决策类所共有的不同属性。

强化学习(RL)为数据驱动决策提供了一个通用框架。然而，正是这种通用性使得这种方法适用于广泛的问题，也导致了众所周知的效率低下。在这篇论文中，我们考虑了有趣的决策类所共有的不同属性，这些属性可以用来设计计算效率和数据效率都很高的学习算法。具体来说，这项工作研究了决策问题的各个方面的低秩结构和经典确定性规划的效果稀疏性，以及基于端到端模型的方法所依赖的性能。我们首先展示了后继表示中的低秩结构如何使高效在线学习算法的设计成为可能。类似地，我们展示了如何在Bellman算子中找到相同的结构，我们使用Bellman算子来制定最小二乘时间差分学习算法的有效变体。我们进一步探索状态特征中的低秩结构，以学习完全允许在低维空间中进行高效规划的有效转换模型。然后，我们进一步了解基于模型的端到端方法，以便更好地理解它们的属性。我们通过约束优化和隐式微分的视角来研究这类方法。通过隐式视角，我们得到了这些方法的属性，这些属性使我们能够确定它们执行良好的条件。在本文的最后，探索了如何利用经典规划问题的效果的稀疏性来定义一般的领域无关启发式方法，通过使用基于潜在的奖励塑造和提升函数近似，可以用来大大加快领域相关启发式方法的学习。

https://dspace.mit.edu/handle/1721.1/144562