首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

用于深度强化学习的结构化控制网络(ICML 论文讲解)

摘要:近年来,深度强化学习在解决序列决策的几个重要基准问题方面取得了令人瞩目的进展。许多控制应用程序使用通用多层感知器(MLP),用于策略网络的非视觉部分。在本工作中,我们为策略网络表示提出了一种新的神经网络架构,该架构简单而有效。所提出的结构化控制网(Structured Control Net ,SCN)将通用多层感知器MLP分成两个独立的子模块:非线性控制模块和线性控制模块。直观地,非线性控制用于前视角和全局控制,而线性控制围绕全局控制以外的局部动态变量的稳定。我们假设这这种方法具有线性和非线性策略的优点:可以提高训练效率、最终的奖励得分,以及保证学习策略的泛化性能,同时只需要较小的网络并可以使用不同的通用训练方法。我们通过OpenAI MuJoCo,Roboschool,Atari和定制的2维城市驾驶环境的模拟验证了我们的假设的正确性,其中包括多种泛化性测试,使用多种黑盒和策略梯度训练方法进行训练。通过将特定问题的先验结合到架构中,所提出的架构有可能改进更广泛的控制任务。我们采用生物中心模拟生成器(CPG)作为非线性控制模块部分的结构来研究运动任务这个案例,结果了表面的该运动任务的性能被极大提高。

02

干货 | 用于深度强化学习的结构化控制网络(ICML 论文讲解)

摘要:近年来,深度强化学习在解决序列决策的几个重要基准问题方面取得了令人瞩目的进展。许多控制应用程序使用通用多层感知器(MLP),用于策略网络的非视觉部分。在本工作中,我们为策略网络表示提出了一种新的神经网络架构,该架构简单而有效。所提出的结构化控制网(Structured Control Net ,SCN)将通用多层感知器MLP分成两个独立的子模块:非线性控制模块和线性控制模块。直观地,非线性控制用于前视角和全局控制,而线性控制围绕全局控制以外的局部动态变量的稳定。我们假设这这种方法具有线性和非线性策略的优点:可以提高训练效率、最终的奖励得分,以及保证学习策略的泛化性能,同时只需要较小的网络并可以使用不同的通用训练方法。我们通过OpenAI MuJoCo,Roboschool,Atari和定制的2维城市驾驶环境的模拟验证了我们的假设的正确性,其中包括多种泛化性测试,使用多种黑盒和策略梯度训练方法进行训练。通过将特定问题的先验结合到架构中,所提出的架构有可能改进更广泛的控制任务。我们采用生物中心模拟生成器(CPG)作为非线性控制模块部分的结构来研究运动任务这个案例,结果了表面的该运动任务的性能被极大提高。

03
领券