首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

集合三大类无模型强化学习算法,BAIR开源RL代码库rlpyt

2013 年有研究者提出使用深度强化学习玩游戏,之后不久深度强化学习又被应用于模拟机器人控制,自此以后大量新算法层出不穷。其中大部分属于无模型算法,共分为三类:深度 Q 学习(DQN)、策略梯度和 Q 值策略梯度(QPG)。由于它们依赖不同的学习机制、解决不同(但有重合)的控制问题、处理不同属性的动作集(离散或连续),因此这三类算法沿着不同的研究路线发展。目前,很少有代码库同时包含这三类算法,很多原始实现仍未公开。因此,从业者通常需要从不同的起点开始开发,潜在地为每一个感兴趣的算法或基线学习新的代码库。强化学习研究者必须花时间重新实现算法,这是一项珍贵的个人实践,但它也导致社区中的大量重复劳动,甚至成为了入门障碍。

01
领券