首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

学界 | 量化深度强化学习算法的泛化能力

AI 科技评论按:OpenAI 近期发布了一个新的训练环境 CoinRun,它提供了一个度量智能体将其学习经验活学活用到新情况的能力指标,而且还可以解决一项长期存在于强化学习中的疑难问题——即使是广受赞誉的强化算法在训练过程中也总是没有运用监督学习的技术,例如 Dropout 和 Batch Normalization。但是在 CoinRun 的泛化机制中,OpenAI 的研究人员们发现这些方法其实有用,并且他们更早开发的强化学习会对特定的 MDP 过拟合。 CoinRun 在复杂性方面取得了令人满意的平衡:这个环境比传统平台游戏如《刺猬索尼克》要简单得多,但它仍是对现有算法的泛化性的有难度的挑战。

02
领券