首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

强化学习从基础到进阶--案例与实践含面试必知必答:稀疏奖励、reward shaping、curiosity、分层强化学习HRL

强化学习从基础到进阶–案例与实践含面试必知必答[9]:稀疏奖励、reward shaping、curiosity、分层强化学习HRL 实际上用强化学习训练智能体的时候,多数时候智能体都不能得到奖励。...1.设计奖励 第一个方向是设计奖励(reward shaping)。环境有一个固定的奖励,它是真正的奖励,但是为了让智能体学到的结果是我们想要的,所以我们刻意设计了一些奖励来引导智能体。...例如,一种技术是给智能体加上好奇心(curiosity),称为好奇心驱动的奖励(curiosity driven reward)。...参考文献 神经网络与深度学习 5.强化学习从基础到进阶-常见问题和面试必知必答[9]:稀疏奖励、reward shaping、curiosity、分层强化学习HRL 5.1.核心词汇 设计奖励...(reward shaping):当智能体与环境进行交互时,我们人为设计一些奖励,从而“指挥”智能体,告诉其采取哪一个动作是最优的。

34930
领券