首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

强化学习从基础到进阶--案例与实践含面试必知必答[9]:稀疏奖励、reward shaping、curiosity、分层强化学习HRL

实际上用强化学习训练智能体的时候,多数时候智能体都不能得到奖励。在不能得到奖励的情况下,训练智能体是非常困难的。例如,假设我们要训练一个机器臂,桌上有一个螺丝钉与一个螺丝起子,要训练它用螺丝起子把螺丝钉栓进去很难,因为一开始智能体是什么都不知道,它唯一能够做不同的动作的原因是探索。例如,我们在做 Q学习 的时候会有一些随机性,让它去采取一些过去没有采取过的动作,要随机到,它把螺丝起子捡起来,再把螺丝栓进去,就会得到奖励1,这件事情是永远不可能发生的。所以,不管演员做了什么事情,它得到的奖励永远都是 0,对它来说不管采取什么样的动作都是一样糟或者是一样好。所以,它最后什么都不会学到。

03
领券