大家好,欢迎收看本期科技小知识,
强化学习用好奇心解决稀疏奖励任务,人工智能处理强化学习。当涉及到强化学习时,主要的学习信号以奖励的形式出现:在每次做出决定后都会向代理人提供标量值。该奖励通常由环境本身提供,并由环境创建者指定。这些奖励通常对应于+1.0达到目标,死亡-1.0等等。我们可以将这些奖励视为外在因为它们来自代理之外。
如果有外在的回报,那就意味着也必须有内在的回报。内部奖励不是由环境提供,而是由代理本身根据一些标准产生的。当然,没有任何内在的奖励会做。我们想要最终达到某种目的的内在奖励,比如改变代理人的行为,以便将来获得更大的外在奖励,或者代理人将探索世界,而不是以其他方式进行探索。在人类和其他哺乳动物中,对这些内在奖励的追求通常被称为内在动机,并与我们的代理感受密切相关。
好了,本期的讲解就到这里,有喜欢的可以点个关注,我们下期再见!
领取专属 10元无门槛券
私享最新 技术干货