首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

强化学习用好奇心解决稀疏奖励任务,人工智能处理强化学习

大家好,欢迎收看本期科技小知识,

强化学习用好奇心解决稀疏奖励任务,人工智能处理强化学习。当涉及到强化学习时,主要的学习信号以奖励的形式出现:在每次做出决定后都会向代理人提供标量值。该奖励通常由环境本身提供,并由环境创建者指定。这些奖励通常对应于+1.0达到目标,死亡-1.0等等。我们可以将这些奖励视为外在因为它们来自代理之外。

如果有外在的回报,那就意味着也必须有内在的回报。内部奖励不是由环境提供,而是由代理本身根据一些标准产生的。当然,没有任何内在的奖励会做。我们想要最终达到某种目的的内在奖励,比如改变代理人的行为,以便将来获得更大的外在奖励,或者代理人将探索世界,而不是以其他方式进行探索。在人类和其他哺乳动物中,对这些内在奖励的追求通常被称为内在动机,并与我们的代理感受密切相关。

好了,本期的讲解就到这里,有喜欢的可以点个关注,我们下期再见!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180627A0FOYY00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券