强化学习用好奇心解决稀疏奖励任务，人工智能处理强化学习

文章来源：企鹅号 - 热门科技集合

大家好，欢迎收看本期科技小知识，

强化学习用好奇心解决稀疏奖励任务，人工智能处理强化学习。当涉及到强化学习时，主要的学习信号以奖励的形式出现：在每次做出决定后都会向代理人提供标量值。该奖励通常由环境本身提供，并由环境创建者指定。这些奖励通常对应于+1.0达到目标，死亡-1.0等等。我们可以将这些奖励视为外在因为它们来自代理之外。

如果有外在的回报，那就意味着也必须有内在的回报。内部奖励不是由环境提供，而是由代理本身根据一些标准产生的。当然，没有任何内在的奖励会做。我们想要最终达到某种目的的内在奖励，比如改变代理人的行为，以便将来获得更大的外在奖励，或者代理人将探索世界，而不是以其他方式进行探索。在人类和其他哺乳动物中，对这些内在奖励的追求通常被称为内在动机，并与我们的代理感受密切相关。

好了，本期的讲解就到这里，有喜欢的可以点个关注，我们下期再见！

发表于: 2018-06-272018-06-27 09:59:12
原文链接：https://kuaibao.qq.com/s/20180627A0FOYY00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

强化学习用好奇心解决稀疏奖励任务，人工智能处理强化学习

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐