专栏首页数据派THU独家 | 强化学习中的策略网络vs数值网络(附链接)

独家 | 强化学习中的策略网络vs数值网络(附链接)

作者:SAGAR SHARMA

翻译:张恬钰

校对:王威力

本文1000字,建议阅读5分钟。

本文为你解释强化学习中的策略网络和数值网络。

在强化学习中,智能体(agent)在环境中进行一些随机的抉择,并从很多选择中选择最优的一个来达到目标,实现优于人类的水平。在强化学习中,策略网络和数值网络通常一起使用,比如蒙特卡洛树搜索。这两个网络是探索蒙特卡洛树搜索算法中的一个整体部分。

因为他们在迭代过程中被计算了很多次,所以也被叫做策略迭代和数值迭代,。

接下来我们一起来理解这两个网络在机器学习中为什么如此重要,以及它们之间有什么区别。

什么是策略网络?

考虑这个世界上的任何游戏,玩家在游戏中的输入被认为是行为a,每个输入(行为)导致一个不同的输出,这些输出被认为是游戏的状态s。

从中我们可以得到一个不同状态-行动的配对的列表。

代表哪个行动导致哪个状态。同样的,我们可以说S包括了所有的策略网络中的策略。

策略网络是,给定特定的输入,通过学习给出一个确定输出的网络。

图1 策略网络(动作1,状态1),(动作2,状态2)

比如,在游戏中输入a1导致状态s1(向上移动),输入a2会导致状态s2(向下移动)。

并且,有些行动能增加玩家的分数,产生奖赏r。

图2 状态获得奖赏

来看一些强化学习中常用的符号:

为什么我们使用贴现因子

它是为了防止奖赏r达到无穷大的预防措施(通常小于1)。一个策略无穷大的奖励会忽略掉智能体采取不同行动的区别,导致失去在游戏中探索未知区域和行动的欲望。

但我们在下一次行动到达什么状态才能通往决赛呢?

图3 如何决策下一个动作

什么是数值网络?

通过计算目前状态s的累积分数的期望,数值网络给游戏中的状态赋予一个数值/分数。每个状态都经历了整个数值网络。奖赏更多的状态显然在数值网络中的值更大。

记住奖赏是奖赏期望值,因为我们在从状态的集合中选择一个最优的那个。

接下来,主要目标是最大化期望(马尔科夫决策过程)。达到好的状态的行动显然比其他行动获得更多奖赏。

因为任何游戏都是通过一系列行动来获胜。游戏中的最优化策略

由一系列的能够帮助在游戏中获胜的状态-行动对组成。

获得最多奖赏的状态-行动对是最优化的策略。

最优化的策略的等式通过最大化语句来写出:

因此,最优化的策略告诉我们采取哪个行动能够最大化累计折扣奖励。

通过策略网络学习到的最优化的政策知道当前状态下应该采取哪个行动来获得最大化的奖赏。

如果你有任何疑问或者需求,在下面评论或者推特我。

鼓掌……分享它!在Medium上关注我来获得相似的有趣内容。

在推特上关注我来获得及时的提醒。

原文标题:

Policy Networks vs Value Networks in Reinforcement Learning

原文链接:

https://towardsdatascience.com/policy-networks-vs-value-networks-in-reinforcement-learning-da2776056ad2

译者简介

张恬钰,上海交通大学本科物理专业,Emory University生物统计硕士在读。以后想继续在生物统计方向深造。希望能留在美国学习和工作。希望能和广大的数据爱好者做朋友!

本文分享自微信公众号 - 数据派THU(DatapiTHU)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-11-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 清华出品 | 人脸识别最全知识图谱

    自20世纪下半叶,计算机视觉技术逐渐地发展壮大。同时,伴随着数字图像相关的软硬件技术在人们生活中的广泛使用,数字图像已经成为当代社会信息来源的重要构成因素,各种...

    数据派THU
  • 独家 | 一文读懂复杂网络(应用、模型和研究历史)

    前言 随着近几年关于复杂网络(Complex network)理论及其应用研究的不断深入,已有大量关于复杂网络的文章发表在Science,ature,RL,NA...

    数据派THU
  • 当AI黑科技撞上大数据日:清华大学第四届大数据日成功举办

    春风送暖,万物芳华,清华大学迎来了她107岁生日;值此之际,清华-青岛数据科学研究院(以下简称“数据院”)在2018年4月26日C楼前广场举办了主题为——“AI...

    数据派THU
  • jmeter跨线程组传值

    在测试过程中,有时候需要jmeter跨线程组传值,jmeter本身又不具备此功能,那么,又该如何实现呢?

    流柯
  • 2020年开春最新面试!今日头条安卓面试题及答案 (已拿到 offer)

    面试是一个不断学习、不断自我提升的过程,有机会还是出去面面,至少能想到查漏补缺效果,而且有些知识点,可能你自以为知道,但让你说,并不一定能说得很好。

    Android扫地僧
  • delete操作对UNDO表空间容量的冲击

    对于回滚事务,他保存的是修改值的前镜像,注意,不是修改的数据块,或者整行记录的镜像。

    bisal
  • 浅析几种设计模式--策略模式

    策略模式是对算法的包装,把使用算法的责任和算法本身分隔开,委派给不同的对象管理。策略模式通常把一系列的算法包装到一系列的策略类里面,作为一个抽象策略类的子类。

    用户4143945
  • SDN实战团分享(十三):SDN测量的研究尝试

    各位前辈,大神好!我是张鹏飞,现在上海交大博士生在读,来自OMNILab。我的主要研究兴趣是SDN 网络测量和分析,今天厚着脸皮分享下我们在SDN测量方面的一些...

    SDNLAB
  • 从 URL 输入到页面展现发生了什么

    小胖
  • 探索MVP(Model-View-Presenter)设计模式在SharePoint平台下的实现

    对于SharePoint Developers来说,往往会过多的去关注SharePoint平台和工具,而把设计模式和代码的可测试性放在了一个较低的优先级。这并...

    用户1161731

扫码关注云+社区

领取腾讯云代金券