首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

强化学习用于智能油田

强化学习是连接主义学习的一种,和监督学习、非监督学习的区别和联系在于,非监督学习不需要样本,监督学习和强化学习需要样本,监督学习评价标准是对错,而强化学习的评价标准是好坏,强化学习更符合人类的学习过程。

1强化学习的发展

强化学习(reinforcementlearning)是从动物学习、参数扰动、自适应控制等理论发展而来,大概20年前就用于象棋(IBM深蓝机器人)比赛,并战胜了最聪明的人类。强化学习来自于行为心理学,最早数学心理学家认为动物和人类学习行为是随机进行的。50年代发展了所谓的随机学习模型,后来奖励和惩罚等概念的出现,研究系统越来越趋向于监督学习;60年代后来新规则改变了监督学习规则,新规则可实现强化学习,即根据成功和失败的信号学习,代替原理的使用训练样本进行学习,使用有评价的学习代替有监督的学习;70年代强化学习主要用来解决随机控制系统的学习控制问题;80年代后,随着人们对人工神经网络的研究不断取得进展,以及计算机技术的进步,产生了许多的强化学习算法,这个时期强化学习快速发展,比如1988年Sutton提出的瞬时差分方法(Temporaldifference method),自适应启发评价算法(Adaptiveheuristic critic algorithm,AHC),离散动作AHC算法的神经网络实现(Theneural network implement of AHC algorithm for discrete actions),连续动作的AHC算法(AHC algorithm forcontinuous actions)。

2强化学习的应用

强化学习的应用领域有游戏比赛、控制系统、机器人、调度管理等。强化学习需要考虑的问题有三方面:

(1)如何表示状态空间和动作空间;

(2)如何选择建立信号以及如何通过学习来修正不同状态-动作对的值;

(3)如何根据这些值来选择合适的动作。

标准的强化学习,智能体作为学习系统,获取外部的当前状态信息s,对环境采取试探行为u,并获取环境反馈的对此动作的评价r和新的环境状态。如果智能体的某动作u导致环境正的奖赏,那么智能体以后产生这个动作的趋势便会加强;反之,智能体产生这个动作的趋势将减弱。在学习系统的控制行为与环境反馈的状态即评价的反复交互作用中,以学习的方式不断修改从状态到动作的映射策略,以达到优化系统性能的目的。

强化学习在国际上十分活跃的研究领域,在研究强化学习是应注意一下几个问题:

(1)连续状态和连续动作问题。通常研究的强化学习系统,其系统和动作都认为是有限的集合,儿在实际问题中,其状态和动作往往是连续的,而连续空间的强化学习问题,目前研究的还不深入。

(2)非马尔科夫问题。环境从一个状态转移到另一个状态不一定是马氏过程,若环境是非马氏过程,一些算法的学习效果可能不好,甚至不收敛。

(3)探索和成绩问题。强化学习系统必须对这二者进行这种处理,即获得知识和获得搞回报之间进行折衷。探索对学习来说是非常重要的,只有通过探索才能确定最优策略,而过多的探索会降低系统的性能,甚至在某些情况下对学习产生不利的影响。

3强化学习用于正演和反演

反演问题中的参数调整和下棋一样,每一个棋子相当于一个参数,每个棋子的位置相当于参数的值,棋子走过的路径相当于参数的调整过程,棋局的输赢相当于正演结果和观测数据吻合程度的好坏,棋局输赢问题相当于动态地调整参数达到最佳反演效果。下棋属于离散的、有限状态的优化问题,而很多反演问题是连续参数空间的优化问题,学习的难度更大。

强化学习把学习看作试探评价过程,Agent(相当于一个正演模型)选择一个动作用于环境,环境接受该动作后状态发生变化,同时产生一个强化信号(奖或惩)反馈给Agent,Agent根据强化信号和环境当前状态再选择下一个动作,选择的原则是收到正强化的概率增大。强化学习中,由环境提供的强化信号是对产生动作的好坏作一种评价,而不是告诉强化学习系统(reinforcementlearning system)如何去产生正确的动作,由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习。通过这种方式,Agent再行动—评价的环境中获得知识,改进行动方案——适应环境。

强化学习系统学习的目标是动态地调整参数,以达到强化信号最大。若已知r/A梯度信息,则可直接使用监督学习算法。因为强化信号r与Agent产生的动作A没有明确的函数形式描述,所以梯度信息r/A无法得到。因此,在强化学习系统中,需要某种随机单元,使用这种随机单元,Agent在可能动作中进行搜索并发现正确的动作(机器人的每一个动作都是瞬时优化的结果,每个动作都是一个正演模型)。

智能油田中强化学习的使用方式是:(1)建立初步的地质模型,开展数值模拟模拟;(2)根据剩余油分布部署新井,即扰动;(2)根据新井的表现评价该动作的好坏,并检测环境的变化,即油藏动静态特征;(3)根据评价的好坏与检测数据,返回步骤(1),修改地质模型,开展新的数值模拟,完成闭合优化循环。

研究连续空间的强化学习问题有助于解决更大范围的模型反演问题,后文待续。

参考文献

强化学习的百度百科

张汝波,顾国昌.强化学习理论,算法及应用[J].控制理论与应用,2000, 17(5):637-642.

---------------------------------

欢迎加入知识星球,讨论智能油田建设。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180212G0U29I00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券