前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >强化学习在量化投资中应用(理论简介)

强化学习在量化投资中应用(理论简介)

作者头像
量化投资与机器学习微信公众号
发布2018-01-29 15:23:40
1.9K0
发布2018-01-29 15:23:40
举报
  • 什么是强化学习?

强化学习任务通常用马尔科夫决策过程(MarkovDecision Process,MDP)来描述:机器处于环境E中,状态空间为S,其中每个状态s∈S是机器给你知道的环境的描述;机器能采取的动作构成了动作空间A,若某个动作a∈A作用在当前状态s上,则潜在的转移函数P将使得环境从当前状态按某种概率转移到另一个状态,在转移到另一个状态的同时,环境会根据潜在的“奖赏”(Reward)函数R反馈给机器一个奖赏。综合起来,强化学习任务对应了四元组

E= <S,A,P,R>,

其中P:S×A×S ↦ℝ指定了状态转移概率,R: S×A×S ↦ℝ指定了奖赏。在有的应用中,奖赏可能仅与状态转移有关,即R:S×S ↦ℝ。

强化学习过程中,机器要做的就是通过在环境中不断尝试而学得一个“策略”π,根据这个策略,在状态s下就能得知要执行的动作a =π(s)。对于确定性策略,可表示为π:S↦A,表示根据状态可得确定的执行动作;对于随机性策略,可表示为π:S×A ↦ℝ,表示根据状态和可执行的动作,可得执行该动作的概率,这里

策略的优劣取决于长期执行这一策略后得到的累积奖赏,即不仅考虑执行一个动作执行后当前的奖赏,而且考虑随着状态的变化,后续奖赏的综合。强化学习的目的就是要找到能使长期累积奖赏最大化的策略。长期累积奖赏有多种计算方式,最为常用的是“折扣累积奖赏”

其中rt表示第 t 步获得的奖赏,?表示对所有随机变量求期望。

实际上强化学习的策略相当于监督学习中的“分类器”,但是强化学习中没有标记样本,即每一步并不会知晓应该做什么动作,只有等最终结果揭晓,才能通过机器“反思”之前的动作是否正确来进行学习,因此,强化学习在某种意义上可看作具有“延迟标记信息”的监督学习问题。

  • 为什么是强化学习?

最优化动态调整流动资产配置(对单一资产的持仓与否或是对多资产的配置比例)实际上可以看作MDP(Markovian Decision Problem)问题,因此强化学习可以考虑应用于此。

对于流动资产配置可通过如下模型刻画:

即训练出来的策略π*能够在给定状态下,选择出能使长期累积奖赏最高的动作a。在实际应用中,我们希望利用类似方法通过强化学习获得这样一种投资策略,在当前的历史市场信息和已有的资产配置状态下,能够选择出能使长期累积收益最大的资产配置行为。

值得说明的是,多数情况下,市场从$t到$t+1的变化是随机的,并不依赖的选择,从而即使是相同的状态和行为可能获得的收益也不相同。但是,该模型主要目的是获得期望的折扣收益,不管收益如何随机变动,只要折扣收益的期望不变,最优化的策略也并不发生改变。

三、 如何利用强化学习?

参考文献 1. 周国平.《机器学习》 2. Moody, John E., et al. "Reinforcement Learning for Trading Systems and Portfolios." 3. Jian Li, Laiwan Chan., “Adjustment Reinforcement Learning for Risk-averse Asset Allocation” 4. Neuneier.,” Optimal Asset Allocation using Adaptive Dynamic Programming”

听说,置顶关注我们的人都不一般

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-09-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量化投资与机器学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档