强化学习在量化投资中应用（理论简介）

量化投资与机器学习微信公众号

发布于 2018-01-29 15:23:40

2K0

发布于 2018-01-29 15:23:40

什么是强化学习？

强化学习任务通常用马尔科夫决策过程（MarkovDecision Process,MDP）来描述：机器处于环境E中，状态空间为S，其中每个状态s∈S是机器给你知道的环境的描述；机器能采取的动作构成了动作空间A，若某个动作a∈A作用在当前状态s上，则潜在的转移函数P将使得环境从当前状态按某种概率转移到另一个状态，在转移到另一个状态的同时，环境会根据潜在的“奖赏”（Reward）函数R反馈给机器一个奖赏。综合起来，强化学习任务对应了四元组

E= <S,A,P,R>,

其中P:S×A×S ↦ℝ指定了状态转移概率，R: S×A×S ↦ℝ指定了奖赏。在有的应用中，奖赏可能仅与状态转移有关，即R:S×S ↦ℝ。

强化学习过程中，机器要做的就是通过在环境中不断尝试而学得一个“策略”π，根据这个策略，在状态s下就能得知要执行的动作a =π(s)。对于确定性策略，可表示为π：S↦A，表示根据状态可得确定的执行动作；对于随机性策略，可表示为π:S×A ↦ℝ，表示根据状态和可执行的动作，可得执行该动作的概率，这里

策略的优劣取决于长期执行这一策略后得到的累积奖赏，即不仅考虑执行一个动作执行后当前的奖赏，而且考虑随着状态的变化，后续奖赏的综合。强化学习的目的就是要找到能使长期累积奖赏最大化的策略。长期累积奖赏有多种计算方式，最为常用的是“折扣累积奖赏”

其中rt表示第 t 步获得的奖赏，?表示对所有随机变量求期望。

实际上强化学习的策略相当于监督学习中的“分类器”，但是强化学习中没有标记样本，即每一步并不会知晓应该做什么动作，只有等最终结果揭晓，才能通过机器“反思”之前的动作是否正确来进行学习，因此，强化学习在某种意义上可看作具有“延迟标记信息”的监督学习问题。

为什么是强化学习?

最优化动态调整流动资产配置（对单一资产的持仓与否或是对多资产的配置比例）实际上可以看作MDP（Markovian Decision Problem）问题，因此强化学习可以考虑应用于此。

对于流动资产配置可通过如下模型刻画：

即训练出来的策略π*能够在给定状态下，选择出能使长期累积奖赏最高的动作a。在实际应用中，我们希望利用类似方法通过强化学习获得这样一种投资策略，在当前的历史市场信息和已有的资产配置状态下，能够选择出能使长期累积收益最大的资产配置行为。

值得说明的是，多数情况下，市场从$t到$t+1的变化是随机的，并不依赖的选择，从而即使是相同的状态和行为可能获得的收益也不相同。但是，该模型主要目的是获得期望的折扣收益，不管收益如何随机变动，只要折扣收益的期望不变，最优化的策略也并不发生改变。

三、如何利用强化学习？

参考文献 1. 周国平.《机器学习》 2. Moody, John E., et al. "Reinforcement Learning for Trading Systems and Portfolios." 3. Jian Li, Laiwan Chan., “Adjustment Reinforcement Learning for Risk-averse Asset Allocation” 4. Neuneier.,” Optimal Asset Allocation using Adaptive Dynamic Programming”

听说，置顶关注我们的人都不一般

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2016-09-13，如有侵权请联系 cloudcommunity@tencent.com 删除

强化学习

本文分享自量化投资与机器学习微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

强化学习

登录后参与评论

0 条评论

热度

强化学习在量化投资中应用（理论简介）

强化学习在量化投资中应用（理论简介）

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐