强化学习在量化投资中应用(理论简介)

  • 什么是强化学习?

强化学习任务通常用马尔科夫决策过程(MarkovDecision Process,MDP)来描述:机器处于环境E中,状态空间为S,其中每个状态s∈S是机器给你知道的环境的描述;机器能采取的动作构成了动作空间A,若某个动作a∈A作用在当前状态s上,则潜在的转移函数P将使得环境从当前状态按某种概率转移到另一个状态,在转移到另一个状态的同时,环境会根据潜在的“奖赏”(Reward)函数R反馈给机器一个奖赏。综合起来,强化学习任务对应了四元组

E= <S,A,P,R>,

其中P:S×A×S ↦ℝ指定了状态转移概率,R: S×A×S ↦ℝ指定了奖赏。在有的应用中,奖赏可能仅与状态转移有关,即R:S×S ↦ℝ。

强化学习过程中,机器要做的就是通过在环境中不断尝试而学得一个“策略”π,根据这个策略,在状态s下就能得知要执行的动作a =π(s)。对于确定性策略,可表示为π:S↦A,表示根据状态可得确定的执行动作;对于随机性策略,可表示为π:S×A ↦ℝ,表示根据状态和可执行的动作,可得执行该动作的概率,这里

策略的优劣取决于长期执行这一策略后得到的累积奖赏,即不仅考虑执行一个动作执行后当前的奖赏,而且考虑随着状态的变化,后续奖赏的综合。强化学习的目的就是要找到能使长期累积奖赏最大化的策略。长期累积奖赏有多种计算方式,最为常用的是“折扣累积奖赏”

其中rt表示第 t 步获得的奖赏,?表示对所有随机变量求期望。

实际上强化学习的策略相当于监督学习中的“分类器”,但是强化学习中没有标记样本,即每一步并不会知晓应该做什么动作,只有等最终结果揭晓,才能通过机器“反思”之前的动作是否正确来进行学习,因此,强化学习在某种意义上可看作具有“延迟标记信息”的监督学习问题。

  • 为什么是强化学习?

最优化动态调整流动资产配置(对单一资产的持仓与否或是对多资产的配置比例)实际上可以看作MDP(Markovian Decision Problem)问题,因此强化学习可以考虑应用于此。

对于流动资产配置可通过如下模型刻画:

即训练出来的策略π*能够在给定状态下,选择出能使长期累积奖赏最高的动作a。在实际应用中,我们希望利用类似方法通过强化学习获得这样一种投资策略,在当前的历史市场信息和已有的资产配置状态下,能够选择出能使长期累积收益最大的资产配置行为。

值得说明的是,多数情况下,市场从$t到$t+1的变化是随机的,并不依赖的选择,从而即使是相同的状态和行为可能获得的收益也不相同。但是,该模型主要目的是获得期望的折扣收益,不管收益如何随机变动,只要折扣收益的期望不变,最优化的策略也并不发生改变。

三、 如何利用强化学习?

参考文献 1. 周国平.《机器学习》 2. Moody, John E., et al. "Reinforcement Learning for Trading Systems and Portfolios." 3. Jian Li, Laiwan Chan., “Adjustment Reinforcement Learning for Risk-averse Asset Allocation” 4. Neuneier.,” Optimal Asset Allocation using Adaptive Dynamic Programming”

听说,置顶关注我们的人都不一般

原文发布于微信公众号 - 量化投资与机器学习(ZXL_LHTZ_JQXX)

原文发表时间:2016-09-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

TPU加AutoML:50美元快速训练高效的ImageNet图像分类网络

机器之心整理 参与:刘晓坤、思源 昨日,Jeff Dean 在推特上表示他们在 ImageNet 图像分类上发布了新的 DAWNBench 结果,新型 Amoe...

38811
来自专栏人工智能头条

Bengio终结Theano不是偶然,其性能早在Keras支持的四大框架中垫底

1202
来自专栏大数据挖掘DT机器学习

美团推荐算法实践:机器学习重排序模型

本文介绍了美团网推荐系统的构建和优化过程中的一些做法,包括数据层、触发层、融合过滤层和排序层五个层次,采用了HBase、Hive、storm、Spark和...

6066
来自专栏人工智能头条

本周必看 | 7月ML&Python 最佳开源项目Top 10 :从几百个项目中脱颖而出,都在收藏!

【导读】七月就要结束了,在即将到来的 7 月最后一个周末,人工智能头条为大家整理了本月 ML 和 Python 最受欢迎的十大开源项目。就算放假在家也可以知道大...

1263
来自专栏新智元

【揭秘】美团如何用机器学习优化推荐系统算法

本文介绍了美团网推荐系统的构建和优化过程中的一些做法,包括数据层、触发层、融合过滤层和排序层五个层次,采用了HBase、Hive、storm、Spark和机器学...

4336
来自专栏ATYUN订阅号

【技术】谷歌利用深度学习结合荧光标记,准确预估显微图像

AiTechYun 编辑:chux ? 在生物学和医学领域,显微技术为研究人员提供人肉眼无法观察到的细胞和分子的细节。透射光显微镜能够将生物样本照亮的同时进行成...

3157
来自专栏数据派THU

精选 Github 近期13款开源工具包!(附数据集、链接)

本文共1700字,建议阅读6分钟。 本文为你精选近期Github上的13款深度学习开源工具包和数据集,一起Star和Fork吧~

1758
来自专栏AI科技大本营的专栏

AI 技术讲座精选:如何创建简易且能分辨垃圾邮件的ML分类器

在本篇教程中,我们会先提出要解决的问题,然后再利用名为朴素贝叶斯分类器(NaiveBayes Classifier)的机器学习技术解决相应的问题,非常简单。本篇...

3283
来自专栏AI科技评论

学界 | 谷歌《Cell》论文:光学显微镜+深度学习=荧光显微镜

谷歌在透射光显微镜和荧光显微镜这两种显微镜技术上获得灵感,在《Cell》上发表了利用深度学习来对显微镜细胞图像进行分色荧光标记的论文。 AI 科技评论按:在生物...

43411
来自专栏人工智能LeadAI

用Q-Learning算法实现无人车智能代理程序

优达学城的第四个项目,通过Q-Learning算法来实现一个简单的无人车代驾程序。 先来一张训练过程的动图。 ? 01 需求分析 一个无人车需要满足的最基本需...

3666

扫码关注云+社区

领取腾讯云代金券