0.来源说明
作者 | Huang, Chien Yi
编辑 | 九三山人
1.正文来咯
来自台湾国立交通大学的作者将深度递归Q学习算法应用于量化交易,实现了在较小内存需求下的交易算法,目前这种技术只适用于在一定假设市场条件下的金融交易,在外汇市场上进行了初步验证。
2.算法概述
从金融市场产生持续利润的自动程序对每一个市场从业者来说都是有利可图的。最近在深度强化学习方面的进展为此类交易代理的端到端培训提供了一个框架。
作者提出了一种适用于金融交易任务的马尔可夫决策过程模型,并利用目前最先进的深度递归Q-network (DRQN)算法进行求解。主要工作包括三个部分:
1. 我们对现有的学习算法进行了一些修改,使其更适合于金融交易环境;与现代深度强化学习算法中使用的重放内存(通常为数百万)相比,我们使用的重放内存非常小(只有几百个)。 2.我们开发了一种行为增强技术,通过向代理提供所有行为的额外反馈信号来减少随机探索的需要。与epsilon-greedy探索相比显示出了强大的经验性能。然而,这种技术只适用于少数市场假设下的金融交易。 3.我们为递归神经网络训练取样一个较长的序列。这个机制的一个副产品是,我们现在可以为每个T步骤训练代理。这大大减少了训练时间,因为整个计算量减少了一个因子t。我们将以上所有的算法结合成一个完整的在线学习算法,并在外汇市场上进行了验证。
3.核心算法(伪代码)