前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >深度 | 高频量化因子的批量生产与集中管理

深度 | 高频量化因子的批量生产与集中管理

作者头像
量化投资与机器学习微信公众号
发布2019-06-20 16:51:50
2.6K0
发布2019-06-20 16:51:50
举报
标星★公众号 爱你们♥

作者:海通金工团队

前言

量化因子计算可以定义为一种基于初等计算函数与一阶谓词逻辑的递归过程。量 化因子的本质是股票的某种数量化特征,一般需要通过对股票某些数量信息进行 计算得到。与计算机函数从“函数输入出发,输入函数计算,得到函数输出”相 类似,量化计算过程也可以拆解为“从量化指标出发,输入量化计算,得到新量 化指标”。由此可见,计算机函数构成的基本逻辑——递归过程也同样适用于因 子计算架构。

定义量化指标的计算过程有计算机语言与 XML 文本两种方式。由于 λ 算子与图 灵机、递归函数等价,因此无论是基于 λ 算子的函数式编程语言,还是基于图灵 机的过程、命令范式语言,都可以用来构建量化计算过程。在定义逻辑结构较为 复杂的因子时,过程、命令范式语言较为合适。而当需要批量生产因子时,可以 表达递归逻辑的 XML 文本也可以作为递归逻辑描述语言来使用。

利用自动因子生成器暴力挖掘因子是生产有效因子的重要方式。利用自动因子生 成器构建的 226 个突破型因子,其中有 20%-30%在截面上有较好的选股效果。 然而,经正交后,效果明显下降。这说明,暴力挖掘方式还是能获取一部分传统 因子构建过程中没有挖掘到的信息,但毕竟两种方式具有相同的初始算根,有大 量信息被传统因子所解释。

利用逐笔数据构建的高频因子有着非常突出的效果。构建买入大单成交额占比因 子,其截面表现非常优异。利用正交后的因子构建等权组合,可获得接近 20%的 多空年化收益与 9 左右的收益回撤比。高频数据的处理成本非常高,目前只能进 行 15 年 8 月以来的短周期回测,所以,因子表现的稳定性需要进一步跟踪。

自动构建数据表是进行因子自动化管理的关键要素。依据因子结构进行因子数据 库管理是因子计算自动化的重要步骤,而自动构建 SQL 语句,对数据表进行增 删查改是实现这种自动化管理的关键技术。

风险提示。数据挖掘是从历史先验数据获取经验模型的方法,存在模型失效可能!

正文

量化因子是构建多因子组合的基本要素。随着越来越多不同种类的有效因子被发现, 如何快速高效地计算因子,向前更新因子值,自动存储历史数据与新数据,方便快捷地 访问因子值,对于量化组合管理来说,正变得越来越重要。本文希望从计算机的角度, 构建一个完整的从计算到更新,再到管理的量化因子维护框架。

上图展示了因子计算的一般递归过程,其中所有实体都被定义为量化指标计算过程。 这是以一个量化指标计算过程为输入,获得新量化指标计算过程的实体。量化指标计算 过程的递归步骤如下表所示。

由上述过程可知,在构建量化指标计算过程时,如何获取初始量化指标计算过程, 定义哪些量化计算算子,用什么方式编写、记录量化计算过程的递归逻辑,是最重要的 三个问题。后文我们将从这三点出发,介绍不同类型的量化因子是如何构建的。

—End—

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-06-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量化投资与机器学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档