基于StockRanker算法的机器学习量化策略

机器学习算法简介

最近几年人工智能(AI)技术得到飞速发展,其在各个领域的运用也不断取得重大成果。机器学习被评为人工智能中最能体现人类智慧的技术,机器学习在量化金融中的运用我们通过下例介绍,以便大家有个直观印象。

假设我们要去预测某个连续变量Y未来的取值,并找到了影响变量Y取值的K 个变量,这些变量也称为特征变量(Feature Variable)。机器学习即是要找到一个拟合函数f(X1,X2,…,XK|Θ)去描述 Y和特征变量之间的关系,Θ为这个函数的参数。

要找到这样的函数,必须要足够量的观测数据,假设有 N 个样本数据y1,y2,…,yn和x1i,x2i,…,xKi (其中i=1,2,…,n)。然后定义一个函数L来衡量真实观测数据和模型估计数据偏差,函数 L 也称作损失函数(Loss Function)。基于历史观测数据,我们可以求解下列的最化问题来得到参数Θ 的估计值 。

求解(1.1)过程称作模型训练(Model Traing)。基于特征变量的最新观测值和训练出来的模型参数就可以预测y的数值。

StockRanker算法

机器学习算法太多,本文讨论只针对适用于金融数据预测的常用有监督型机器学习(Supervised Machine Learning)算法:StockRanker。

StockRanker算法是专为选股量化而设计,核心算法主要是排序学习和梯度提升树

StockRanker的图示

StockRanker的特点

选股:股票市场和图像识别、机器翻译等机器学习场景有很大不同。StockRanker充分考虑股票市场的特殊性,可以同时对全市场3000只股票的数据进行学习,并预测出股票排序

排序学习 (Learning to Rank):排序学习是一种广泛使用的监督学习方法 (Supervised Learning),比如推荐系统的候选产品、用户排序,搜索引擎的文档排序,机器翻译中的候选结果排序等等。StockRanker 开创性的将排序学习和选股结合,并取得显著的效果。

梯度提升树 (GBDT):有多种算法可以用来完成排序学习任务,比如SVM、逻辑回归、概率模型等等。StockRanker使用了GBDT,GBDT是一种集成学习算法,在行业里使用广泛。

StockRanker的领先效果还得益于优秀的工程实现,我们在学习速度、学习能力和泛化性等方面,都做了大量的优化,并且提供了参数配置,让用户可以进一步根据需要调优。

如何使用StockRanker算法开发量化策略

在BigQuant人工智能量化平台上,直接拖曳不会编程就能开发AI量化策略。

机器学习算法可能遇到的问题:

过拟合

数据集重叠

数据集如何划分

训练集数据太少

数据预处理

标注和特征保持一致性

因子并非越多越好

本文来自企鹅号 - 汇商琅琊榜媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

通过简单的线性回归理解机器学习的基本原理

在本文中,我将使用一个简单的线性回归模型来解释一些机器学习(ML)的基本原理。线性回归虽然不是机器学习中最强大的模型,但由于容易熟悉并且可解释性好,所以仍然被广...

39840
来自专栏吉浦迅科技

手撕深度学习算法开讲:先简单撕撕SVM

说在前面 我们的手撕深度学习算法讲坛终于要开始了。 本次手撕系列的讲师们都来自台湾机器学习读书会,他们是这样一群人: ? 他们的工作甚至跟深度学习没有太相关, ...

438150
来自专栏AI科技评论

大会 | 腾讯优图CVPR 2018论文:图片去模糊及快速肖像处理等多项技术解读

AI 科技评论按:CVPR 2018 将在美国盐湖城举行。腾讯优图实验室继在 ICCV 有 12 篇论文被收录(含 3 篇口头报告)后,在今年的 CVPR 20...

17920
来自专栏新智元

吴恩达计算机视觉课程12大要点,如何赢得计算机视觉竞赛

来源:towardsdatascience.com 编译:马文 【新智元导读】本文作者最近在Coursera上完成了吴恩达的深度学习系列课程的第四门课“卷积神经...

376130
来自专栏智能算法

深度学习三人行(第8期)----卷积神经网络通俗原理

接下来我们一起学习下网红网络之卷积神经网络(CNN),我们多多交流,共同进步。本期主要内容如下:

10620
来自专栏机器之心

学界 | 找到神经网络的全局最小值到底有多难?

在细致解读微软研究院的这篇论文之前,读者们可以先了解下微软这篇论文与 Simon S. Du 等人论文的对比(详见微软这篇论文的第二页)。

9120
来自专栏张俊红

机器学习中的损失函数

在机器学习中,同一个数据集可能训练出多个模型即多个函数(如下图所示,同样的数据集训练出三种不同的函数),那么我们在众多函数中该选择哪个函数呢?首选肯定是那个预测...

15810
来自专栏贾志刚-OpenCV学堂

使用sklearn随机森林算法实现手写数字识别

随机森林(random forest)是2001年提出来同时支持数据的回归与分类预测算法,在具体了解随机森林算法之前,首先看一下决策树算法(Decision T...

34720
来自专栏机器学习算法与Python学习

深度学习中的10中方法,你知道的!

在过去十年中,人们对机器学习的兴趣激增。几乎每天,我们都可以在各种各样的计算机科学课程、行业会议、华尔街日报等等看到有关机器学习的讨论。在所有关于机器学习的讨论...

11430
来自专栏企鹅号快讯

简单自学机器学习理论——泛化界限

上节总结到最小化经验风险不是学习问题的解决方案,并且判断学习问题可解的条件是求: 在本节中将深度调查研究该概率,看其是否可以真的很小。 独立同分布 为了使理论分...

24880

扫码关注云+社区

领取腾讯云代金券