【机器学习课程】经典算法之——AdaBoost在量化投资中的应用(附代码和很多论文资料)

1算法简介

AdaBoost是由Yoav Freund和Robert Schapire提出自适应增强的一种机器学习方法。AdaBoost算法的自适应在于:前一个分类器分错的样本会被用来训练下一个分类器。

AdaBoost是一种迭代算法,在每一轮中加入一个新的弱分类器(新的因子),直到达到某个预定的足够小的错误率。在训练样本时,每一个样本都被赋予一个权重,表明它被某个分类器选入训练集的概率。第一次分类后,如果某个样本已经被正确地分类,那么它的权重就会降低,因为它被下一个分类器选中的概率被降低;反之,如果样本被分类错误,它的权重就会增加。通过这样的方式,AdaBoost算法能"针对"那些难以分离的样本上。因此,在量化分析预测股票的走势上,AadaBoost常能比其它算法更加胜任。

2数据处理

在将此算法搬运到预测股票涨跌之前,我们需要做一些调整避免AdaBoost算法的"水土不服"。

1)由于AdaBoost算法对于噪声数据和异常数据极其敏感,简答地将训练样本分类涨与跌为(+1,-1)可能会对结果造成极大影响。所以,处理时可以去除样本中不明显的涨跌(如<1%)保留噪声较少部分。

2)在弱分类器的选择上,大家可以加上任何有相关性的因子。但是,值得注意的是,需要将因子的值划在同一区间内,这样可以极大减少极端值的影响。

3算法应用

为了方便解释,这里选择了三层(L层)弱分类器,分为两组(G组)。

1)首先,我们有训练样本D={xi = (Xi1,Xi2,Xi3),Yi}, 这里i表示第i个样本,xi表示每个样本对应的三个因子, Y代表每个样本对应的需要学习的值——涨(+)或跌(-)。

2)起初,如图一,我们赋予每个样本同样的权重 wi = 1/n,图中显示每一个圆圈大小一致。然后,我们尽可能使得错误分类得将样本一分为二,分成两组。

并记录该训练误差。

3)计算判决分数 :

4)更新权重,如图二、三,将分类正确地权重降低(圈圈变小),分类正确地权重降低(圈圈变大)。

5)得到最后的分类器:

6)现在可以通过得到的分类器的值来预测涨跌幅,分数越高则走涨的可能性却高,分数越低则走跌的可能性越大。

4参考文献

参考文献:

http://blog.csdn.net/dark_scope/article/details/14103983

代码推荐:

https://github.com/justdark/dml/tree/master/dml/ADAB

5论文资料获取

原文发布于微信公众号 - 量化投资与机器学习(ZXL_LHTZ_JQXX)

原文发表时间:2016-08-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

从传统方法到深度学习,人脸关键点检测方法综述

61150
来自专栏ATYUN订阅号

【学术】卷积神经网络教你如何还原被马赛克的文本图像

对人类来说,将带有文字的图像锐化是很容易的。以图1为例。 ? 图1:被锐化的图像 把图1恢复为图2也不是件很困难的事。 ? 图2:原图 然而,我们太懒了的...

39970
来自专栏张俊红

机器学习中非平衡数据处理

总第97篇 这一篇主要说一下机器学习中非平衡数据的处理方式以及用python如何实现. 在前面的一篇推文中我们提到过,非平衡数据会影响最后的评判效果,严重的会...

45250
来自专栏iOSDevLog

机器学习概述与算法介绍(二)

24830
来自专栏林欣哲

图像扩张

机器视觉中的图像识别问题,常常需要大量的数据,而带标签的数据需要人工标注,很难得到较多的数据。因此,我们需要使用图像扩张的方法,人工生成各种变换后的数据,扩大我...

386100
来自专栏派树AI

Machine Learning笔记——多变量线性回归

在之前的单变量线性回归问题中,我们是通过房屋的大小来作为预测房屋价格。但是我们知道了很多其他的变量,例如卧室的数量,楼层的数量,房子的年龄等。

12000
来自专栏AI科技评论

干货 | 自从学了这个方法,深度学习再也不愁没钱买数据集了

深度学习大牛吴恩达曾经说过:做AI研究就像造宇宙飞船,除了充足的燃料之外,强劲的引擎也是必不可少的。假如燃料不足,则飞船就无法进入预定轨道。而引擎不够强劲,飞船...

31660
来自专栏AI研习社

从编程实现角度学习 Faster R-CNN(附极简实现)

Faster R-CNN 的极简实现: github: simple-faster-rcnn-pytorch(http://t.cn/RHCDoPv ) 本文插...

1.3K50
来自专栏TensorFlow从0到N

TensorFlow从1到2 - 4 - 深入拆解CNN架构

本篇将拆开CNN架构,一探究竟。 ? 基于空间映射的架构 全连接网络架构存在一个“硬”伤:网络中各层神经元的一维排布方式,丢弃了图像的空间结构信息。 以MN...

48870
来自专栏AI深度学习求索

传统特征:HOG特征原理

为了减少光照因素的影响,首先需要将整个图像进行规范化(归一化),有效地降低图像局部的阴影和光照变化。

24730

扫码关注云+社区

领取腾讯云代金券