用支持向量机预测第二天开盘趋势和股价的正负统计分析

监督式学习是机器学习的一个分支,可以通过训练样本而建立起一个输入和输出之间的函数,并以此对新的事件进行预测。

典型的监督学习流程如下:

支持向量机

是监督学习中一种常用的学习方法。

支持向量机( Support Vector Machines SVM )是一种比较好的实现了结构风险最小化思想的方法。它的机器学习策略是结构风险最小化原则 为了最小化期望风险,应同时最小化经验风险和置信范围)。具体就不详细介绍了,百度有很多资料。

http://scikit-learn.org/stable/modules/svm.html#svm 中是SVM函数和简单介绍。

from sklearn.svm import SVR 可以构造支持向量回归(Support Vector Regression)模型

from sklearn.svm import SVC 可以用于分类(Support Vector Classification)

Support Vector Regression官网的一个简单例子。

http://scikit-learn.org/stable/auto_examples/svm/plot_svm_regression.html#example-svm-plot-svm-regression-py

从回归的角度,可以根据之前的历史数据,预测下一个时间点的股价。

分类的角度,可以根据历史数据,预测下一个时间点股价的正负。

下面对股票数据进行回归建模。

特征选择

基本面因子:PE,PB,ROE等

技术指标因子:RSI、KDJ、MA、MACD等

蜡烛图形态因子:三乌鸦、锤子线等

输出

股价

股价涨跌分类

未来一段时间收益率

利用非监督学习甚至深度学习找到特征

比如找到大涨的股票,然后看大涨前一段时间的形态有没有相似的,利用非监督学习的方法。显然,这样的关系可能不是那么明显地存在于股票的价格中,可能存在于收益曲线中或者方差曲线中,甚至更高复杂度的统计量中。深度学习提供了将原数据投影到另一个特征空间中的方法,而且是高度非线性的。那么,原数据中没有体现出来的相关性,会不会在这种高度非线性的投影空间中体现出来呢?这个问题值思考。

SVR (Support Vector Regression)

SVR是SVM(Support Vector Machine)中的一个版本,可以用于解决回归问题。

-0.192138249253 0.897470249992 4.88498130835e-17 1.0 array([[ 0.22282753, 0.25228758, 0.3448784 , 0.33066172], [ 0.26034535, 0.27540362, 0.24237401, 0.20206961]])

拟合与预测

假设i为1,days为30,

X:第i~i+days 天的开盘,收盘,最高,最低数据。

y:第i+1~i+days+1 天(对应的第二天)的开盘价。

X2:第i~i+days+1天的开盘,收盘,最高,最低数据。

yrep:第i+1~i+days+2天(对应的第二天)的预测开盘价。

yreal:第i+1~i+days+2天的开盘价。

yreal2:第i+days+2天的开盘价减第i+days+1天的开盘价。(真实趋势,大于0表示涨了)

yrep2:第i+days+2天的开盘价减第i+days+1天的预测开盘价。(预测趋势,大于0表示涨了)

同号相乘大于零,这里统计的是所有预测趋势的正确数量,预测涨和跌都算在里面了。

t:预测成功次数。

后面的两个if统计的是当预测为涨的时候,实际涨的次数和跌的次数。这个胜率只统计预测涨的成功率。

m:预测上涨,且真实情况上涨的次数。

e:预测上涨,但真实情况下跌的次数。

70.9523809524 66.3636363636

(结果还不错)

图中蓝线代表的是预测的走势,红点代表输入的训练集,绿点代表未来值,可以看到,蓝线最后一段的走势和红点很接近。

链接:https://zhuanlan.zhihu.com/p/24779083

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2017-02-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

详解香港中文大学超大规模分类加速算法 | 论文

简介 近日,香港中大-商汤科技联合实验室的新论文“Accelerated Training for Massive Classification via Dyn...

36710
来自专栏林欣哲

自然语言处理--特征提取

自然语言中意义最小的单位就是单词,其次是句子,再是段落,最后一整篇文章。 通常来说,提取单词的特征是最常用的提取方法。当然,特征提取也是根据你看问题的角度的来决...

4389
来自专栏达观数据

达观数据分享文本大数据的机器学习自动分类方法

随着互联网技术的迅速发展与普及,如何对浩如烟海的数据进行分类、组织和管理,已经成为一个具有重要用途的研究课题。而在这些数据中,文本数据又是数量最大的一类。文本分...

41410
来自专栏CDA数据分析师

下一个GAN?OpenAI提出可逆生成模型Glow

该研究一经发表,立刻引起了机器学习社区的注意,有人对此表示:终于,我们有了 GAN 以外的优秀生成模型!

1370
来自专栏AI科技评论

干货 | 论文笔记:第一人称视角视频中的行人轨迹预测

AI 科技评论按:本文为上海交通大学林天威为 AI 科技评论撰写的独家稿件,得到了其指点和审核,AI 科技评论在此表示感谢。 视频中的人体动作分析是计算机视觉研...

4726
来自专栏IT派

机器学习方法体系汇总

导语: 对学习算法进行分类是基于构建模型时所需的数据:数据是否需要包括输入和输出或仅仅是输入,需要多少个数据点以及何时收集数据。根据上述分类原则,可以分为4个主...

3584
来自专栏新智元

【AAAI Oral】阿里提出新神经网络算法,压缩掉最后一个比特

【新智元导读】在利用深度网络解决问题的时候人们常常倾向于设计更为复杂的网络收集更多的数据以期获得更高的性能。但是,随之而来的是模型的复杂度急剧提升,参数越来越多...

3806
来自专栏CVer

[计算机视觉论文速递] 2018-05-08

[1]《DCAN: Dual Channel-wise Alignment Networks for Unsupervised Scene Adaptation...

1141
来自专栏机器之心

观点 | 小心训练模型,数据少也可以玩转深度学习

选自Github 作者:Andrew L. Beam 机器之心编译 最近,Jeff Leek 在 Simply Stats 上发表了一篇题为「如果你的数据量不...

2825
来自专栏机器之心

下一个GAN?OpenAI提出可逆生成模型Glow

该研究一经发表,立刻引起了机器学习社区的注意,有人对此表示:终于,我们有了 GAN 以外的优秀生成模型!

911

扫码关注云+社区