用代码说话！机器学习能预测股市吗？

量化投资与机器学习微信公众号

发布于 2020-02-11 17:01:45

2.7K0

文章被收录于专栏：量化投资与机器学习量化投资与机器学习

作者：Wilshire Liu

编译：1+1=6

数据

选股部分股票的Open、High、Low、Close和Volume。

特征

常用的量价技术指标：Chaikin A/D、BBAND、CCI、EMA、MACD、OBV、RSI、SMA和STOCH。

▍简单移动平均线

▍指数移动平均线

▍MACD

▍随机指标

▍累积/派发线

▍布林带

▍OBV

汇总如下：

假设

起初，我们想建立一个单一的模型，使用所有ETF（QQQ、TQQQ、SPY、VTI、IWM）的数据来预测股票的长期价格趋势。如果未来20个交易日的收益为>3%，则我们将标签设为1，否则设为0。

然而，我们发现每个ETF之间的数据差异很大，因此我们决定为每个ETF构建单独的模型。最后只使用QQQ ETF数据集来构建我们的模型。

实验1（20天收益率3%作为标签）

LSTM: Test AUC 0.476

MLP Neural Network: Test AUC 0.577

Random Forest: Test AUC 0.917

虚假的结果

我们使用QQQ数据集的最佳模型的AUC为0.917。我们以为我们找到了预测股市的方法。然而，情况并非如此，因为我们发现了我们的模型的一个主要缺陷。

按照惯例，在机器学习中，为了创建训练和测试集，需要对打乱数据集中数据顺序（shuffle）。这样做是必要的，因为我们希望在测试集中的数据与训练数据有相同的分布。然而，由于股票历史数据是时间序列，我们没办法知道随后几天的数据，因此对数据进行打乱意味着训练数据集有未来的数据（未来函数）。假设我们在2017年使用2018年的数据集训练我们的模型，我们实际上不能使用这个训练数据集来训练我们的模型，因为在2017年，2018年的数据还不存在。因此，在创建训练和测试数据集时，我们不能打乱数据。

对于我们的下一个模型，使用2010年到2016年的数据作为我们的训练集，使用2017年到2019年的数据作为我们的测试集。

遗憾的是，在这个模型中，使用相同的随机森林分类器，AUC分数显著下降到0.44。

修改标签

正如在示例数据集中所看到的，所有这些行都有非常相似的20-MAs，开盘价和收盘价。

如果在2019年4月1日之后的20天里上涨了3%，那么在2019年4月1日左右的日子里也会上涨3%，对于任何股票来说都是如此，标签在20天内上涨的决定因素一般不会在第20天决定。这取决于这些记录在其20个未来交易期重叠的日子。在这种情况下，如果我们提取出2019年6月1日的数据，作为测试集并对其余的测试集进行训练，该模型肯定会为测试数据分配一个标签，因为它的所有特征都与围绕它的日期相似，这些日期形成了一个集群。这种方法的另一个问题是，如前所述，模型允许训练集使用未来数据进行预测。例如，训练集包括1/7/2019 -1/11/2019，预测1/6/2019，但这在现实世界是不可能做到的。

在这种情况下,训练集的收盘价格徘徊在每股20美元,但因为我们使用的是2019年作为测试集,价格是截然不同的,因此,该模型将它们正确的标签在分配表现不佳,特别是考虑到我们的记录有一系列的特征值,在训练集不存在。

当我们没有对原始数据集进行打乱时，当我们使用后来的日期作为测试集时，这就成了一个问题。在这种情况下，训练集的收盘价徘徊在每股20美元左右，但因为我们使用的是2019年作为测试集，价格是截然不同的，因此，模型在给他们分配正确的标签时将表现不佳，特别是考虑到我们的记录的特征，其值的范围在训练集中不存在。