用R语言预测股票价格涨跌—基于KNN分类器

机器学习AI算法工程

发布于 2018-03-14 14:19:25

4.2K4

发布于 2018-03-14 14:19:25

K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。 kNN算法的核心思想是如果一个样本在特征空间相邻的样本中的大多数属中的k个最于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时，只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，kNN方法较其他方法更为适合。

kNN算法属于非参方法，即不需要假设数据服从某种分布。

kNN算法R语言实现

载入程序包&读入数据

library(class)

library(dplyr)

library(lubridate)

library(scatterplot3d)

stocks <- read.csv(file.choose())

数据查看

head(stocks)

summary(stocks[,-1])

cl <- stocks$Increase 
#已知涨跌

colors <- 3-cl

scatterplot3d(stocks[,2:4],color=colors, col.axis=5,            
  col.grid="lightblue", main="scatterplot3d - stocks", pch=20)

数据包由Date、Apple、Google、MSFT、Increase五列数据构成，Increase列表示的是苹果股价当日的涨跌情况。 3D散点图中，红色表示股价上涨，绿色表示下跌。

数据集划分

stocks$Date <- ymd(stocks$Date)

stocksTrain <- year(stocks$Date) < 2014

predictors <- cbind(lag(stocks$Apple, default = 210.73), 
                    lag(stocks$Google, default = 619.98),                    lag(stocks$MSFT, default = 30.48))

colnames(predictors)=c("Apple","Google","MSFT")

train <- predictors[stocksTrain, ] 
#2014年以前的数据为训练数据

test <- predictors[!stocksTrain, ] 
#2014年以后的数据为测试数据

par(mfrow=c(3,2))

acf(stocks$Apple)

#查看自相关图

pacf(stocks$Apple)

#查看偏相关图

acf(stocks$Google)

pacf(stocks$Google)

acf(stocks$MSFT)

pacf(stocks$MSFT)

进行KNN算法分类

cl <- stocks$Increase[stocksTrain] 
#已知涨跌

prediction <- knn(train, test, cl, k = 1) 
  #建立kNN预测模型 

table(prediction, stocks$Increase[!stocksTrain])

  #查看预测情况

mean(prediction == stocks$Increase[!stocksTrain])  #计算准确率

## [1] 0.5076923

k=1时，基于KNN分类器的苹果股票价格预测准确率只有50.8%，略强于抛硬币。

通过蒙特卡洛模拟选出最好的k值

accuracy <- rep(0, 10)

k <- 1:10for(x in k){
  prediction <- knn(predictors[stocksTrain, ], predictors[!stocksTrain, ],                    stocks$Increase[stocksTrain], k = x)


  accuracy[x] <- mean(prediction == stocks$Increase[!stocksTrain])}plot(k, accuracy, type = 'b', col=125,lwd=3)