文章/答案/技术大牛

发布

社区首页 >问答首页 >如何通过插入核包提取高斯过程回归的预测区间？

问如何通过插入核包提取高斯过程回归的预测区间？
EN

Stack Overflow用户

提问于 2019-07-25 19:03:03

回答 1查看 1.1K关注 0票数 0

我试图用高斯过程回归(GPR)模型来预测河流中的每小时流量。我使用插入符号：：kernlab ()函数(谢谢Kuhn!)取得了很好的效果。

由于不确定性概念是探地雷达固有的主要优点之一，我想知道是否有人能帮助我获取与测试数据集的预测整数相关的结果。

我会把我一直在做的代码摘录出来。由于我的真实数据是巨大的(而且真诚地，我不知道如何在这里放)，我将用数据(空气质量)举例。这个特别的例子的主要目标是预测空气质量$臭氧，使用空气质量的滞后变量来预测温度。

rm(list = ls())
data(airquality)

airquality = na.omit(as.data.frame(airquality)); str(airquality)

library(tidyverse)
library(magrittr)

airquality$Ozone %>% plot(type = 'l')
lines(airquality$Temp, col = 2)
legend("topleft", legend = c("Ozone", "Temperature"),
   col=c(1, 2), lty = 1:1, cex = 0.7, text.font = 4, inset = 0.01, 
   box.lty=0, lwd = 1)

attach(airquality)
df_lags <- airquality %>%
  mutate(Temp_lag1 = lag(n = 1L, Temp)) %>%
  na.omit()

ESM_train = data.frame(df_lags[1:81, ])            # Training Observed 75% dataset
ESM_test = data.frame(df_lags[82:nrow(df_lags), ]) # Testing Observed 25% dataset

grid_gaussprRadial = expand.grid(.sigma = c(0.001, 0.01, 0.05, 0.1, 0.5, 1, 2)) # Sigma parameters searching for GPR

# TRAIN MODEL ############################
# Tuning set
library(caret)
set.seed(111)
cvCtrl <- trainControl(
  method ="repeatedcv",
  repeats = 1,
  number = 20,
  allowParallel = TRUE,
  verboseIter = TRUE,
  savePredictions = "final")

# Train (aprox. 4 seconds time-simulation)
attach(ESM_train)
set.seed(111)
system.time(Model_train <- caret::train(Ozone ~  Temp + Temp_lag1,
                                        trControl = cvCtrl,
                                        data = ESM_train,
                                        metric = "MAE", # Using MAE since I intend minimum values are my focus 
                                        preProcess = c("center", "scale"),
                                        method = "gaussprRadial", # Setting RBF kernel function
                                        tuneGrid = grid_gaussprRadial,
                                        maxit = 1000,
                                        linout = 1)) # Regression type

plot(Model_train)
Model_train
ESM_results_train <- Model_train$resample %>% mutate(Model = "") # K-fold Training measures

# Select the interested TRAIN data and arrange them as dataframe
Ozone_Obs_Tr = Model_train$pred$obs
Ozone_sim = Model_train$pred$pred
Resid = Ozone_Obs_Tr - Ozone_sim
train_results = data.frame(Ozone_Obs_Tr,
                           Ozone_sim,
                           Resid)

# Plot Obs x Simulated train results
library(ggplot2)
ggplot(data = train_results, aes(x = Ozone_Obs_Tr, y = Ozone_sim)) +
  geom_point() +
  geom_abline(intercept = 0, slope = 1, color = "black")


# TEST MODEL ############################
# From "ESM_test" dataframe, we predict ESM Ozone time series, adding it in "ESM_forecasted" dataframe
ESM_forecasted = ESM_test %>%                                              
  mutate(Ozone_Pred = predict(Model_train, newdata = ESM_test, variance.model = TRUE))
str(ESM_forecasted)

# Select the interested TEST data and arrange them as a dataframe
Ozone_Obs = ESM_forecasted$Ozone
Ozone_Pred = ESM_forecasted$Ozone_Pred

# Plot Obs x Predicted TEST results
ggplot(data = ESM_forecasted, aes(x = Ozone_Obs, y = Ozone_Pred)) +
  geom_point() +
  geom_abline(intercept = 0, slope = 1, color = "black")


# Model performance #####
library(hydroGOF)
gof_TR = gof(Ozone_sim, Ozone_Obs_Tr)
gof_TEST = gof(Ozone_Pred,Ozone_Obs)
Performances = data.frame(
                          Train = gof_TR,
                          Test = gof_TEST
                          ); Performances
# Plot the TEST prediction
attach(ESM_forecasted)
plot(Ozone_Obs, type = "l", xlab = "", ylab = "", ylim = range(Ozone_Obs, Ozone_Pred))
lines(Ozone_Pred , col = "coral2", lty = 2, lwd = 2)
legend("top", legend = c("Ozone Obs Test", "Ozone Pred Test"),
       col=c(1, "coral2"), lty = 1:2, cex = 0.7, text.font = 4, inset = 0.01, box.lty=0, lwd = 2)

最后几行生成以下情节：

下一步，也是最后一步，提取预测间隔，这是基于每个预测点周围的高斯分布，将其与最后一幅图一起绘制。

插入符号：：kernlab()设备返回的预测比仅仅返回kernlab::gaussprRadial()，甚至tgp::bgp()包都要好。对于他们两人，我可以找到预测间隔。

例如，要通过tgp::bgp()获取预测间隔，可以键入：

    Upper_Bound <- Ozone_Pred$ZZ.q2 #Ozone_Pred - 2 * sigma^2 
    Lower_Bound <- Ozone_Pred$ZZ.q1 #Ozone_Pred + 2 * sigma^2

因此，通过插入符号：：kernlab()，我希望可以找到所需的标准偏差，例如

Model_train$...

或者也许，用

Ozone_Pred$...

此外，在link：https://stats.stackexchange.com/questions/414079/can-mad-median-absolute-deviation-or-mae-mean-absolute-error-be-used-to-calc，Stephan作者解释说，我们可以通过MAE，甚至RMSE来估计预测间隔。但我不明白这是否是我的观点，因为在这个例子中，我得到的MAE只是Obs预测臭氧数据之间的比较。

拜托，这个解决方案对我来说很重要！我想我已经接近取得我的主要成果了，但我不知道该如何尝试了。非常感谢，朋友们！

prediction

r-caret

confidence-interval

kernlab

回答 1

Stack Overflow用户

发布于 2019-07-26 20:26:39

我真的不知道caret框架是如何工作的，但是获得一个带有高斯可能性的GP回归的预测间隔是非常容易的。

首先，我们只需要一个平方指数核的函数，也就是径向基函数核，这就是你所使用的。sf这里是缩放因子(在kernlab实现中未使用)，ell是长度标度，在kernlab实现中称为sigma：

covSEiso <- function(x1, x2 = x1, sf = 1.0, ell = 1.0) {
    sf     <- sf^2
    ell    <- -0.5 * (1 / (ell^2))
    n      <- nrow(x1)
    m      <- nrow(x2)
    d      <- ncol(x1)
    result <- matrix(0, nrow = n, ncol = m)
    for ( j in 1:m ) {
        for ( i in 1:n ) {
            result[i, j] <- sf * exp(ell * sum((x1[i, ] - x2[j, ])^2))
        }
    }
    return(result)
}

我不知道您的代码对使用哪个长度标度有什么看法；下面我将使用长度刻度为25，缩放因子为50 (通过GPML的超参数优化例程获得)。然后利用上面的covSEiso()函数得到相关的协方差，其余的是基本高斯恒等式的应用。我建议您参考Rasmussen和Williams (2006年)的第2章(免费在线免费提供)。

data(airquality)
library(tidyverse)
library(magrittr)
df_lags <- airquality %>%
    mutate(Temp_lag1 = lag(n = 1L, Temp)) %>%
    na.omit()
ESM_train <- data.frame(df_lags[1:81, ])             # Training Data 75% dataset
ESM_test  <- data.frame(df_lags[82:nrow(df_lags), ]) # Testing  Data 25% dataset
## For convenience I'll define separately the training and test inputs
X <- ESM_train[ , c("Temp", "Temp_lag1")]
Xstar <- ESM_test[ , c("Temp", "Temp_lag1")]
## Get the kernel manually
K <- covSEiso(X, ell = 25, sf = 50)
## We also need covariance between the test cases
Kstar <- covSEiso(Xstar, X, ell = 25, sf = 50)
Ktest <- covSEiso(Xstar, ell = 25, sf = 50)
## Now the 95% credible region for the posterior is
predictive_mean <- Kstar %*% solve(K + diag(nrow(K))) %*% ESM_train$Ozone
predictive_var  <- Ktest - (Kstar %*% solve(K + diag(nrow(K))) %*% t(Kstar))
## Then for the prediction interval we only need to add the observation noise
z <- sqrt(diag(predictive_var)) + 25
interval_high <- predictive_mean + 2 * z
interval_low <- predictive_mean - 2 * z

然后我们可以查看预测间隔。

这一切都很容易通过我的gplmr包(可在GitHub上获得)完成，如果安装了Octave，它可以从R调用GPML：

data(airquality)
library(tidyverse)
library(magrittr)
library(gpmlr)
df_lags <- airquality %>%
    mutate(Temp_lag1 = lag(n = 1L, Temp)) %>%
    na.omit()
ESM_train <- data.frame(df_lags[1:81, ])             # Training Data 75% dataset
ESM_test  <- data.frame(df_lags[82:nrow(df_lags), ]) # Testing  Data 25% dataset
X <-  as.matrix(ESM_train[ , c("Temp", "Temp_lag1")])
y <- ESM_train$Ozone
Xs <- as.matrix(ESM_test[ , c("Temp", "Temp_lag1")])
ys <- ESM_test$Ozone
hyp0 <- list(mean = numeric(), cov = c(0, 0), lik = 0)
hyp  <- set_hyperparameters(hyp0, "infExact", "meanZero", "covSEiso","likGauss",
                            X, y)
gp_res <- gp(hyp, "infExact", "meanZero", "covSEiso", "likGauss", X, y, Xs, ys)
predictive_mean <- gp_res$YMU
interval_high   <- gp_res$YMU + 2 * sqrt(gp_res$YS2)
interval_low    <- gp_res$YMU - 2 * sqrt(gp_res$YS2)

然后将预测绘制成图，如下所示：

plot(NULL, xlab = "", ylab = "", xaxt = "n", yaxt = "n",
     xlim = range(ESM_test$Temp), ylim = range(c(interval_high, interval_low)))
axis(1, tick = FALSE, line = -0.75)
axis(2, tick = FALSE, line = -0.75)
mtext("Temp", 1, 1.5)
mtext("Ozone", 2, 1.5)
idx <- order(ESM_test$Temp)
polygon(c(ESM_test$Temp[idx], rev(ESM_test$Temp[idx])),
        c(interval_high[idx], rev(interval_low[idx])),
        border = NA, col = "#80808080")
lines(ESM_test$Temp[idx], predictive_mean[idx])
points(ESM_test$Temp, ESM_test$Ozone, pch = 19)
plot(NULL, xlab = "", ylab = "", xaxt = "n", yaxt = "n",
     xlim = range(ESM_test$Temp_lag1), ylim = range(c(interval_high, interval_low)))
axis(1, tick = FALSE, line = -0.75)
axis(2, tick = FALSE, line = -0.75)
mtext("Temp_lag1", 1, 1.5)
mtext("Ozone", 2, 1.5)
idx <- order(ESM_test$Temp_lag1)
polygon(c(ESM_test$Temp_lag1[idx], rev(ESM_test$Temp_lag1[idx])),
        c(interval_high[idx], rev(interval_low[idx])),
        border = NA, col = "#80808080")
lines(ESM_test$Temp_lag1[idx], predictive_mean[idx])
points(ESM_test$Temp_lag1, ESM_test$Ozone, pch = 19)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/57208658

复制

相似问题

问如何通过插入核包提取高斯过程回归的预测区间？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何通过插入核包提取高斯过程回归的预测区间？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何通过插入核包提取高斯过程回归的预测区间？
EN