前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >R语言拟合改进的稀疏广义加性模型(RGAM)预测、交叉验证、可视化

R语言拟合改进的稀疏广义加性模型(RGAM)预测、交叉验证、可视化

作者头像
拓端
发布2023-11-30 12:49:56
2840
发布2023-11-30 12:49:56
举报
文章被收录于专栏:拓端tecdat

这是一种拟合稀疏广义加性模型(GAM)的新方法。RGAM具有计算可扩展性,并且适用于连续、二进制、计数和生存数据点击文末“阅读原文”获取完整代码数据)。

让我们生成一些数据:

代码语言:javascript
复制
R
set.seed(1)
n <- 100; p <- 12

mu = rowSums(x[, 1:3]) + f4 + f5 + f6

我们使用最基本的rgam来拟合模型:

代码语言:javascript
复制
R
fit <- rgam

下面,我们使用不同的init_nz值拟合模型:

RGAM算法第2步的自由度超参数可以通过df选项进行设置,默认值为4。以下是使用不同超参数拟合RGAM模型的示例:

代码语言:javascript
复制
R
 gamma = 0.6, df = 8

函数rgam()为一系列lambda值拟合RGAM模型,并返回一个rgam对象。

nzero_featnzero_linnzero_nonlin键告诉我们每个lambda值包含的特征、线性组件和非线性组件的索引。

预测

可以通过使用predict方法获得此模型的预测结果:每列给出了一个lambda值的预测结果。

代码语言:javascript
复制
# 获取前5个观测值在第20个模型的预测结果
predict(fit, x[1:5, ])[, 20]

getf()函数是一个方便的函数,可以给出由一个输入变量引起的预测组成部分。也就是说,如果RGAM给出预测结果

例如,下面的代码给出了第20个lambda值时响应由变量5引起的组成部分:

代码语言:javascript
复制
f5 <- get

我们可以使用以下代码制作一个图表,展示变量5对响应的影响:

代码语言:javascript
复制
plot

点击标题查阅往期内容

【视频】广义相加模型(GAM)在电力负荷预测中的应用

左右滑动查看更多

01

02

03

04

图表和摘要

让我们再次拟合基本的rgam模型:

代码语言:javascript
复制
fit <- rga

默认情况下,plot()给出了最后一个 fit 中的 lambda键的拟合函数,并仅给出前4个特征的图表:

代码语言:javascript
复制
plot(fit

用户可以使用 indexwhich 选项指定 lambda 值的索引和要显示的特征图:

代码语言:javascript
复制
plot(fit, x, in

线性函数以绿色呈现,非线性函数以红色呈现,而零函数以蓝色呈现。

summary 方法,允许用户查看线性和非线性特征的系数概况。在每个图表上(一个用于线性特征,一个用于非线性特征),x轴是从大到小的 xi 值,y轴是特征的系数。

代码语言:javascript
复制
summary

默认情况下,系数概况将针对所有变量进行绘制。

代码语言:javascript
复制
summary(fit

交叉验证(CV)

我们可以使用 k 折交叉验证。

代码语言:javascript
复制

R
cvfit <- cv.rg

我们可以通过设置 nfolds 参数来改变折数:

代码语言:javascript
复制

R
cvft <- cv.r

我们可以通过指定 foldid 参数来实现,其中 foldid 是一个长度为 n 的向量。

代码语言:javascript
复制

R

 gamma = 0.6, foldid = foldid, verbose = FALSE)

cv.rgam() 调用会返回一个 cv.rgam 对象。

代码语言:javascript
复制

R
plot

可以从拟合的 cv.rgam 对象中进行预测。

代码语言:javascript
复制
predict(cvf s = lambda.1se
代码语言:javascript
复制
predict(cvfn")

其他类型的RGAM模型

在上述例子中,变量y是一个定量变量(即取值沿实数数轴)。因此,使用默认的rgam()family = "gaussian"是合适的。然而,RGAM算法非常灵活,可以在y不是定量变量时使用。

二元数据的逻辑回归

在这种情况下,响应变量y应该是一个只包含0和1的数字向量。在进行预测时,请注意,默认情况下,predict()仅返回线性预测值,即

要获取预测的概率,用户必须在predict()调用中传递type = "response"

代码语言:javascript
复制
# 拟合二元模型
bin_y <-binomial", init_nz = c(), gamma = 0.9, 
              verbose = FALSE)

# 第10个模型的前5个观察值的线性预测值
predict(bi1

# 第10个模型的前5个观察值的预测概率
predict(

计数数据的泊松回归

对于泊松回归,响应变量y应该是一个计数数据向量。虽然rgam()不要求每个元素都是整数,但如果任何元素为负,则会报错。

与逻辑回归类似,默认情况下,predict()仅返回线性预测值,即

要获取预测速率,用户必须在predict()调用中传递type = "response"

对于泊松数据,通常允许用户传入偏移,这是一个与观测数相同长度的向量。rgam()也允许用户这样做:

代码语言:javascript
复制
# 生成数据
set.seed(5)
offset <- rnoroffset, verbose = FALSE)

请注意,如果将offset提供给rgam(),则在进行预测时必须还提供一个偏移向量给predict()

代码语言:javascript
复制
# 第20个lambda值的速率预测
predict(poifit,ponse")[,20]
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-11-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 拓端数据部落 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 这是一种拟合稀疏广义加性模型(GAM)的新方法。RGAM具有计算可扩展性,并且适用于连续、二进制、计数和生存数据(点击文末“阅读原文”获取完整代码数据)。
    • 预测
      • 图表和摘要
        • 交叉验证(CV)
          • 其他类型的RGAM模型
            • 二元数据的逻辑回归
            • 计数数据的泊松回归
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档