留一交叉验证及SAS代码

数说君

发布于 2018-04-04 15:57:46

1.3K0

发布于 2018-04-04 15:57:46

文章被收录于专栏：数说工作室

在数据量很少，用什么模型？（点击查看）中，我们总结过当数据量很少时如何选择模型和方法，以使得数据能够最大限度的得到利用。

其中有一个方法就是做交叉验证。

我有备选的模型G(x1, x2, x3)， G(x1, x5, x6), F(x1, x2, x3)，想知道哪一个预测的效果好。不能做样本内预测（就是用样本训练出模型，再用同样的样本代到模型中看准确度），样本量太少，再分成训练集和测试集就更少的可怜了，怎么办？

K折交叉验证可以充分利用少样本的信息。 K折交叉验证是将样本分成K个子样本集，拿出其中的K-1个子样本集来训练模型，用剩下的1个子样本集来对模型进行验证；再拿出K-1个训练模型，留下另外1个（与上一步的不同）子样本集进行验证......，如此交叉验证K次，每个子样本集验证1次，平均K次的结果作为一个模型的预测效果。

而本文想说的留一交叉验证（Leave-one-out cross validation, LOOCV）就是这种方法的极端情况：

假设只有10个样本（真的很小啊），每次拿出其中9个来训练模型，用剩下一个进行测试，得到一个测试结果（真实值与预测值的差异）；再拿出另外9个进行训练，留下另外一个进行测试......如此验证10次（每个样本都能轮到一次验证样本），将10次的预测效果平均，就可以评价这个模型的好坏。留一交叉验证就是留下1个单样本，将其他所有样本拿来做训练。可以充分利用小样本的信息。

下面分享一下数说君留一交叉验证的SAS代码，样本量假设为30：

*样本量30; %let K=30; *为数据增加一个变量：index，标识出观测值的ID（从1到30）; data sample; set sample; index = _n_; run; *用全30个样本建模看一下; proc reg data=sample; model y= x1 x2 x3; run; data sample_all; set sample; selected = .; replicate = .; run; *每次模型将一个样本留作测试，其他用来训练样本，重复30次，那我们就建立30个数据集，并将这30个数据集合在一起; %macro generateData; %do i = 1%to &K; *每次选择一个观测值，其selected=0，意为测试样本，其他29个均为1，意为训练样本。 data temp; set sample; if index = &i thenselected = 0; else selected = 1; replicate =&i; run; data sample_all; set sample_all temp; run; %end; data sampleOut; set sample_all; where selected ^= .; run; %mend; *运行宏; %generateData; *slelected=0的样本意为一个数据集中的测试样本，我们看一下是否每个观测值都轮到一次测试; proc print data=sampleOut; where Selected=0; var Selected id; run; data sampleOut; set sampleOut; if selected then new_y=y; run; *计算selected=0的样本、也就是测试样本的预测值; proc reg data=sampleOut; model new_y=x1 x2 x3; by replicate; outputout=out1(where=(new_y=.)) predicted=y_hat; run; data out2; set out1; d=y-y_hat; absd=abs(d); run; *画出预测值与真实值的散点图; proc gplot data=out2; plot y*y_hat; run; proc summary data=out2; var d absd; outputout=out3std(d)=rmse mean(absd)=mae sum(d)=sumd; run; *计算y与y_hat的相关系数，以及y=y_hat的R方（这个常被用于评价模型的拟合好坏）; proc corr data=out2 pearson out=corr(where=(_TYPE_='CORR')); var y ; with y_hat; run; data corr; set corr; Rsqrd=y**2; run;

参考资料：

http://altons.github.io/sas/2013/05/22/cross-validation-using-sas/

欢迎大家提出异议或留言交流，这里是数说工作室——数据分析师之家！

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2016-03-02，如有侵权请联系 cloudcommunity@tencent.com 删除

sas

本文分享自数说工作室微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

sas

登录后参与评论

0 条评论

热度

留一交叉验证及SAS代码

留一交叉验证及SAS代码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐