首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >scikit-learn : LARS[通俗易懂]

scikit-learn : LARS[通俗易懂]

作者头像
全栈程序员站长
发布2022-09-12 12:51:23
发布2022-09-12 12:51:23
7770
举报

大家好,又见面了,我是你们的朋友全栈君。

LARS正则化

斯坦福大学的Bradley Efron, Trevor Hastie, Iain Johnstone和Robert Tibshirani发现了LARS(Least Angle Regression,最小角回归)它借用了威廉·吉尔伯特·斯特朗(William Gilbert Strang)介绍过的高斯消元法(Gaussian elimination)的灵感。

背景

LARS是一种回归手段,适用于解决高维问题,也就是 p>>n p >> n的情况,其中 p p表示列或者特征变量, n n表示样本数量。 样本数量远远小于特征数量

准备模拟数据

这里我们用的数据集是200个数据,500个特征。还设置了一个低噪声,和少量提供信息的(informative)特征:

代码语言:javascript
复制
import numpy as np
from sklearn.datasets import make_regression
reg_data, reg_target = make_regression(n_samples=200,n_features=500, n_informative=10, noise=2)

由于我们用了10个信息特征,因此我们还要为LARS设置10个非0的相关系数,也就是说10个影响target的自变量。在实际中,我们事先可能不知道信息特征的准确数量,但是出于试验的目的,我们先设计模拟数据的时候,先把信息特征的数量确定,然后用正则化算法挑选特征,看是否能准备的做特征选择:

代码语言:javascript
复制
from sklearn.linear_model import Lars
lars = Lars(n_nonzero_coefs=10)
lars.fit(reg_data, reg_target)
代码语言:javascript
复制
Lars(copy_X=True, eps=2.2204460492503131e-16, fit_intercept=True,
   fit_path=True, n_nonzero_coefs=10, normalize=True, positive=False,
   precompute='auto', verbose=False)

我们可以检验一下看看LARS的非0相关系数的和:

代码语言:javascript
复制
np.sum(lars.coef_ != 0)
代码语言:javascript
复制
10

问题在于为什么少量的特征反而变得更加有效。要证明这一点,让我们用一半数量来训练两个LARS模型,一个用12个非零相关系数,另一个非零相关系数用默认值。这里用12个是因为我们对重要特征的数量有个估计,但是可能无法确定准确的数量:

代码语言:javascript
复制
train_n = 100
lars_12 = Lars(n_nonzero_coefs=12)
lars_12.fit(reg_data[:train_n], reg_target[:train_n])
代码语言:javascript
复制
Lars(copy_X=True, eps=2.2204460492503131e-16, fit_intercept=True,
   fit_path=True, n_nonzero_coefs=12, normalize=True, positive=False,
   precompute='auto', verbose=False)
代码语言:javascript
复制
lars_500 = Lars() #默认就是500
lars_500.fit(reg_data[:train_n], reg_target[:train_n])
代码语言:javascript
复制
Lars(copy_X=True, eps=2.2204460492503131e-16, fit_intercept=True,
   fit_path=True, n_nonzero_coefs=500, normalize=True, positive=False,
   precompute='auto', verbose=False)

现在,让我们看看拟合数据的效果如何,如下所示:

代码语言:javascript
复制
np.mean(np.power(reg_target[train_n:] - lars.predict(reg_data[train_n:]), 2))
代码语言:javascript
复制
14.134164604831474
代码语言:javascript
复制
np.mean(np.power(reg_target[train_n:] - lars_12.predict(reg_data[train_n:]), 2))
代码语言:javascript
复制
2903.791854216995
代码语言:javascript
复制
np.mean(np.power(reg_target[train_n:] - lars_500.predict(reg_data[train_n:]), 2))
代码语言:javascript
复制
8.5745410020833916e+30

仔细看看这组结果;测试集的误差明显高很多。高维数据集问题就在于此;通常面对大量的特征时,想找出一个对训练集拟合很好的模型并不难,但是拟合过度却是更大的问题。

LARS原理

LARS通过重复选择与残存变化相关的特征。从图上看,相关性实际上就是特征与残差之间的最小角度;这就是LARS名称的由来。

选择第一个特征之后,LARS会继续沿着最小角的方向移动,直到另一个特征与残差有同样数量的相关性。然后,LARS会沿着两个特征组合的角度移动。如下图所示:

代码语言:javascript
复制
%matplotlib inline
import matplotlib.pyplot as plt
def unit(*args):
    squared = map(lambda x: x**2, args)
    distance = sum(squared) ** (.5)
    return map(lambda x: x / distance, args)

f, ax = plt.subplots(nrows=3, figsize=(5, 10))
plt.tight_layout()
ax[0].set_ylim(0, 1.1)
ax[0].set_xlim(0, 1.1)

x, y = unit(1, 0.02)
ax[0].arrow(0, 0, x, y, edgecolor='black', facecolor='black')
ax[0].text(x + .05, y + .05, r"$x_1$")

x, y = unit(.5, 1)
ax[0].arrow(0, 0, x, y, edgecolor='black', facecolor='black')
ax[0].text(x + .05, y + .05, r"$x_2$")

x, y = unit(1, .45)
ax[0].arrow(0, 0, x, y, edgecolor='black', facecolor='black')
ax[0].text(x + .05, y + .05, r"$y$")

ax[0].set_title("No steps")

#step 1
ax[1].set_title("Step 1")
ax[1].set_ylim(0, 1.1)
ax[1].set_xlim(0, 1.1)

x, y = unit(1, 0.02)
ax[1].arrow(0, 0, x, y, edgecolor='black', facecolor='black')
ax[1].text(x + .05, y + .05, r"$x_1$")

x, y = unit(.5, 1)
ax[1].arrow(0, 0, x, y, edgecolor='black', facecolor='black')
ax[1].text(x + .05, y + .05, r"$x_2$")

x, y = unit(.5, 1)
ax[1].arrow(.5, 0.01, x, y, ls='dashed', edgecolor='black', facecolor='black')
ax[1].text(x + .5 + .05, y + .01 + .05, r"$x_2$")

ax[1].arrow(0, 0, .47, .01, width=.0015, edgecolor='black', facecolor='black')
ax[1].text(.47-.15, .01 + .03, "Step 1")

x, y = unit(1, .45)
ax[1].arrow(0, 0, x, y, edgecolor='black', facecolor='black')
ax[1].text(x + .05, y + .05, r"$y$")

#step 2
ax[2].set_title("Step 2")
ax[2].set_ylim(0, 1.1)
ax[2].set_xlim(0, 1.1)

x, y = unit(1, 0.02)
ax[2].arrow(0, 0, x, y, edgecolor='black', facecolor='black')
ax[2].text(x + .05, y + .05, r"$x_1$")

x, y = unit(.5, 1)
ax[2].arrow(0, 0, x, y, edgecolor='black', facecolor='black')
ax[2].text(x + .05, y + .05, r"$x_2$")

x, y = unit(.5, 1)
ax[2].arrow(.5, 0.01, x, y, ls='dashed', edgecolor='black', facecolor='black')
ax[2].text(x + .5 + .05, y + .01 + .05, r"$x_2$")

ax[2].arrow(0, 0, .47, .01, width=.0015, edgecolor='black', facecolor='black')
ax[2].text(.47-.15, .01 + .03, "Step 1")

## step 2
x, y = unit(1, .45)
ax[2].arrow(.5, .02, .4, .35, width=.0015, edgecolor='black', facecolor='black')
ax[2].text(x, y - .1, "Step 2")

x, y = unit(1, .45)
ax[2].arrow(0, 0, x, y, edgecolor='black', facecolor='black')
ax[2].text(x + .05, y + .05, r"$y$");

具体过程是,我们把 x2 x2沿着 x1 x1方向移动到一个位置,再沿着 x1 x1和 x2 x2夹角的一半的方向移动。

LARS交叉验证

和我们前面用交叉检验来优化领回归模型一样,我们可以对LARS做交叉检验:

代码语言:javascript
复制
from sklearn.linear_model import LarsCV
lcv = LarsCV()
lcv.fit(reg_data, reg_target)

C:\Anaconda2\lib\site-packages\sklearn\linear_model\least_angle.py:309: ConvergenceWarning: Regressors in active set degenerate. Dropping a regressor, after 177 iterations, i.e. alpha=1.269e-01, with an active set of 133 regressors, and the smallest cholesky pivot element being 6.580e-08 ConvergenceWarning)

代码语言:javascript
复制
LarsCV(copy_X=True, cv=None, eps=2.2204460492503131e-16, fit_intercept=True,
    max_iter=500, max_n_alphas=1000, n_jobs=1, normalize=True,
    positive=False, precompute='auto', verbose=False)

用交叉检验可以帮助我们确定需要使用的非零相关系数的最佳数量。验证如下所示:

代码语言:javascript
复制
np.sum(lcv.coef_ != 0)
代码语言:javascript
复制
21

LARS论文

[1] Efron, Bradley; Hastie, Trevor; Johnstone, Iain and Tibshirani, Robert(2004). “Least Angle Regression“. Annals of Statistics 32(2): pp. 407–499.doi:10.1214/009053604000000067. MR 2060166.

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/149159.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • LARS正则化
    • 背景
    • 准备模拟数据
    • LARS原理
    • LARS交叉验证
  • LARS论文
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档