在机器学习和统计建模中,回归分析是一项重要的任务,用于预测一个或多个因变量与一个或多个自变量之间的关系。在这个领域中,有许多回归方法可供选择,其中岭回归和LASSO回归是两种经典的线性回归技术。在本文中,我们将深入探讨这两种方法的原理、应用和优缺点,帮助您更好地理解它们在实际问题中的作用。
岭回归,又称L2正则化,是一种用于解决多重共线性问题的线性回归技术。多重共线性是指自变量之间存在高度相关性的情况,这会导致普通最小二乘法(OLS)估计的不稳定性,使得模型的预测性能下降。岭回归通过在损失函数中添加一个正则化项来解决这个问题,其数学表达式如下:
其中,y i y_iyi 是观测值,X i \mathbf{X}_iXi 是自变量矩阵,β \betaβ 是待估计的回归系数,λ \lambdaλ 是正则化参数,用于控制正则化的强度。岭回归通过增加β j \beta_jβj的平方和来限制回归系数的大小,从而减少多重共线性对估计结果的影响。
岭回归的优点包括:
然而,岭回归也有一些缺点,例如它不能自动选择重要的特征,需要手动调整正则化参数λ \lambdaλ,并且可能不适用于稀疏数据集。
首先我们假设一组数据
import numpy as np
import matplotlib.pyplot as plt
np.random.seed(666)
x = np.random.uniform(-3,3,size=100)
X = x.reshape(-1,1)
y = 0.5 * x + 3 + np.random.normal(0,1,size=100)
plt.scatter(X,y)
plt.show()
运行结果如下
接下来我们导入我们需要的一些库
from sklearn.preprocessing import PolynomialFeatures,StandardScaler
from sklearn.pipeline import Pipeline # 管道
from sklearn.linear_model import LinearRegression,Ridge,Lasso # 岭回归和LASSO回归
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
12345
为了方便读者理解,这里我将每个库进行一些说明
之后我们需要创建一个多项式回归模型管道,管道的创建方式之前有提过,这里就直接展示
def polynomialRegression(degree):
return Pipeline([
('poly',PolynomialFeatures(degree)),
('std_scaler',StandardScaler()),
('lin_reg',LinearRegression())
])
之后我们进行分割数据集并且设置随机种子
np.random.seed(666)
X_train,X_test,y_train,y_test = train_test_split(X,y)
接下来我们还是创建一个函数,为了可视化数据
def plot_model(estimator):
y_predict = estimator.predict(X_test)
print(mean_squared_error(y_test,y_predict))
X_plot = np.linspace(-3,3,100).reshape(-1,1)
y_plot = estimator.predict(X_plot)
plt.scatter(X,y)
plt.plot(X_plot,y_plot,color='r')
plt.axis([-3,3,-2,6])
这里我进行一个代码的解释说明,我们定义了一个plot_model函数,这个函数的参数是一个已经训练好的模型,之后打印一个均方误差,用于为了测试预测性能;之后就是预测并且绘制图像了
之后我们就可以进行拟合了,这里采用的是多项式回归模型
poly_reg = polynomialRegression(1)
poly_reg.fit(X_train,y_train)
plot_model(poly_reg)
第一行定义了一个polynomialRegression类,参数为1代表是一阶多项式;之后使用fit进行训练,最后将训练好的模型传入到plot_model函数中
运行结果如下
接下来我们再以二阶多项式和二十阶多项式进行绘制图像
接下来我们重新定义管道,使用岭回归
def polynomialRidgeRegression(degree,alpha):
return Pipeline([
('poly',PolynomialFeatures(degree)),
('std_scaler',StandardScaler()),
('lin_reg',Ridge(alpha=alpha))
])
之后我们进行拟合
poly_reg = polynomialRidgeRegression(20,0.0001)
poly_reg.fit(X_train,y_train)
plot_model(poly_reg)
运行结果如下
之后我们再重新修改一下参数
poly_reg = polynomialRidgeRegression(20,1000)
poly_reg.fit(X_train,y_train)
plot_model(poly_reg)
运行结果如下
从均方误差来看,有点正则过头了
那么如果λ \lambdaλ再大点呢
poly_reg = polynomialRidgeRegression(20,100000)
poly_reg.fit(X_train,y_train)
plot_model(poly_reg)
运行结果如下
会发现几乎趋近于一条直线了。我们再来看看LASSO回归
LASSO回归,又称L1正则化,是另一种处理多重共线性问题的线性回归方法。与岭回归不同,LASSO回归在损失函数中添加的正则化项是回归系数的绝对值之和,其数学表达式如下:
与岭回归相比,LASSO回归有以下特点:
然而,LASSO回归也有一些缺点,例如当自变量之间高度相关时,它可能随机选择其中一个自变量并将其系数设为零,不稳定性较高。
与岭回归类似,这里就不一一赘述了
def polynomialLsssoRegression(degree,alpha):
return Pipeline([
('poly',PolynomialFeatures(degree)),
('std_scaler',StandardScaler()),
('lin_reg',Lasso(alpha=alpha))
])
poly_reg = polynomialLsssoRegression(20,0.01)
poly_reg.fit(X_train,y_train)
plot_model(poly_reg)
运行结果如下
poly_reg = polynomialLsssoRegression(20,0.1)
poly_reg.fit(X_train,y_train)
plot_model(poly_reg)
运行结果如下
poly_reg = polynomialLsssoRegression(20,1)
poly_reg.fit(X_train,y_train)
plot_model(poly_reg)
运行结果如下
这两种回归方法在许多领域都有广泛的应用,包括金融、医学、自然语言处理和工程等。具体应用如下:
L1正则化和L2正则化都是用于线性回归等机器学习模型中的正则化技术,它们的作用是防止模型过拟合,提高模型的泛化能力。它们的区别在于正则化项的形式和影响: L1正则化(Lasso正则化):
L2正则化(Ridge正则化):
偏差和方差是统计学和机器学习中两个重要的概念,用于评估模型的性能和泛化能力。它们通常一起讨论,因为它们在模型的复杂性和性能之间存在权衡关系。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。