向后淘汰中的P值> 0.05是从特征中剔除的，为什么要剔除？(多元线性回归)

在多元线性回归中，P值是用来衡量自变量对因变量的影响是否显著的统计指标。P值表示在零假设成立的情况下，观察到的样本数据或更极端情况出现的概率。通常，我们会设定一个显著性水平（例如0.05），如果某个自变量的P值大于这个显著性水平，就意味着该自变量对因变量的影响不显著。

因此，当P值大于0.05时，我们会选择将该自变量从模型中剔除。这是因为在统计学上，我们希望保留的是对因变量有显著影响的自变量，而剔除那些对因变量影响不显著的自变量。这样可以提高模型的准确性和可解释性，避免过拟合和冗余。

剔除P值大于0.05的自变量有以下几个原因：

不显著的影响：P值大于0.05意味着自变量对因变量的影响不显著，即在给定其他自变量的情况下，该自变量对因变量的解释能力较弱。保留这些不显著的自变量可能会导致模型的不准确性和不可靠性。
多重共线性：P值大于0.05可能是由于自变量之间存在高度相关性，即多重共线性。多重共线性会导致模型参数估计不稳定，难以解释自变量的独立贡献。剔除这些自变量可以减少共线性对模型的影响。
经济性和简化：剔除P值大于0.05的自变量可以简化模型，减少模型中的冗余信息，提高模型的解释性和可理解性。同时，剔除不显著的自变量也可以减少模型的复杂度，提高模型的经济性。

需要注意的是，剔除P值大于0.05的自变量是一种统计学上的做法，但在实际应用中，还需要结合领域知识和实际情况进行判断。有时候，即使P值大于0.05，某些自变量仍然具有重要的实际意义，可能需要保留在模型中。因此，在进行变量选择时，综合考虑统计显著性和实际意义是很重要的。

向后淘汰中的P值> 0.05是从特征中剔除的，为什么要剔除？(多元线性回归)

、

一般来说，如果p值小于0.05的显著性水平，我们拒绝null，在反向淘汰中，我们删除p值大于0.05的特征，为什么不删除p值小于0.05的项。感谢您的时间

浏览 46提问于2020-05-30得票数 0

1回答

在多元线性回归中，当我们进行向后消除时，为什么我们要承认每个变量的p值

、、

在多元线性回归中，当我们进行向后消除时，为什么我们要承认每个变量的p值？P值如何帮助我们确定是否包含它？是因为我们有对y的值有显着影响的所有变量的零假设吗?如果对于一个特定的变量，如果它的p值小于0.05，零假设是错误<e

浏览 29提问于2019-10-15得票数 0

2回答

用于回归的SKlearn (Scikit Learn)多元特征选择

、、

我想使用一种特征选择方法，在这种方法中，简单的线性回归考虑了特征的“组合”或“特征之间”的交互作用。递归特征消除首先使用我的所有特征，拟合线

浏览 3提问于2016-09-10得票数 1

1回答

高维二元分类问题中如何改进基线logistic回归？

、、

有关数据集的信息：所有的特征都是数值。以下是我采取的一些方法和相关结

浏览 0提问于2021-05-08得票数 1

2回答

多元线性回归:将数组附加到特征矩阵(Python)中

、、

我目前正在网上学习数据科学的基础知识。在关于使用Python的多元线性回归的一个会话中，导师执行了下面的步骤，将一个数组添加到特性矩阵中；我不明白为什么要添加它。从在线论坛中可以看到，它被添加，所以模型(方程)有一个恒定的偏移量。但是为什么1而不是任何其他值。自变量数(3)对此值有影响吗？X ->

浏览 1提问于2018-04-07得票数 0

回答已采纳

1回答

python中如何从多个自变量和一个因变量绘制图[多元线性回归]

、、、

我是机器学习的新手，面临着在多元线性回归中如何去除多个自变量的问题。我所经历的步骤: 1)读取数据集2)分离成X和Y)将分类数据编码为数据集包含列:教授、职称、专业等。4)去除虚拟变量5)OLS回归结果。我有7个自变量，OLS后有6个独立variables.Removed，P> 0.05，P值大于0.0 5的显着性水平。您能建议哪些步骤来绘制图形，并删除图

浏览 3提问于2018-11-13得票数 0

1回答

用多元线性回归解释预测因子的影响

、、

我试图建立一个多元线性回归，主要目的是通过了解系数及其置信区间来了解各种特征对响应的影响。为此，我选择多元线性回归，因为系数是直观的解释，从标准误差和自由度，我可以得到95%的置信区间的系数。因此，我可以知道一个预测器的单位增加对结果的影响是什么。我可以使用更复杂的模型，例如基于树的

浏览 0提问于2019-07-18得票数 0

3回答

机器学习模型的建立方法

、

Backward Elimination4) Bidirectional Elimination我通常使用sklearn实现线性回归或任何算法有人能解释一下这一点的重要性吗?其中最常用的是什么？

浏览 0提问于2018-12-19得票数 2

2回答

Pandas -将所有列中的特定值替换为另一列中的相应值

、、、

我在Pandas中有一个分类数据的特征向量(虚拟)数据帧，并且我在该数据帧中添加了一个'ratings‘列，它表示从1到10的连续数据。我如何将除'ratings’列之外的所有列中的所有1替换为相应的'ratings‘列值？我在我的多元线性回归模型中使用了这个特性。这是一个好的实践吗？在机器学习&

浏览 1提问于2015-11-04得票数 1

1回答

我正在处理python中的一个文本分类问题，我根据{0,1}构建一个训练数组，判断单词是否在文本中。因为我想在上面运行SVM，所以我想减少我的特征。在scikit学习中，我发现了这个：https://scikit-learn.org/stable/modules/feature_selection.html，其方差阈值设置为： sel = VarianceThreshold(threshold=(.8 * (1 - .8))) x_tra

浏览 16提问于2019-08-29得票数 0

回答已采纳

1回答

前向选择和后向淘汰

、

我有7个特征，我想预测y。我执行了前向选择和后向淘汰，但这两个模型都产生了非常糟糕的结果。我通过x个变量(x^2，x^3，1/x，x^(1/2))的转换生成了更多的特征，看看结果是否变好了(总共28个变量)运行代码后，我得到了更糟糕的结果，无论我做什么(调整显著性水平，改变消除标准)，我总是在前向选择中得到截取作为回归函数，在向后消除中得到所有变量(正常和转换)。你知道为

浏览 31提问于2020-03-24得票数 0

3回答

OpenGL多维数据集未正确呈现

我在OpenGL.I中渲染立方体时遇到了一个问题。我正在绘制两个立方体，一个是导线立方体，以原点为中心，而另一个是偏离原点的，是实体。问题是，当我渲染场景时，当导线立方体应该在另一个实体立方体的前面时，它不能正确地显示自己。在上图中，彩色立方体应该在钢丝立方体的后面。也就是说，绿色的导线立方体应该在顶部。我已经编写了以下代码注意，rotateX、rotateY、rotateZ映射到关键点，并且是我

浏览 0提问于2012-02-13得票数 3

回答已采纳

1回答

什么是包围盒的尺度不变性和日志空间翻译？

、、、、

在慢速R-CNN文件中，界盒回归的目的是学习一种将所提出的边界盒P映射到地面真盒G的变换，并将其参数化为dx(P)、dy(P)、dw(P)、dh(P)四个函数。前2指定是P的包围盒中心的尺度不变的转换，而第二部分指定P的边框相对于一个对象提案()的宽度和高度<e

浏览 1提问于2019-04-06得票数 3

回答已采纳

1回答

如何在考虑它们之间的交互时进行向后特征消除

、、

我有一个多元线性回归问题，在我的回归中，我考虑了X_1, X_2, X_3和我之间的交互作用。所以我的问题是：现在，我用statsmodels.api.sm来拟合我的模型，我想递归地消除最高<

浏览 0提问于2020-02-18得票数 1

2回答

在高度相关变量中进行选择

、

下面可以找到所有变量(独立变量和因变量)之间的相关性。我们可以很快地观察到，只有"GRE分数“、”托福分数“和"CGPA”对“录取机会”变量有很大影响。因此，从预测模型中删除所有其他变量是有意义的。现在，在"GRE分数“、”托福分数“和"CGPA”变量中，我们可以看到它们都是高度相关的(这在现实生活中也是有意义的，因为你总是希望一个好学生在这些考试中取得好成绩)。我无法决定为我

浏览 0提问于2020-01-03得票数 3

回答已采纳

2回答

基于特征选择的回归性能

、、、

在我的项目中，我试图通过特征选择方法从回归模型中获得更好的性能，特别是在CatBoost特性重要的情况下。我想问: 1-我知道“垃圾中的垃圾”这个术语，所以更多的特性并不总是意味着更好的性能；而且它会降低性能。但是，我们是否可以通过从模型中剔除不太重要的特征来获得更好的评估分数，比如MSE、RMSE？在我<em

浏览 0提问于2020-08-05得票数 0

1回答

多元线性回归中的lm函数预测

、、

我用lm函数在R中做了一个多元线性回归，我想用它来预测几个值。所以我尝试使用函数predict()。="confidence") 132是我进行回归的变量向量的长

浏览 5提问于2015-04-15得票数 1

回答已采纳

2回答

Python线性回归: plt.plot()不显示直线。相反，它连接散点图上的每个点

、、、、

我正在尝试进行多元线性回归，并绘制散点图和最佳拟合线，一次使用一个特征。这是我的代码：valid=df.loc[651:] plt.plot(x_test['lag_7'],y_pred, color='blue&

浏览 6提问于2020-08-07得票数 2

2回答

使用scikit学习fit_intercept参数如何影响线性回归

、、、、

我正在尝试拟合一个线性模型，我的数据集被归一化，其中每个特征被除以最大可能值。因此，这些值的范围是0-1。现在我从我之前的帖子中了解到，当fit_intercept参数设置为false时，scikit学习中的OLS线性回归会产生与闭合形式的相同的结果。我不太明白fit_intercept是如何工作的</

浏览 1提问于2017-10-01得票数 6

3回答

多元共线性(方差通货膨胀系数)在执行模型之前要删除的变量

、、

📷from sklearn.linear_model import LinearRegression 然后，如果启动该方法，它将为每个变量计算一个系数：在我的课程说明中，有人说： VIF>

浏览 0提问于2019-06-22得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

向后淘汰中的P值> 0.05是从特征中剔除的，为什么要剔除？(多元线性回归)

相关·内容

向后淘汰中的P值> 0.05是从特征中剔除的，为什么要剔除？(多元线性回归)

在多元线性回归中，当我们进行向后消除时，为什么我们要承认每个变量的p值

用于回归的SKlearn (Scikit Learn)多元特征选择

高维二元分类问题中如何改进基线logistic回归？

多元线性回归:将数组附加到特征矩阵(Python)中

python中如何从多个自变量和一个因变量绘制图[多元线性回归]

用多元线性回归解释预测因子的影响

机器学习模型的建立方法

Pandas -将所有列中的特定值替换为另一列中的相应值

了解方差Treshold

前向选择和后向淘汰

OpenGL多维数据集未正确呈现

什么是包围盒的尺度不变性和日志空间翻译？

如何在考虑它们之间的交互时进行向后特征消除

在高度相关变量中进行选择

基于特征选择的回归性能

多元线性回归中的lm函数预测

Python线性回归: plt.plot()不显示直线。相反，它连接散点图上的每个点

使用scikit学习fit_intercept参数如何影响线性回归

多元共线性(方差通货膨胀系数)在执行模型之前要删除的变量

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐