首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >你如何将假设检验应用于你的特征?

你如何将假设检验应用于你的特征?
EN

Data Science用户
提问于 2019-07-04 15:00:06
回答 2查看 497关注 0票数 2

如何将假设检验应用于ML模型中的特征?比方说,我正在做一个回归任务,我想削减一些特性(一旦我训练了我的模型)来提高性能。如何应用假设检验来确定该特性是否有用?我只是有点困惑于我的零假设会是什么,重要性的水平,以及如何运行实验来获得特性的p值(我听说0.15的显着性水平是一个很好的阈值,但我不确定)。

例如。考虑到三台机器(A,B,C)的生产情况,我正在做一个回归任务来预测我工厂的成本。我对数据进行线性回归,发现机器A的p值大于我的显着性水平,因此,它在统计上没有显着性,我决定在我的模型中放弃这个特征。

数据如下所示

d = ('Cost': [44439, 43936, 44464, 41533, 46343], 'A': [515, 929, 800, 979, 1165], 'B': [541, 710, 675, 1147, 939], 'C': [928, 711, 824, 758, 635, 901]) df = pd.DataFrame(data=d)

如果你想看完整的数据,我从Youtube上的一个视频中拿出了这个例子。我真的不明白他是如何得出关于重要性水平的结论,以及他是如何在这个案例中使用假设检验的。

链接在下面,它从Min 4:00开始(之后只有3分钟长)

基于假设检验的线性回归

EN

回答 2

Data Science用户

发布于 2019-07-05 02:20:52

欢迎来到StackOverflow。

我会尽量总结,但我们必须涵盖很多概念才能正确地回答你的问题,如果有什么不清楚的地方,请让我发表意见,我可以改变/纠正答案。

首先,从你问题的语气来看,我假设你知道什么是假设检验。

其次,在线性回归的上下文中,您通常假设您的特征是正态分布的,iid (相同的独立分布),常量误差方差(也就是说,它们不随X属性而变化)等等。这些都是强有力的假设,重要的是要记住这一点,因为我们使用具有这些属性的数据来计算回归系数。

简单地说,您有您的一组特性X,在本例中是A、B和C,您希望预测成本,因此您具有以下功能:

因此,您使用上述方程最小化RSS (残差平方和),并找出您的系数。

现在,在假设检验的上下文中,你想要验证你的系数是否在统计上是相关的,也就是说,用简单的词说它,你想要检查它们是否足够远离零,这样你就可以说它们是相关的,而不是统计事件。你到底是怎么做到的?创造一个零假设,你的系数是零,另一个假设说不是。

( Beta_1系数的假设检验算例)

然后计算系数的t检验:

所以你假设你的系数有t分布,你想要检验它是否足够远,以确定它的相关性。

然后计算t-测试值并估计p值.因此,最后,你会问以下问题:我的系数来自于以零为中心的分布的概率是多少?如果你有一个很高的p值,它会显示出你的系数可能是零,或者接近它,没有意义。否则,如果你有一个较低的p值,那么它不太可能来自于零附近的分布,那么你应该在你的分析中取这个系数(和特征)。

在视频中的例子中,他使用了一个规则,即所有0.05以上的系数都不具有统计相关性。在这里,0.05被广泛用作一个临界点,但是你必须知道,关于这个选择还有很多问题,科学界的争论还没有解决。

如果您真的想了解使用这种技术建模数据时涉及线性回归、统计测试和问题的所有细微差别,我强烈建议您阅读统计学习手册导论-第三章。 --所有的图像和见解都是从那里获取的,对我来说,这是我的机器学习技术参考书。

我希望这有助于澄清你的问题。

票数 3
EN

Data Science用户

发布于 2019-07-04 16:07:04

删除变量与检验假设不同。假设的检验不是机器学习,而是统计分析。在一个统计模型中,每个参数都可以被认为是一个假设的检验,并具有一定的显着性。此外,假设检验告诉你一些关于世界的东西,基于变量是如何相互关联的。在这种情况下,您并不关心性能,只是检查关联是否有您所期望的标记。

不管是否删除变量,为了提高模型的性能,这是一个不同的问题。它很大程度上取决于您正在使用的数据,请您提供您的任务和数据集的描述吗?

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/55063

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档