首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >连续变量的x-平方

连续变量的x-平方
EN

Data Science用户
提问于 2018-06-04 07:45:17
回答 1查看 1.3K关注 0票数 0

当我选择特征来训练一个有监督的ML模型时,我使用气平方来确定特征的重要性。我为特性/目标创建了一个应急表,并将这个应急表输入到scipy.stats.chi2_contingency模块中。这个模块返回x-平方值和p-值.

我用布尔变量得到了合理的结果,但我对2类以上的范畴变量的结果表示怀疑。

具体来说,我相当肯定,一个持续的特征,年龄,是相关的目标,在一定程度上的意义。通过绘制直方图和KDEs,我知道(target = 0)特征的概率分布与目标( 1)的概率分布有很大不同。然而,当我将年龄特征放入2-7个垃圾箱中时,x-平方测试的p值为~1e-39。

关于x-平方检验和分类变量,我有遗漏什么吗?这个测试只适用于单调的人际关系吗?

EN

回答 1

Data Science用户

回答已采纳

发布于 2018-06-04 08:16:08

听起来,这是一项检验,它证实了你对年龄与反应相关的怀疑。

据我所知,关于x平方检验的零假设是,这两个变量之间“没有关系”。测试统计量是根据所有观测值均匀分布在列联表中各单元之间的假设计算的,因此测试应该适用于大多数类型的关系。

一句警告--这个测试对数据不平衡很敏感。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/32582

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档