当我选择特征来训练一个有监督的ML模型时,我使用气平方来确定特征的重要性。我为特性/目标创建了一个应急表,并将这个应急表输入到scipy.stats.chi2_contingency模块中。这个模块返回x-平方值和p-值.
我用布尔变量得到了合理的结果,但我对2类以上的范畴变量的结果表示怀疑。
具体来说,我相当肯定,一个持续的特征,年龄,是相关的目标,在一定程度上的意义。通过绘制直方图和KDEs,我知道(target = 0)特征的概率分布与目标( 1)的概率分布有很大不同。然而,当我将年龄特征放入2-7个垃圾箱中时,x-平方测试的p值为~1e-39。
关于x-平方检验和分类变量,我有遗漏什么吗?这个测试只适用于单调的人际关系吗?
发布于 2018-06-04 08:16:08
听起来,这是一项检验,它证实了你对年龄与反应相关的怀疑。
据我所知,关于x平方检验的零假设是,这两个变量之间“没有关系”。测试统计量是根据所有观测值均匀分布在列联表中各单元之间的假设计算的,因此测试应该适用于大多数类型的关系。
一句警告--这个测试对数据不平衡很敏感。
https://datascience.stackexchange.com/questions/32582
复制相似问题