我几乎没有什么分类特征:
['Gender',
'Married',
'Dependents',
'Education',
'Self_Employed',
'Property_Area']
from scipy.stats import chi2_contingency
chi2, p, dof, expected = chi2_contingency((pd.crosstab(df.Gender, df.Married).values))
print (f'Chi-square Statistic : {chi2} ,p-value: {p}')产出:
Chi-square Statistic : 79.63562874824729 ,p-value: 4.502328957824834e-19我如何知道这些特性是否与这些统计数据相互独立?
我正试图建立一个分类模型,所以我只想知道这些分类列对预测我的目标变量是否有用。
发布于 2018-10-07 21:02:35
统计中使用列式表来总结几个范畴变量之间的关系。
在您的示例中,两个变量Gender和Married之间的关联表是这些变量同时出现的频率表。
在一个应急表上进行的x平方测试可以测试变量之间的关系是否存在。这些效果被定义为行和列之间的关系。
权变计算-by默认值- 皮尔逊(氏)x平方统计量。
此外,我们对Sig(2-Tailed)感兴趣,它是您的示例中的p值。
p-e是反对空假设的证据.P-值越小,就越有证据表明你应该拒绝零假设。
在你的情况下,无效假设是,在列联表中观测到的频率的依赖关系。
选择重要级别-alpha作为5%;您的p值 is 4.502328957824834e-19比.05小得多,这表明列和列都是。一般来说,这意味着有必要解释列列表中的单元格。
在这种特殊情况下,这意味着作为男性或女性(即性别),而不是在不同的婚姻状况水平(即已婚、未结婚)中分布相似。
所以,结婚可能是一种性别比另一种性别更重要的地位!
更新
根据你的评论,我看你对这次考试有些怀疑。
这个测试基本上告诉您变量之间的关系是显着性(即可能代表总体)还是chance!
因此,如果您有很高的显着性(高p值),这意味着变量之间存在显著的依赖关系!
现在,如果Gender和Married都是模型中的特性,这可能会导致过度拟合和功能冗余。然后,你可以选择其中之一。
但如果Gender或Married是因变量(如y),那么它们之间就有显著的关系。
额外的好处:有时其中一个特性在数据计算期间(当您缺少值时)临时成为一个因变量。
https://stackoverflow.com/questions/52692315
复制相似问题