首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何理解卡方列联表

如何理解卡方列联表
EN

Stack Overflow用户
提问于 2018-10-07 19:54:41
回答 1查看 3.2K关注 0票数 2

我几乎没有什么分类特征:

代码语言:javascript
运行
复制
['Gender',
 'Married',
 'Dependents',
 'Education',
 'Self_Employed',
 'Property_Area']

from scipy.stats import chi2_contingency
chi2, p, dof, expected = chi2_contingency((pd.crosstab(df.Gender, df.Married).values))
print (f'Chi-square Statistic : {chi2} ,p-value: {p}')

产出:

代码语言:javascript
运行
复制
Chi-square Statistic : 79.63562874824729 ,p-value: 4.502328957824834e-19

我如何知道这些特性是否与这些统计数据相互独立?

我正试图建立一个分类模型,所以我只想知道这些分类列对预测我的目标变量是否有用。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-10-07 21:02:35

统计中使用列式表来总结几个范畴变量之间的关系。

在您的示例中,两个变量GenderMarried之间的关联表是这些变量同时出现的频率表。

在一个应急表上进行的x平方测试可以测试变量之间的关系是否存在。这些效果被定义为行和列之间的关系。

权变计算-by默认值- 皮尔逊(氏)x平方统计量

此外,我们对Sig(2-Tailed)感兴趣,它是您的示例中的p值。

p-e是反对空假设的证据.P-值越小,就越有证据表明你应该拒绝零假设。

在你的情况下,无效假设是,在列联表中观测到的频率的依赖关系。

选择重要级别-alpha作为5%;您的p值 is 4.502328957824834e-19.05小得多,这表明列和列都是。一般来说,这意味着有必要解释列列表中的单元格。

在这种特殊情况下,这意味着作为男性或女性(即性别),而不是在不同的婚姻状况水平(即已婚、未结婚)中分布相似。

所以,结婚可能是一种性别比另一种性别更重要的地位!

更新

根据你的评论,我看你对这次考试有些怀疑。

这个测试基本上告诉您变量之间的关系是显着性(即可能代表总体)还是chance!

因此,如果您有很高的显着性(高p值),这意味着变量之间存在显著的依赖关系!

现在,如果GenderMarried都是模型中的特性,这可能会导致过度拟合和功能冗余。然后,你可以选择其中之一。

但如果GenderMarried是因变量(如y),那么它们之间就有显著的关系。

额外的好处:有时其中一个特性在数据计算期间(当您缺少值时)临时成为一个因变量。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52692315

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档