我有Python dataframe df
它有多个列
Salary Dept Approve
1500 IT Yes
1200 Finance No
1200 IT No
1300 HR Yes
1800 Finance No
1100 Finance No
1600 Finance No
1500 IT Yes
1200 HR Yes
1500 HR Yes我想找出薪资/审核与部门/审核的关系
相关性不起作用,因为有些分类不是数值分类
我还有其他选择吗?如何找到薪资/审核与部门/审核的关联关系
发布于 2020-09-25 05:29:09
可以这样做的一种方法是将分类变量转换为虚拟变量,然后计算每个变量的相关性:
dummies = pd.get_dummies(x)从那里可以很容易地计算出你喜欢的任何组合之间的相关性:
>>> dummies.corr()
Salary Dept_Finance Dept_HR Dept_IT Approve_No Approve_Yes
Salary 1.000000 0.134865 -0.175072 0.030895 -0.047193 0.047193
Dept_Finance 0.134865 1.000000 -0.534522 -0.534522 0.816497 -0.816497
Dept_HR -0.175072 -0.534522 1.000000 -0.428571 -0.654654 0.654654
Dept_IT 0.030895 -0.534522 -0.428571 1.000000 -0.218218 0.218218
Approve_No -0.047193 0.816497 -0.654654 -0.218218 1.000000 -1.000000
Approve_Yes 0.047193 -0.816497 0.654654 0.218218 -1.000000 1.000000或一个子集:
>>> dummies[['Salary', 'Dept_HR']].corr()
Salary Dept_HR
Salary 1.000000 -0.175072
Dept_HR -0.175072 1.000000https://stackoverflow.com/questions/64054596
复制相似问题