我有Python dataframe df
它有多个列
Salary  Dept      Approve
1500    IT        Yes
1200    Finance   No
1200    IT        No
1300    HR        Yes
1800    Finance   No
1100    Finance   No
1600    Finance   No
1500    IT        Yes
1200    HR        Yes
1500    HR        Yes我想找出薪资/审核与部门/审核的关系
相关性不起作用,因为有些分类不是数值分类
我还有其他选择吗?如何找到薪资/审核与部门/审核的关联关系
发布于 2020-09-25 05:29:09
可以这样做的一种方法是将分类变量转换为虚拟变量,然后计算每个变量的相关性:
dummies = pd.get_dummies(x)从那里可以很容易地计算出你喜欢的任何组合之间的相关性:
>>> dummies.corr()
                Salary  Dept_Finance   Dept_HR   Dept_IT  Approve_No  Approve_Yes
Salary        1.000000      0.134865 -0.175072  0.030895   -0.047193     0.047193
Dept_Finance  0.134865      1.000000 -0.534522 -0.534522    0.816497    -0.816497
Dept_HR      -0.175072     -0.534522  1.000000 -0.428571   -0.654654     0.654654
Dept_IT       0.030895     -0.534522 -0.428571  1.000000   -0.218218     0.218218
Approve_No   -0.047193      0.816497 -0.654654 -0.218218    1.000000    -1.000000
Approve_Yes   0.047193     -0.816497  0.654654  0.218218   -1.000000     1.000000或一个子集:
>>> dummies[['Salary', 'Dept_HR']].corr()
           Salary   Dept_HR
Salary   1.000000 -0.175072
Dept_HR -0.175072  1.000000https://stackoverflow.com/questions/64054596
复制相似问题