文章/答案/技术大牛

发布

社区首页 >问答首页 >什么是最好的方法来可视化关系--两个分类变量

问什么是最好的方法来可视化关系--两个分类变量
EN

Data Science用户

提问于 2018-07-30 15:59:59

回答 3查看 403关注 0票数 1

我目前正在处理救护车数据集，我的任务之一是找出病人何时被呼叫调度员误诊。

我有两个代码:调度代码(调度员认为病人有问题)和医院代码(医生确定实际诊断在医院)。

我正在寻找一种方法来可视化两个代码之间的关系，即给定的救护车代码x，每个救护车代码的概率是多少。

这可以很容易地使用SQL进行计算，但是我正在寻找一种可视化/集群的方法--这将是很棒的。任何帮助都将不胜感激。

编辑:评论中的一些好的反馈

首先，维度:调度代码可以取1722个唯一值中的一个。

医院代码可取1058个唯一值中的一个。

这两种代码完全不同，一个例子如下

Dispatcher 17D03:Unconscious 
Hospital R41:Other symptoms and signs involving cognitive functions and awareness

我的兴趣是想象这段关系。例如，给出一个无意识的调度员代码，最常见的医院代码是什么？

同样，这是相当容易计算的数字，但可视化将使它更容易解释给我的股东。

clustering

visualization

categorical-data

回答 3

Data Science用户

回答已采纳

发布于 2018-08-02 12:15:08

最后，我在拉维图。上使用了一个冲积图

票数 1

Data Science用户

发布于 2018-07-30 19:24:11

您可以使用混淆矩阵生成数据的热图。

假设你有：

labels = ['cardiac arrest', 'choking', 'seizure']
dispatch_code = ['cardiac arrest', 'choking', 'seizure', 'choking', 'seizure', 'seizure', 'cardiac arrest', 'cardiac arrest']
hospital_code = ['cardiac arrest', 'choking', 'cardiac arrest', 'choking', 'seizure', 'seizure', 'seizure', 'cardiac arrest']

然后你可以用：

from sklearn.metrics import confusion_matrix
import matplotlib.pyplot as plt

cm = confusion_matrix(hospital_code, dispatch_code)
fig = plt.figure()
ax = fig.add_subplot(111)
cax = ax.matshow(cm)
plt.title('Confusion matrix of the classifier')
fig.colorbar(cax)
ax.set_xticklabels([''] + labels)
ax.set_yticklabels([''] + labels)
plt.xlabel('Predicted')
plt.ylabel('True')
plt.show()

这个例子显示，通常来自dispatcher的代码是正确的(中间是黄色条带)。心脏骤停和抽搐常常被混淆(蓝色)和窒息从来没有错分类(紫色)。

票数 2

Data Science用户

发布于 2018-07-31 00:45:11

如果你是在多维变量的计数之后，莫赛克图就会有所帮助。在R中，有一个来自图形包的函数，名为mosaic图。这是一个基本的软件包，随R。

HairEyeColor，性别=男性

Eye

头发棕色蓝色榛子绿黑色32 11 10 3棕色53 50 25红10 10 7 7金发3 30 5 8

，性别=女性

Eye

头发棕色蓝色榛子绿黑色36 9 5 2棕色66 34 29 14红16 7 7 7金发4 64 5 8

莫西亚茨图(HairEyeColor)

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/36212

复制

相似问题

问什么是最好的方法来可视化关系--两个分类变量
EN

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问什么是最好的方法来可视化关系--两个分类变量EN

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问什么是最好的方法来可视化关系--两个分类变量
EN