我目前正在处理救护车数据集,我的任务之一是找出病人何时被呼叫调度员误诊。
我有两个代码:调度代码(调度员认为病人有问题)和医院代码(医生确定实际诊断在医院)。
我正在寻找一种方法来可视化两个代码之间的关系,即给定的救护车代码x,每个救护车代码的概率是多少。
这可以很容易地使用SQL进行计算,但是我正在寻找一种可视化/集群的方法--这将是很棒的。任何帮助都将不胜感激。
编辑:评论中的一些好的反馈
首先,维度:调度代码可以取1722个唯一值中的一个。
医院代码可取1058个唯一值中的一个。
这两种代码完全不同,一个例子如下
Dispatcher 17D03:Unconscious
Hospital R41:Other symptoms and signs involving cognitive functions and awareness我的兴趣是想象这段关系。例如,给出一个无意识的调度员代码,最常见的医院代码是什么?
同样,这是相当容易计算的数字,但可视化将使它更容易解释给我的股东。
发布于 2018-08-02 12:15:08
最后,我在拉维图。上使用了一个冲积图
发布于 2018-07-30 19:24:11
您可以使用混淆矩阵生成数据的热图。
假设你有:
labels = ['cardiac arrest', 'choking', 'seizure']
dispatch_code = ['cardiac arrest', 'choking', 'seizure', 'choking', 'seizure', 'seizure', 'cardiac arrest', 'cardiac arrest']
hospital_code = ['cardiac arrest', 'choking', 'cardiac arrest', 'choking', 'seizure', 'seizure', 'seizure', 'cardiac arrest']然后你可以用:
from sklearn.metrics import confusion_matrix
import matplotlib.pyplot as plt
cm = confusion_matrix(hospital_code, dispatch_code)
fig = plt.figure()
ax = fig.add_subplot(111)
cax = ax.matshow(cm)
plt.title('Confusion matrix of the classifier')
fig.colorbar(cax)
ax.set_xticklabels([''] + labels)
ax.set_yticklabels([''] + labels)
plt.xlabel('Predicted')
plt.ylabel('True')
plt.show()
这个例子显示,通常来自dispatcher的代码是正确的(中间是黄色条带)。心脏骤停和抽搐常常被混淆(蓝色)和窒息从来没有错分类(紫色)。
发布于 2018-07-31 00:45:11
如果你是在多维变量的计数之后,莫赛克图就会有所帮助。在R中,有一个来自图形包的函数,名为mosaic图。这是一个基本的软件包,随R。
HairEyeColor,性别=男性
Eye头发棕色蓝色榛子绿黑色32 11 10 3棕色53 50 25红10 10 7 7金发3 30 5 8
,性别=女性
Eye头发棕色蓝色榛子绿黑色36 9 5 2棕色66 34 29 14红16 7 7 7金发4 64 5 8
莫西亚茨图(HairEyeColor)

https://datascience.stackexchange.com/questions/36212
复制相似问题