我很好奇海运图书馆中的配对图是如何构造的。我也见过类似的情节,比如皮尔逊相关图。这两个情节有什么区别?它们的用例到底是什么?
发布于 2018-06-12 21:47:38
差异:
如果数据集中有m个属性,它会创建一个包含(m)x(m)子图的图形。
主要对角线子图是每个属性的单变量直方图(分布)。
对于非对角线子图,设一个位置(i,j)。这将数据集的所有样本绘制在一个具有轴属性i和j的坐标系中,换句话说,它只在这两个属性上投影数据集。这是特别有趣的视觉检查样本是如何传播有关这两个属性。价差的“形状”可以让你对这两种属性之间的关系有价值的洞察。例如,如果样本在线性模式上传播,这意味着这两个属性在您的数据集中是线性相关的。但你也可以视觉识别非线性关系,如二次型,等等。
它是两个属性之间严格线性相关的数学度量。越接近于1或-1,线性关系就越强。它离0越近,关系就越弱。如果有一个接近1或-1的值,那么您可以安全地假设这两个变量是线性连接的。如果它接近于0,你可以假设没有线性关系,但你不能推断任何关于非线性的东西(即使相关性很低,它们也可能存在)。
相关矩阵的主对角线元素表示每个属性的自相关,从而度量其归一化分布在其平均值附近。
非对角线元素(i,j)表示属性i和j之间的线性相关。通常,相关矩阵是在有助于可视化的热图 (海运)上绘制的。
如果使用Pearson相关,并发现对于选定的属性(i,j),值接近1或-1,则应该期望样本在配对图的(i,j)和(j,i)子图中形成一条直线。
发布于 2017-05-30 06:25:23
我只能建议你使用。对于构造,您可以简单地查看源代码。
派尔图和皮尔逊实际上几乎是一样的。这两个图都是二维图上的两个变量,通常称为X和Y来观察这种关系.
然而,个人相关图只适用于连续变量(如年龄、金额、身高、体重等),因为它计算了相关系数(这对于非连续数据是不正确的)。
另一方面,当您只想可视化两个变量之间的关系时,就会生成配对图,其中变量可以是连续的、分类的(例如产品类型或部分时间)或布尔变量(是/no- 1/0)。此外,对图通常是数据集中每个变量的绘图网格。因此,您可以快速地看到所有变量是如何关联的。这可以帮助推断哪些变量是有用的,哪些变量有偏差分布等。
您通常将此作为分析的第一步--以便更好地理解您的数据,以便之后您可以选择正确的模型。
https://datascience.stackexchange.com/questions/19293
复制相似问题