GOTC 2024:两天沉浸式体验,与全球开发者共探 AI 技术边界
协方差(Covariance)
在之前的内容里,我们关注的都是一个数值变量或者两到三个变量的关系。在数值变量中,我们一般关注两个特征,它们是均值与方差。对于均值的检验,我们一般使用的是单样本t检验(One-sample t-test),因为大部分情况下我们都不知道总体的方差,所以一般不会使用Z检验(z-test)。对于方差的检验,我们使用的是卡方检验(Chi-square test)。
在两个变量中,有一个数值变量与一个分类变量的关系,在分类变量的水平为2个时,我们一般使用双样本t检验(Two-sample t-test);当分类变量的水平为3个以上时,我们使用单因素方差分析(One-way ANOVA)。在三个变量中,有一个数值变量和两个分类变量的关系,我们使用双因素方差分析(Two-way ANOVA)。
虽然数值变量有均值和方差两个特征,但大部分情况下,我们都是对均值进行检验。
对于两个数值变量的关系,我们要用到的就是协方差。
Score | Happy |
---|---|
1 | 1 |
2 | 3 |
3 | 2 |
4 | 6 |
5 | 4 |
6 | 5 |
7 | 8 |
8 | 10 |
9 | 9 |
10 | 7 |
上表是一个考试分数与满意程度的采样数据,散点图如下
这里横轴为成绩,纵轴为满意程度。虽然这个图有一个线性的关系,强度也够大,没有极端值,但是这些都是我们主观的判断,我们需要一个客观的标准。
对于协方差值7.94,我们无法判断成绩和满意度的关系到底是强还是弱,方向是正还是负。
Score | Happy |
---|---|
10 | 10 |
20 | 30 |
30 | 20 |
40 | 60 |
50 | 40 |
60 | 50 |
70 | 80 |
80 | 100 |
90 | 90 |
100 | 70 |
散点图为
如果我们忽略横纵坐标的绝对数值,那么该图与之前的图是一模一样的。所以我们猜测这里的成绩和满意度关系的强度和之前是一样的。
这里的协方差794>7.94,这是否意味着这里的成绩和满意度关系的强度比之前的大呢?从之前的两个图中,我们认为这是不对的。
相关(Correlation)
经过把协方差进行标准操作,它们的相关系数r都等于0.86,它反映的是两个数值变量关系的强弱和方向。具体内容如下
1. 上图中的第一张图,它的r=0.13,非常接近于0,这就意味着横坐标的变量和纵坐标的变量之间的关系比较弱,图中的直线代表着变化趋势,我们可以看到随着横坐标的增加,纵坐标也有着微弱的增加;第二张图的r=0.56,在0~1的中间,这意味着横纵坐标变量之间的线性关系的强度是中等的,图中的直线可以看到随着横坐标的增加,纵坐标也在增加;第三张图的r=0.81,比较接近1了,这意味着横纵坐标变量之间具有比较强的关系,图中的直线与第二张图中的不同在于图中的点围绕着直线更加紧密,强度更大。由于这里的r都是正数,它代表着纵坐标是随着横坐标的增加而增加的。r的符号代表线性关系的方向。
1. 在上图中,r都是负的,它代表着随着横坐标的增加,纵坐标是减小的。r=0:没有线性关系≠没有关系
1. 在上图中的第一张图,r=0.06≈0,如果画一条线来代表这些点的变化趋势的话,我们可能会画一条水平线,因为这些点就是在围绕着一条水平线在变化,这意味着纵坐标的取值与横坐标无关,这两个数值变量不仅没有线性关系,而且是没有关系;在第二张图和第三张图中,我们可以画一条曲线将这些点给串起来,这说明横坐标和纵坐标是有关系的,只不过是非线性关系,这种非线性关系是无法使用相关系数r捕捉到的。r=1:完美线性正相关;r=-1:完美线性负相关。
1. 通过上图我们可以看到,当r=1或者r=-1的时候,图中的点都落在同一条直线上,但它们的斜率是不同的,因此我们不能把斜率和相关系数混淆。但并不是在一条直线上的点,r就一定为1或-1,如下图
2.
1. 该图的纵坐标并不会随着横坐标的变化而变化,这两个数值变量的协方差为0,纵坐标的标准差为0.r没有单位,不受变量平移伸缩的影响。
1. 上图中的第一张图为原始数据图,第二张图让横轴的成绩减去它的均值,横轴的数值发生了变化,第三张图对每一个变量都先减去均值再除以标准差,横轴纵轴的数值都发生了变化,但是这三张图的r值都保持不变。X,Y的相关系数=Y,X的相关系数。r受极端值影响大。
1. 上图中的第一张图是一个正常数据的散点图,它的r=0.15,第二张图左下角的点与第一张图是一样的,右上角多了一个极端值,它的r=0.78,这里告诉我们如果要考察两个数值变量关系的话一定要检查数据中是否存在极端值。