大话脑影像系列之三:趣谈散点图与相关系数

爱因斯坦喊你点击右上角蓝色“思影科技”关注我们

最近不少读者对高大上的机器学习,动态脑网络,曲面形态指标共变网络感到爱不起,针对于此,我们特别推出一些基本的做脑功能的概念讲解,希望大家一步一步来,年轻人,不要动不动想一步登天,识得唔识得啊?

那今天我们就谈谈这个相关系数…….

说起相关系数,从字面上的含义就可看出,就是两个信号之间的相关性。但是你真正理解内在的机理吗?

结论放在最前面:相关系数,其实就是通过散点图来的。

学会散点图,此生无憾!

所有的一切,由这个图说起:

图1:Ref: JamesAH, BMJ, 1995, 311: 1668.

有一个人,他测量了一组人的“量表”。其中这个“量表”包含着年龄和耳朵长度。这样子他就得到一个二维小表格如下图示:

图2:萌萌哒的二维量表小表格

然后他在坐标纸上面进行打点,X轴坐标设置为年龄,y轴坐标设置为耳朵长度。然后每一行就是一个点,也就是说:每一个点对应着一个被试信息

紧接着,他就拿手来比划,画出一根能最好拟合这个散点趋势的线(拟合或最小二乘法)。这样他就发现:年龄越大,耳朵越长。Ps:怪不得如来佛耳朵如此长,连起来可以绕地球一圈。

图3:散点图与拟合线(橙色),左:正相关;中:不相关;右:负相关

其实我告诉你,现在这根橙色拟合线的趋势就是相关性。如果这根线是朝着右上角走,就是正相关;如果这根线是朝着右下角走,就是负相关;如果这根线水平,就代表着不相关。

但是理想很美好,现实很残酷。真正拿到数据进行计算相关系数,多多少少会存在一定的相关性,真正不相关的例子太少太少,(比如你和思影科技,你来参加培训,于是我们就相关了,培训信息还是老规矩翻看历史信息或简单粗暴的点击阅读原文,你没看错,此处还是广告,惊喜不惊喜?意外不意外?)。前一阵子有一篇文章说:中国三峡大坝是影响日本地震的原因。该文说这个相关性还是非常非常显著的。

那么问题来了:相关系数的计算怎么会有显著性呢?

多图警示!

我做了一堆图,上面的这个例子取得不够恰当,我应该让这些图拟合的斜率是一致的(相关系数一致),但是不要在意这些细节。小伙伴们有没有看到图上的P值,那个p值就是相关的显著性。我们可以很轻松的发现:只要散点的点,越靠近拟合曲线,那么显著性越强。散点越分散,显著性越差

以上几点细节部分特此做一个说明:

1、画散点图的时候,有白点,有黑点。图中的白点是剔除的,黑点是选取的。

2、剔除点是根据三倍方差以上的点进行剔除(图中色彩斑斓的圈,就是n倍方差边界线)

3、相关系数和斜率存在一定关系,可以说,斜率越靠近1,相关系数越大。(相关系数取值-1~1),其中0代表不相关,1代表正相关,-1代表负相关。

4、最佳拟合线的画法:在这里三种方法是等价关系,得到的数值是一样的。(最小二乘法 = 一次拟合 = 一次回归)

5、本文所指相关,指代皮尔逊相关,

没错就是他:卡尔·皮尔逊

(眼神里透露着浓浓的英伦学者风,一口倍地道的伦敦腔“May I help you,sir?)

不对,应该是它:

其中:

皮尔逊相关ρ,协方差Cov(x,y),标准差σx σy

注:在公式内并无显著性水平计算,显著性解释是作者领悟的。在matlab中,计算相关系数是有显著性输出的。此显著性并未通过多重比较较正。有关校正,敬请看后面推送。

现在说了这么多,让我来告诉你,一些在脑科学领域用散点图来解释的本质:

1、功能连接:功能连接最早的定义就是皮尔逊相关,而功能连接就是两个脑区时间点的散点图

2、结构上的协变连接协变连接是用得最早的,在磁共振出现之前,前人研究PET(PET表示高贵的我,一般人做不起)就是采用协变连接。简单说,就是A、B两个脑区之间的散点图。

3、回归:有没有发现回归也是这样子的?

原文发布于微信公众号 - 思影科技(siyingkeji)

原文发表时间:2017-10-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏逍遥剑客的游戏开发

GDC2017: PlayStation VR Worlds中的渲染优化

32140
来自专栏Data Analysis & Viz

图像检索(一):因缘际会与前瞻

之前因为学习Keras的缘故,看到一个图像检索的Demo,代码实现了输入一张查询照片,检索出最相似的n张照片的效果。

11720
来自专栏听雨堂

地图校正方法心得

如果想校正两张比例,坐标系,时间都不同的电子地图,简直太难了,大概辛苦了一周时间,才有点心得: 1、选择公共点时,河流、公路、高程、等高线均不能选,大的固定...

22050
来自专栏AI科技大本营的专栏

AI 技术讲座精选:条件概率和贝叶斯定理简介

前 言 数据科学专家必须了解概率方面的知识。通常情况下,解决许多数据科学难题的办法与概率的本质息息相关。因此,更好地理解概率能够帮助你更有效率地理解并实现与之相...

35950
来自专栏C语言及其他语言

【优秀题解】 题解1179:上车人数 (C++描述)(求出规律即可,简单易懂)

解题思路: 我们只需要罗列出每一站的上车人数和每一站的下车人数来求出总数即可看出规律。

7920
来自专栏AI研习社

入门必读的机器学习名词解释,你都懂了吗?

train? valid? or test? 机器学习最明显的一个特点是需要大量的数据。特别对监督学习来说,就是需要大量的带标签数据(labeled dat...

36040
来自专栏机器之心

教程 | 如何通过Scikit-Learn实现多类别文本分类?

44490
来自专栏程序员互动联盟

【专业技术】图像格式转化规律探秘

存在问题: 搞视频编解码的童鞋对此深刻理解,但是好多小伙伴在andriod或其他嵌入上做启动动画时候图像是如何转化存在一定的疑惑。 解决方案: 针对这些问题我们...

36160
来自专栏AI科技评论

干货 | 不能更通俗易懂的机器学习名词解释

train? valid? or test? 机器学习最明显的一个特点是需要大量的数据。特别对监督学习来说,就是需要大量的带标签数据(labeled dat...

40070
来自专栏数据小魔方

图表案例——网易数独经典图表仿作

大家平时看新闻的时候是不是都喜欢看那种多图少字、图文并茂的呀,冗长的文字看着烦死了,还累眼睛(躺枪的举手我看看~_~) 哈哈其实这很正常,白天累死累活干一天,看...

49840

扫码关注云+社区

领取腾讯云代金券