专栏首页Data Analyst回归模型的基础是相关

回归模型的基础是相关

相关是随机理论的基础。田径赛中百米运动员想跑得快,需要大步幅与高步频,但步幅和步却是一对相互矛盾的存在,只有步幅和步频达到最优平衡点时,人才可以跑的更快,所以任何运动员都需要建立步幅和步频之间的平衡模型。

统计关系分类

相关关系是数据分析的基石,统计关系可以理解为两大类,,:

1、函数关系:即确定性关系、确定的对应关系,反映着现象之间存在着严格的依存关系,这种关系可以用数学表达式Y=f(x)表达。例如由于价格因素,罗森某天的营业总额和商品销量之间就存在着严格的依存关系,再例如圆与半径之间也存在着严格的依存关系;

2、随机关系:即相关关系,变量间不能用函数关系精确的表达,点不能被函数完全刻画,X与Y间谁决定并谁不知道。例如销量和收入的关系。

相关关系的种类

相关关系一般有如下三种:

一对一相关:一个Y对一个X,即简单相关,生活中用的最多

一对多相关:一个Y对多个X,即复相关,例如R方就是复相关系数;

多对多相关:多个Y对多个X,这涉及到了典型相关分析

相关系数的种类

统计中能被称为相关系数的参数有四十多个,大部分统计软件只能提供spearman、pearson、kendall这几个相关系数,SAS除了这三个相关系数外,还能提供hoeffman相关系数,信用评分中一般会使用hoeffding相关系数,所以fico信用评分的代码一般会用SAS来写,相较于其他语言,我也更喜欢用SAS去建立信用评分模型

此外,pearson、spearman、kendall与hoeffman相关系数要求数据起码为定序数据,如果数据为定类数据,则只能进行列联相关了。

数据相关的衡量指标

模型中一般需要Y和X间要相关,但是X之间最好不要相关。相关有统计意义上的相关和实际业务中的相关之分,有些数据变量间在统计上相关性很强,但是实际业务中却并没有关系,这种情况就需要关注数据是否出了问题。

一般会用相关系数去衡量数据的相关性。相关性具有如下特点:

1、相关性取值还是取决于分子协方差

2、相关性的绝对值在0与1之间;

3、相关性绝对值的大小可以说明事物之间相关关系的紧密程度。

一般相关系数的衡量标准为:

1、相关性绝对值<0.3表明事物间没有关系

2、0.3<=相关性绝对值<0.5表明事物间相关;

3、0.5<=相关性绝对值<0.8表明事物间显著相关;

4、相关性绝对值>=0.8表明事物间高度相关。

一般,相关系数非常高如0.85的情况只会出现在书本上,实际工作中我还没有遇到,如果出现这么高的相关系数,可能是遇到了伪相关悖论。我举一个例子来说明伪相关悖论是什么:例如张三是我在东北上大学时的大学同学,李四是我在北京工作的同事,张三来北京看我,我们三人便有了关联,但是如果没有我,我的北京同事和我的大学同学这辈子都不会有什么人生交集,所以张三和李四间因为我便产生了伪相关。伪相关没有办法进行检验,所以如果计算出的相关系数很高,一定要小心的判断下这两个变量在业务中是否合理。

相关系数计算的SAS代码

例如场景为下班路上,数据涉及变量为上班耗时time、年龄age、体重weight、身体状态performance、以及耗费精力energy。目的为计算分析变量间的相关关系。

下面的两段代码分别为指定固定变量与非指定固定变量两种情况下 实现相关系数计算的 SAS代码:

1、 利用with参数指定固定变量为energy,得到的结果为每个变量与energy变量的散点图:

proc corr data=XUHUI pearson spearman kendall hoeffding rank plots(only)=scatter(nvar=all ellipse=none);

var time age weight performance;

with energy;

id name;

title "Correlations and Scatter Plots with energy";

run;

2、这种写法中没有指定with参数,除了得到四个相关系数的计算结果外,还会得到变量之间的散点矩阵图,即所有变量 两两之间的相互关系:

proc corr data=XUHUI pearson spearman kendall hoeffding nosimple plots=matrix(nvar=all histogram);

var time age weight performance;

title "Correlations and Scatter Plot Matrix of Predictors";

run;

本文分享自微信公众号 - Data Analyst(DataAnalyst0802),作者:许卉

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-02-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 如何借助模型衡量营销效果?

    生活中经常会遇到各种形态的营销活动,例如小米的饥饿营销、海底捞式的口碑营销、PaPi酱式的内容营销、杜蕾斯的借势营销、京东的造势营销、百雀羚的病毒式营...

    许卉
  • 天造地设的主成分与神经网络

    分析架构中常常会涉及到主成分分析的环节,我常常会想,这部分主成分分析能不能用聚类分析去替代呢?结论是不能~

    许卉
  • 关于密度函数的一点看法(二)

    数据探索时涉及到的三个函数为密度函数、分布函数与生存函数,其中样本的分布函数的形态、生存函数的形态基本没有太大变化,然而样本的密度函数分布形态却有着很大...

    许卉
  • 手动实现jQuery Tools里面tab功能

    平时开发中用的Javascript类库都是jQuery,用到插件或者第三方类库能从jQuery Tools里面找到,基本不用其他的。当然有时同事喜欢使用jQue...

    八哥
  • PHP 特色:可变变量

    夏时
  • 随机变量的相关性与独立性

    语义上来讲,独立是指变量之间完全没有关系,但是不相关则仅要求变量之间没有线性关系,因而独立的要求更高,独立的变量一定是不相关的,但是不相关的不一定是独立的,即独...

    yangzelong
  • 忙论文的各位注意了:自动化图片查重工具来啦!

    转眼暑期已经过去一半,想必在座的多数科研狗已经早早结束假期,踏上回校的旅途了,有些甚至埋头实验室就没有给自己安排假期!

    百味科研芝士
  • SAP R/3系统的R和3分别代表什么含义,负载均衡的实现原理

    版权声明:本文为博主汪子熙原创文章,未经博主允许不得转载。 https://jerry.bl...

    Jerry Wang
  • 创新工场汪华:移动支付与人工智能助推,中国互联网进入OMO时代

    转载自 创新工场公众号 很多人说,中国互联网已经进入下半场,人口红利消失,留给创业者的机会不多了。 但在我看来,中国互联网的下半场还远没到来,我们仍在上半场的开...

    量子位
  • Pycharm中无法导入(import)自己写的模块或脚本

    Aidol

扫码关注云+社区

领取腾讯云代金券