专栏首页算法channel机器学习储备(1):协方差和相关系数

机器学习储备(1):协方差和相关系数

为了深刻理解机器学习算法的原理,首先得掌握其中涉及到的一些基本概念和理论,比如概率,期望,标准差,方差。在这些基本概念上,又衍生出了很多重要概念,比如协方差,相关系数等。今天我们就来聊聊这些组成机器学习的基本概念。

1

概率

概率 P 是对随机事件发生的可能性的度量。

例如,小明在期末考试前,统计了下自己在今年的数学考试成绩,结果显示得到80分以下的次数为2次,得80分~90分的次数为10次,得到90分以上次数为3次,那么小明得到 80分以下的概率为:

P( < 80 ) = 2/(2+10+3) = 13.3%

80~90分的概率为:

P( 80 ~ 90) = 10/(2+10+3) = 66.7%

90分以上的概率:

P( > 90) = 3/(2+10+3) = 20%

2

期望值

期望值 E,在一个离散性随机变量实验中,重复很多次实验,每次实验的结果乘以其出现的概率的总和。

如上例中,小明在今年的期末考试,我们对他的期望值大约是多少呢?套用上面的公式,80分以下的值取一个代表性的分数:70分,80~90:85分,90分以上:95分,

E = 70 * 0.133 + 85 * 0.667 + 95 * 0.2

计算出的结果为 85,即期末考试我们对小明的合理期望是 85 分左右。

3

方差

方差 σ^2,用来度量随机变量取值和其期望值之间的偏离程度,

其中:X 表示小明的分数这个随机变量,N 表示样本的个数,即在此15个

已经知道小明的15次考试的分数,均值刚才我们也计算出来了为 85分,带入到上面的公式中,便能得出偏离85分的程度大小。

如果方差很大,那么小明在期末考试的分数可能偏离85分的可能性就越大;如果方差很小,那么小明很可能期末考试分数在85分左右。

方差开根号,得到标准差,即为 σ

4

协方差

以上几个概念理解了后,下面再阐述什么是协方差,字面上看它比方差多一个协字,那么大体也能猜出,它可能是衡量两个随机变量间是不是存在某种关系的。

那么它的实际定义如下:

其中,X, Y 是两个随机变量

是对应两个随机变量的均值

如果两个变量是高度同向的,即X变大,Y也变大,那么对应的协方差也就很大;如果每次X变大,Y就变小,那么X和Y的协方差可能就会为负数

例如,经过观察,我们发现小明的数学成绩和物理成绩的分数分布情况高度相符,也是70分以下3次,80~90分居多,21次,90分以上1次,那么我们就说小明的数学和物理成绩的协方差很大。

5

相关系数

我们考虑具有一般性的公式,通常相关系数的定义如下:

发现这个相关系数与协方差紧密相关,只不过又除以了X的标准差和Y的标准差,也就是说,是一种剔除了X和Y这两个偏离程度量纲的影响,标准化后的特殊协方差。

同样可以拿协方差来理解相关系数,若相关系数很大,则可以得到X变大,Y也很可能会变大的结论。

6

总结

我们阐述了几个重要的概念,最后理解了相关系数,理解它为我们之后理解数据预处理的很多算法,及回归分析都很有帮助,如普通最小二乘法 (OLS)为什么在相关系数大的回归分析上变得误差很大。

以上这些概念算是一个作为之后学习的储备吧。谢谢您的阅读!

本文分享自微信公众号 - 算法channel(alg-channel),作者:alg-flody

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-11-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 3分钟理解 支持向量机中最出神的第一笔

    之前推送过SVM,今天,又有了更容易理解SVM的目标函数和约束怎么得来的思路,因此,记录下来,与大家一起分享。

    double
  • Python 闭包坑点

    上篇参考:Python 闭包使用注意点,接下来,介绍使用闭包,经常会犯的一个错误:演示代码如下,

    double
  • Spark跑「DBSCAN」算法,工业级代码长啥样?

    最近着手的一个项目需要在Spark环境下使用DBSCAN算法,遗憾的是Spark MLlib中并没有提供该算法。调研了一些相关的文章,有些方案是将样本点按照空间...

    double
  • 升级Xcode8之后快捷键无法注释

    版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u010105969/article/details/...

    用户1451823
  • 【tkinter系列 第十一课 Menu窗口部件 】

    python中通常我们写程序,显示结果和操作都是在终端区,如果要想实现一个有显示界面的程序那该怎样实现呢?python中有好几个库都可以实现,这个系列我们一起来...

    用户7054460
  • SQLServer性能调优-分组聚合

    聚合实际上对数据做分组统计,SQL Server使用两种操作符来实现聚合,流聚合(Stream Aggregation)和哈希聚合(Hash agg...

    物流IT圈
  • GEO数据挖掘流程+STRING VS R in KEGG/GO

    In molecular biology, STRING (Search Tool for the Retrieval of Interacting Genes...

    生信技能树
  • 干货 | 通透理解Elasticsearch聚合

    使用Elasticsearch的过程中,除了全文检索,或多或少会做统计操作,而做统计操作势必会使用Elasticsearch聚合操作。

    铭毅天下
  • linux SED替换指定两字符行之间的内容

    葫芦
  • CSS学习记录及整理

    <!DOCTYPE ”此文仅为个人学习的知识梳理,权威且更详细的内容请查阅w3school。“>

    SimonDM

扫码关注云+社区

领取腾讯云代金券