掌握机器学习数学基础之概率统计(一)

标题:

机器学习为什么要使用概率

概率学派和贝叶斯学派

何为随机变量和何又为概率分布?

条件概率,联合概率和全概率公式:

边缘概率

独立性和条件独立性

期望、方差、协方差和相关系数

常用概率分布

贝叶斯及其应用

中心极限定理

极大似然估计

概率论中的独立同分布?

读完估计需要10min,这里主要讲解第一部分,其他知识在之后文章^-^

机器下学习为什么要使用概率

我们借助概率论来解释分析机器学习为什么是这样的,有什么依据,同时反过来借助概率论来推导出更多机器学习算法。很多人说机器学习是老中医,星座学,最主要的原因是机器学习的很多不可解释性,我们应用概率知识可以解释一部分,但还是很多值得我们去解释理解的东西,同时,什么时候机器学习更多的可解释了,反过来,可以用那些理论也可以继续为机器学习的,对人工智能创造推出更多的理论,等到那一天,也许真的能脱离更多的人工智障了。

这是因为机器学习通常必须处理不确定量,有时也可能需要处理随机 (非确定性的) 量。不确定性和随机性可能来自多个方面。总结如下,

不确定性有三种可能的来源:

被建模系统内在的随机性:例如一个假想的纸牌游戏,在这个游戏中我们假设纸牌被真正混洗成了随机顺序。假如这个时候你要对这个这个游戏建模(预测抽的牌点数也好,预测怎么玩才会赢也罢),虽然牌的数量和所有牌有什么是确定的,但是若我们随机抽一张,这个牌是什么是随机的。这个时候就要使用概率去建模了。

不完全观测:例如一个游戏节目的参与者被要求在三个门之间选择,并且会赢得放置在选中门后的奖品。 其中两扇门通向山羊,第三扇门通向一辆汽车。 选手的每个选择所导致的结果是确定的,但是站在选手的角度,结果是不确定的。在机器学习中也是这样,很多系统在预测的时候,是不确定的,这个时候我们就要用一个”软度量“即概率去描述它。

不完全建模:假设我们制作了一个机器人,它可以准确地观察周围每一个对象的位置。 在对这些对象将来的位置进行预测时,如果机器人采用的是离散化的空间,那么离散化的方法将使得机器人无法确定对象们的精确位置:因为每个对象都可能处于它被观测到的离散单元的任何一个角落。也就是说,当不完全建模时,我们不能明确的确定结果,这个时候的不确定,就需要概率来补充。

这块就是告诉我们,概率很重要,机器学习离不开它!

频率学派和贝叶斯学派:

简单的理解的话:

频率学派:研究的是事件本身,所以研究者只能反复试验去逼近它从而得到结果。比如:想要计算抛掷一枚硬币时正面朝上的概率,我们需要不断地抛掷硬币,当抛掷次数趋向无穷时正面朝上的频率即为正面朝上的概率。

贝叶斯学派:研究的是观察者对事物的看法,所以你可以用先验知识和收集到的信息去描述他,然后用一些证据去证明它。还是比如抛硬币,当小明知道一枚硬币是均匀的,然后赋予下一次抛出结果是正面或反面都是50%的可信度(概率分布),可能是出于认为均匀硬币最常见这种信念,然后比如小明随机抛了1000次,发现结果正是这样,那么它就通过这些证据验证了自己的先验知识。(也有存在修改的时候,比如发现硬币的材质不一致,总之就是这么一个过程)

不是很懂?那我们继续举起”栗子“来:如果一个医生诊断了病人,并说该病人患流感的几率为40%,这就不好办了,因为这意味着非常不同的事情——我们既不能让病人有无穷多的副本,也没有任何理由去相信病人的不同副本在具有不同的潜在条件下表现出相同的症状。若我们用概率来表示一种信任度,其中1表示非常肯定病人患有流感,而0表示非常肯定病人没有流感。这样医生也就变的好办了。然后前面那种概率,直接与事件发生的频率相联系,被称为频率派概率;而后者,涉及到确定性水平,被称为贝叶斯概率。(当然,这知识举例,不是说贝叶斯学派优于概率学派)

来个比喻:概率学派像唯物主义,世间事物不会以你的意识的转移而转变,概率就是事物客观的存在的现象。

贝叶斯学派就是我思故我在,同一个事件,对于观察者来说,他若知道,那就是确定性事件,如果不知道,就是随机事件,鬼知道它到底存不存在。

总的来说,两个学派站的角度不一样,贝叶斯概率论为人的知识(knowledge)建模来定义概率这个概念。频率学派试图描述的是事物本体,而贝叶斯学派试图描述的是观察者知识状态在新的观测发生后如何更新,描述的是观察这的对事物看法。

上面就是科普一样,我们有概率学派和贝叶斯学派,有兴趣可以了解一下!

何为随机变量和何又为概率分布?

随机变量:随机变量可以随机地取不同值的变量。我们通常用小写字母来表示随机变量本身,而用带数字下标的小写字母来表示随机变量能够取到的值。例如,都是随机变量X可能的取值。

对于向量值变量,我们会将随机变量写成X,它的一个值为。就其本身而言,一个随机变量只是对可能的状态的描述;它必须伴随着一个概率分布来指定每个状态的可能性。

随机变量可以是离散的或者连续的。离散随机变量拥有有限或者可数无限多的状态。注意这些状态不一定非要是整数;它们也可能只是一些被命名的状态而没有数值。连续随机变量伴随着实数值。注意:下面很多在知识点都会分离散和连续的分别讲述,但其实原理类似。

当随机变量是离散的,我们称是离散型随机变量,如果是连续的,我们会说是连续型随机变量。

举例:比如,一次掷20个硬币,k个硬币正面朝上,k是随机变量,k的取值只能是自然数0,1,2,…,20,而不能取小数3.5、无理数√20,因而k是离散型随机变量。

公共汽车每15分钟一班,某人在站台等车时间x是个随机变量,x的取值范围是[0,15),它是一个区间,从理论上说在这个区间内可取任一实数3.5、√20等,因而称这随机变量是连续型随机变量。

概率分布:给定某随机变量的取值范围,概率分布就是导致该随机事件出现的可能性。而从机器学习的角度来说的话,概率分布就是符合随机变量取值范围的某个对象属于某个类别或服从某种趋势的可能性。

这一节很重要,重要程度相当于学数学时的1+1=2,简单基础又及其重要。

条件概率,联合概率和全概率公式:

条件概率:其记号为P(AB),表示在给定条件B下A事件发生的概率。

举个“栗子”:P(第二次投硬币是正面第一次投硬币是正面):就是在“第一次投硬币是正面”时“第二次投硬币是正面”的概率。不过,既然举了这个例子,那么就顺带问一下:你以为P(第二次投硬币是正面第一次投硬币是正面)的结果是多少呢?1/4?错。答案是1/2,是不是很意外?看完下面的两种情况你就明白了。

条件概率的两种情况:

B事件的结果不会影响到A事件的发生。如上面的例子,两次投币正面向上的概率不会相互干扰。所以A事件发生的概率=A事件单独发生的概率。记为:P(AB) =P(A)

B事件的结果会影响A事件的发生。如:若头天下雨,则第二天下雨的可能性会增大。即:A事件在B事件之后发生的概率> A事件单独发生的概率。记为:P(AB)> P(A)

条件概率链式法则:

任何多维随机变量的联合概率分布,都可以分解成只有一个变量的条件概率相乘的形式:

这个规则被称为概率的链式法则或者乘法法则。 它可以直接从条件概率的定义中得到。 例如,使用两次定义可以得到

联合概率:联合概率为两个事件同时发生的概率。记为:P(A and B)或直接P(AB)

然后,因为两个事件的发生会有先后,所以联合概率可以进一步描述为:“事件A发生的概率”和“事件A发生后,事件B发生的概率”。于是:P(A and B)= P(A)P(BA)

结合刚才“条件概率的两种情况”,可以得出:P(A and B) 根据不同的情况有如下两种结果:

P(A and B) = P(A)P(B) -- A和B的结果互不影响,即:P(BA) = P(B)

P(A and B) = P(A)P(BA) -- 反之

全概率公式:公式表示若事件B1,B2,…,Bn构成一个完备事件组且都有正概率,则对任意一个事件A都有公式成立。注意:Bi是两两互斥的,如下图:

举例:某地盗窃风气盛行,且偷窃者屡教不改。我们根据过往的案件记录,推断A今晚作案的概率是0.8,B今晚作案的概率是0.1,C今晚作案的概率是0.5,除此之外,还推断出A的得手率是0.1,B的得手率是1.0,C的得手率是0.5。今晚只有一个小偷出手,那么,今晚村里有东西被偷的概率是多少?

通过阅读上述文字,我们大概对A、B、C三人有了一个初步的印象。首先,A的脑子可能有些问题,特别喜欢偷,但是技术相当烂。B看来是个江湖高手,一般不出手,一出手就绝不失手。C大概是追求中庸,各方面都很普通。

我们将文字描述转换为数学语言,根据作案频率可知

P(A)=0.8,P(B)=0.1,P(C)=0.5

将“村里有东西被偷”记为S,根据得手率可以得到

P(SA)=0.1,P(SB)=1.0,P(SC)=0.5

很简单,所求得的就是

P(S)=P(A)P(SA)+P(B)P(SB)+P(C)P(SC)=0.43

祝这个村晚上好运吧。

这三个公式是基础公式,像条件概率,在深度学习中很多conditional的做法,就是条件概率嘛,然后全概率,下面的贝叶斯公式和全概率息息相关,重要的很!

本文来自企鹅号 - 全球大搜罗媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏生信宝典

数据可视化基本套路总结

真依然很拉风,简书《数据可视化》专栏维护者,里面有很多优秀的文章,本文便是其中一篇。

54820
来自专栏新智元

重磅 | 经典教材 R. Sutton《增强学习导论》最新版(451PDF)

2016年10月18日, 世界人工智能大会技术分论坛,特设“新智元智库院长圆桌会议”,重量级研究院院长 7 剑下天山,汇集了中国人工智能产学研三界最豪华院长阵容...

54870
来自专栏大数据文摘

Cell研究揭示生物神经元强大新特性,是时候设计更复杂的神经网络了!

18670
来自专栏量子位

高清变脸更快更逼真!比GAN更具潜力的可逆生成模型来了 | OpenAI论文+代码

17810
来自专栏机器人网

学习人工智能需要哪些必备的数学基础?

当下,人工智能成了新时代的必修课,其重要性已无需赘述,但作为一个跨学科产物,它包含的内容浩如烟海,各种复杂的模型和算法更是让人望而生畏。对于大多数的新手来说,如...

42090
来自专栏机器之心

资源 | MURA:斯坦福ML团队开放的大型放射影像数据集与挑战赛

20240
来自专栏大数据文摘

最全NLP反作弊攻略,从马蜂窝注水事件说起

10月21日,朋友圈被一篇名为《估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》的文章刷屏。文章作者小声比比指控在线旅游网站马蜂窝存在点评大量造假的情况...

26530
来自专栏PPV课数据科学社区

当统计学遇上大数据——P值消亡

有一天,我走进统计学的神殿 ,将所有谎言都装进原假设的盒子里,“P值为零”,一个声音传来,“但你已经不能再拒绝,因为,P值已经死了”从此,这个世界上充斥着谎言。...

31850
来自专栏AI科技大本营的专栏

这三个普通程序员,几个月就成功转型AI,他们的经验是...

动辄50万的毕业生年薪,动辄100万起步价的海归AI高级人才,普通员到底应不应该转型AI工程师,普通程序员到底应该如何转型AI工程师? 以下,AI科技大本营精选...

45560
来自专栏机器之心

「我是可微分编程的粉丝」,Gary Marcus再回应深度学习批判言论

38560

扫码关注云+社区

领取腾讯云代金券