前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习概率基础:除了偏度、峰度还有矩量母函数

机器学习概率基础:除了偏度、峰度还有矩量母函数

作者头像
Python数据科学
发布2021-09-08 15:23:21
1K0
发布2021-09-08 15:23:21
举报
文章被收录于专栏:Python数据科学Python数据科学

本篇介绍随机变量和概率分布的基本概念,以及有关概率分布的一些简单统计量,它们构成了概率和统计的基础知识。

11 基本概念

当投掷六面骰子时,可能结果有 ,没有其他结果。这种可能的结果称为样本点,所有样本点的集合称为样本空间。

这里出现了两个东西,样本点及其集合。对,就是用集合语言来描述这些内容。

事件定义为样本空间的一个子集。例如,出现任意奇数点数的事件 表示为

没有样本点的事件称为空事件,用 表示。仅由一个样本点组成的事件称为基本事件,而由多个样本点组成的事件称为复合事件。包含所有可能样本点的事件称为整个事件。

至少发生了 和 事件之一的事件称为事件的并集,并用 表示。例如,出现奇数的事件 与出现小于或等于 的事件 的并集表示为

另一方面,事件 和 同时发生的事件称为事件的交集,用 表示。上面的事件 和 的交集为

如果事件 和 永远不会同时发生,即

则 和 事件称为不相交事件。出现奇数的事件和出现偶数的事件不能同时发生,因此是不相交的。对于 和 事件,以下分配定律成立:

对照上面公式和下图,回忆一下中学集合论里的文氏图。

由集合的补集概念很容易想到所谓的补事件。样本空间中除去事件 中样本点后剩下的样本点构成的事件称为 的补事件,用 表示。出现奇数的事件的补事件是不出现奇数,即出现偶数。对于事件 和 的并集和交集,遵循以下德·摩根(De Morgan)定律:

22 概率

概率是对事件发生的可能性的度量,而事件 发生的概率用 表示。俄国数学家科莫哥洛夫(Kolmogorov)通过以下三个公理来定义了概率,而这些公理是对概率显然应该满足的特性的一种抽象。

1.非负性:对于任意事件

2.归一性(幺正性):适用于整个样本空间。

3.可加性:对于不相交事件的任何可数序列,

从上述公理可以看出,事件 和 满足以下加法法则。

这同样使用于两个以上的事件:对于 和 事件,

投掷骰子示例(离散均匀分布 )

33 随机变量和概率分布

如果将概率分配给变量的每个取值,则该变量称为随机变量。概率分布是描述从随机变量的取值到概率的映射的函数。

可数集是其元素可以枚举为 的集合。在一个可数集中取一个值的随机变量称为离散随机变量。请注意,可数集的大小不必是有限的,可以是无限的,例如所有自然数的集合。如果离散随机变量 的每个值的概率为

其中, 称为概率质量函数。注意 应该满足

投掷一个六面均匀的骰子 的结果是一个离散的随机变量,其概率质量函数由 给出。

具有连续值的随机变量称为连续随机变量。如果连续随机变量 在 中取值的概率为

被称为概率密度函数,需要注意的是 应该满足

例如,旋转轮盘 的结果是一个连续的随机变量,其概率密度函数由 给出。请注意,式(1)也有一个重要的含义,即连续随机变量 正好取值 的概率实际上为零:

比如,旋转轮盘赌的结果恰好是特定角度的可能性为零。

连续随机变量 的值小于或等于 的概率,

称为累积分布函数。

概率密度函数和累积分布函数

累积分布函数 满足以下属性:

  • 单调非减: 时有 。
  • 左极限:。
  • 右极限:。

如果存在累积分布函数的导数,那么它就是概率密度函数:

称为上尾概率或右尾概率,而 称为下尾概率或左尾概率。

上尾概率和下尾概率一起称为双侧概率,而它们中的任何一个都称为单侧概率。

44 概率分布的性质

在讨论概率分布的性质时,使用简单的统计量来概括概率质量/密度函数会带来方便。在本节中,将介绍此类统计量。

+数学期望、中位数和众数

数学期望(Expectation)字面上是指期望随机变量取到的值。当然用文字表达比较含糊,具体还是看公式。用 表示的随机变量 的期望定义为根据概率质量/密度函数 加权的 的平均值,

请注意,存在诸如柯西(Cauchy)分布之类的概率分布,它们的期望并不存在(例如趋于无穷大)。对于 的任何函数 ,可以类似地定义它们的期望:

离散型

对于常数 ,期望运算 满足以下属性:

尽管期望代表了概率分布的中心,但当有异常值存在时,它与直观期望的差距可能很大。

例如,收入分配中,由于一个人赚取 100 万美元,直接把期望值拉高到 美元,以至于让所有其他人都低于平均值。这就是网络上大家常说的被平均

在这种情况下,中位数(Median)比期望值更合适,中位数定义为使得下式成立的 值,

也就是说,中位数是概率分布的中心,就其而言,它是不管从左侧还是右侧开始数的中间点。在示例中,中位数为 美元,确实位于人群中间。另外,还会用到中位数的扩展,当 的 -分位数,即使得下式成立的 值,

也就是说,-分位数从左侧给出了 点,而当 时就是中位数。

让我们考虑在区间 上定义的概率密度函数 ,而所谓的期望平方误差定义为

使得它取极小值的 值,事实上正是 的期望。类似地,使得期望绝对误差

取最小值的 值也是 的期望值。此外,式 (2) 的加权变体,

使得它取极小值的 值,正是 的 -百分位。

另一个常用的统计量是众数(Mode),它是一组数据中出现次数最多的数值,被定义为使得 取最大值的 值。

+方差和标准差

尽管期望是表征概率分布的有用统计量,但是即使概率分布具有相同的期望,它们也可以不同。接下来我们引入另一个称为方差的统计量,以表示概率分布的分散情况。随机变量 的方差 定义为

实际上,可以将以上表达式展开,

通常会使计算变得更容易。对于常数 ,方差运算 满足以下性质:

可以看到,这些性质与期望的性质完全不同。

方差的平方根称为标准差,用 表示,

通常,方差和标准差分别用 和 表示。

+偏度、峰度和矩

除了期望和方差之外,还经常使用诸如偏度(Skewness)和峰度(Kurtosis)之类的高阶统计量。偏度和峰度分别表示概率分布的不对称性和尖锐度,它们分别定义为

分母中的 和 用于规范化处理,峰度定义中包含的 将正态分布的峰度归零。

如上图所示,如果偏度为正,则右侧尾比左侧尾要长;如果偏度为负,则左侧尾比右侧尾长。如果偏度为零,则分布是完全对称的。

如上图所示,如果峰度为正,则概率分布比正态分布更尖锐;如果峰度为正,则概率分布比正态分布更钝。

以上讨论说明了该统计量,

在表征概率分布中起着重要作用。 称为关于期望的 阶矩,而

被称为关于原点的第 阶矩。期望值、方差、偏度和峰度可通过使用 统一表示,

  • 期望值:, 方差:
  • 偏度:
  • 峰度:

5矩量母函数

如果指定了期望、方差、偏度和峰度,那么概率分布在一定程度上就被确定下来了。但是,如果我们该如何用更多的特征来描述分布呢?

其实,像平均值、方差、偏度和峰度这些特征统一被称为,那么有没有一个函数能够计算所有矩呢?有的,那就是所谓的矩量母函数(Moment generating function)。有了它,我们可以通过微分来计算各种矩,而不是用积分算,这样就简化了计算。

作为一个极限情况,如果指定了所有阶的矩,那么概率分布可以唯一地确定下来。矩量母函数使我们能够系统地处理所有阶的矩:

的确,将零代入矩量母函数关于 的 阶导数 ,可得 阶矩:

下面证明了这一事实。

函数 关于 的 阶导数为 ,函数 关于 在原点处的泰勒展开式为,

两边分别计算期望,得

两边求导,得

将 代入其中得 。

对于某些概率分布,矩量母函数可能并不存在(例如发散到无穷大)。但它有个兄弟却是始终存在,即特征函数(Characteristic function),

其中 表示虚数单位,使得 。实际上,对概率密度函数作傅立叶变换即得到特征函数。

那么,这些函数有什么用途呢?关于这个我们下回再谈。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-08-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python数据科学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 11 基本概念
  • 22 概率
  • 33 随机变量和概率分布
  • 44 概率分布的性质
    • +数学期望、中位数和众数
      • +方差和标准差
        • +偏度、峰度和矩
        • 5矩量母函数
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档