前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据科学基础(二) 随机变量及其分布

数据科学基础(二) 随机变量及其分布

作者头像
Rikka
发布2022-01-19 17:21:09
6250
发布2022-01-19 17:21:09
举报
文章被收录于专栏:rikkarikka

📚 文档目录 随机事件及其概率 随机变量及其分布 期望和方差 大数定律与中心极限定理 数理统计的基本概念 参数估计 假设检验 多维 回归分析和方差分析 降维

2.1 随机变量

将样本空间 \Omega 中的每个元素 e 与实数对应起来.

  • 定义:设随机试验的样本空间为 S = \{e\}.\space X = X(e) 是定义在样本空间的实值单值函数. 称 X = X(e) 为随机变量.

2.3 离散型随机变量及其分布律

  1. 离散型随机变量定义:
    • 有限个
    • 无限可列个
  2. 满足条件: p_k\geq0,k=1,2… \sum^n_{k=1}p_k=1
  3. 分布律: P\{X = x_k\}=p_k,k=1,2...

也可以用表格:

2.4 连续型随机变量及其概率密度函数

  1. 定义:对于非负可积函数f(x),有
  1. 满足:
  • f(x) \geq 0
  • \int^{-\infty}_{\infty}f(x)dx = 1
  • 取个别值概率为 0 , 则端点值有没有无所谓.

2.5 分布函数(对离散 连续均成立)

定义:

F(x) = P(X \leq x),即 X 取值不超过 x 的概率,它是一个普通的实函数

性质:

0\leq F(X) \leq 1, x \in (-\infty,+\infty)

F(x) 不减, 即 x_1 < x_2 \Rightarrow F(x_1)<F(x_2)

利用这个性质, 有:

F(x)右连续,且至多有可列个间断点 . 若为离散型, 则 F(x) 右连续, 若为连续性, 则 F(x) 不仅右连续, 还是连续的.

以下公式对离散型和连续性均有用:

2.5.1 离散型的分布函数

  • 由概率求分布函数:

由图可见,函数的每一段都是右连续的.

  • 由分布函数求概率:只需借助 P\{X=a\}=F(a)-F(a-0).

2.5.2 连续型的分布函数

F(x) = P\{X \leq x\}= \int_{-\infty}^{x}{f(x)}dx两边同时求导可得F’(x)=f(x)

2.6 几种分布

2.6.1 离散型的分布

1. 0-1分布
  • 分布律
  • 特点: 只做一次 结果只有两种: p\{x=k\}=p^k(1-p)^{1-k}
  • 期望E(X)=p
  • 方差D(X)=p-p^2
2. 几何分布

A发生概率为 pP(A) = p,第 k 次试验首次发生, 则前 k-1 次没有发生, P\{X=k\}= (1-p)^{k-1}p,X~G(p).

3. 二项分布
  • P(A) =p,n次试验,发生 k 次的概率是 P\{X=k\}=C^k_np^k(1-p)^{n-k},k=1,2,3,…,n, X \sim B(n,p)
  • 期望E(X)=np
  • 方差D(X)= np(1-p) 推导:因为每次试验都是互相独立的,所以将每次的都加起来
4. 泊松分布
  • 公式: P\{X=k\}=\frac{\lambda^k}{k!}e^{- \lambda},k=0,1,2,3,…,\lambda>0,XP(\lambda)
  • 证明概率和为1: 泰勒:e^x=\sum_{k=0}^{\infty}\frac{x^k}{k!},\sum_{k=0}^{\infty}\frac{\lambda^k}{k!}e^{- \lambda}=e^{-\lambda}\sum_{k=0}^{\infty}\frac{\lambda^k}{k!}=e^{-\lambda} \cdot e^\lambda=1.
  • 适用范围:电台呼叫次数,公用设施(等车,摇号)
  • 泊松分布近似二项分布: 适用范围:n 较大,p 较小, np 适中的时候. 当 n\rightarrow+\infty 时,\lambda \rightarrow np.

例题: 银行有 1000 个账户,每户存了 10 万元. 每户提 2 万的概率是 0.006, 则银行应至少准备多少现金,可以有 95% 的概率满足用户需求?设有 X 名用户来取钱,银行要准备 x 万元现金

\begin{aligned} \lambda =np=6\\ X\sim B(1000,0.006)\\ P\{2X \leq x\}\geq 0.95\\ \sum_{k=0}^{\frac{x}{2}}\frac{6^k}{k!}e^{-6} \geq 0.95\\ \end{aligned}

查表即可求得 x/2 \geq 10

5. 超几何分布
  • 定义:一共有 N 个元素, N_1 个属于第一类,N_2 个属于第二类,取 n 个元素, X 代表这 n 个元素中属于第一类的个数. P\{X=k\}= \frac{C_{N_1}^kC_{N_2}^{n-k}}{C^n_N},k=0,1,2,....min\{n,N_1\}
  • 超几何分布:不放回试验. 但当 N 很大, n 很小的时候, 可近似视为放回抽样, 此时可以用二项分布近似. 例子: 10000 粒种子, 发芽率 99%, 从中取出 10 粒, 有 k 粒发芽的概率: P\{X=k\}=\frac{C_M^{k}C_{10000-M}^{10-k}}{C_{10000}^{10}}\approx C_{10}^k0.99^k0.01^{10-k }

2.6.2 连续型的分布

1. 均匀分布
  • 密度函数满足:f(x)=\begin{cases} \frac{1}{b-a},a \leq x \leq b \\ 0, else\\ \end{cases}x 服从均匀分布,记作 x\sim \mathrm U[a,b]
2. 指数分布
  • 密度函数满足:f(x) = \begin{cases} \frac{1}{\theta} e^{-\frac{1}{\theta} x},x \gt 0\\ 0, x \leq 0\\ \end{cases} 其中 \theta>0X \sim \mathrm {Exp}(\theta) 无记忆性: 举例说明: 已经买了 10 年的灯泡还能再用 1 年的概率与刚刚买的灯泡能再用一年的概率相等.P\{X>s+t|X>s\} = P\{X>t\}直接按定义求积分可以证明.
3. 正态分布
  • 密度函数: \displaystyle \phi(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},-\infty< x <+\infty
  • 记作 X \sim N(\mu,\sigma^2).由 \displaystyle \int_{-\infty}^{+\infty}e^{-x^2}dx=\sqrt{\pi}
  • 可以证明 \displaystyle \int_{-\infty}^{+\infty}\phi(x)dx = 1.
  • 分布函数: \Phi(x)=\frac{1}{\sqrt{2\pi\sigma}}\int_{-\infty}^{x}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx
  • 性质: y=\phi(x) 是以 x=\mu 为对称轴的钟形曲线. x = \mu时, \phi(x) 最大值\frac{1}{\sqrt{2\pi}\sigma}. y=\phi(x)x 轴为渐近线. x=\mu \pm \sigma 为拐点. \sigma 固定,\mu 变化, 图像左右移动;\mu 固定,\sigma 变化, 图像最高点变化.
  • 标准正态分布 \mu=0,\sigma=1. 性质: 以 y轴为对称轴. 偶函数 \Phi_0(-x)=1-\Phi_0(x).
  • 举例: 身高体重,受多种因素影响,且每种因素影响都不大. 将一般的正态分布化为标准正态分布: \begin{aligned} \phi(x)&=\frac{1}{\sigma}\phi_0(\frac{x-\mu}{\sigma})\\ \Phi(x)&=\Phi_0(\frac{x-\mu}{\sigma})\\ \end{aligned}
  • 做题时可以直接修改要求的 \mu=1,\sigma=2,P\{-2 \leq X \leq 2\}=P\{\frac{-2-1}{2}\leq \frac{X-1}{2} \leq\frac{2-1}{2}\}=\Phi_0(0.5)-\Phi_0(1.5)
  • 3 \sigma 准则
  • X\sim N(0,1),给定 \alpha(0<\alpha<1)v_\alpha 使得

p\{X>v_\alpha\}=\alpha,v_\alpha \text{为}\alpha \text{分位数}

2.7 随机变量的函数的分布

2.7.1 离散型

  • 已知 X 服从某分布,求关于 X 的函数 Y 的分布.
  • 例子:

Y=(x−1)2 的分布律为:

2.7.2 连续型

  • 随机变量 X 具有密度函数 f_x(x) ,求Y=g(X)的密度函数.
  • 步骤: F_Y(x)\rightarrow F_x(x),注意 F_Y(x) = p\{Y \leq x\},F_X(x) = p\{X \leq x\} 两侧同时求导:f_Y(x) \leftarrow f_X(x)
  • 例子 1:X 概率密度为 f_X(x),求 Y=3X+2 的概率密度. 解:

\begin{aligned} F_Y(x)&= P\{Y \leq x\}=P\{3X+2 \leq x\}\\ &=P\{X \leq \frac{x-2}{3}\}\\ &=F_X(\frac{x-2}{3})\\ \end{aligned}

两边同时求导: \begin{aligned} f_Y(x)&=\frac{1}{3}f_X(\frac{x-2}{3})\\ \end{aligned}

  • 例子 2:X\sim N(\mu,\sigma^2),Y=X^2,Y 的密度函数.按照上面方法,最后积分即可 Y 服从卡方分布
  • 定理 X 服从 (a,b) 内的均匀分布, 则 Y=kX+c 也服从相应区间内的均匀分布. 当k>0,(ka+c,kb+c)k<0,(kb+c,ka+c)X \sim N(\mu,\sigma^2),Y=aX+b,则 Y\sim N(a\mu+b,a^2\sigma^2).

证明:可以用上面分布函数求积分的方法,也可以用

  • X 的密度函数 f_X(x),Y=kX+b,则f_Y(x)=\frac{1}{|k|}f_x(\frac{x-b}{k})
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-12-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 2.1 随机变量
  • 2.3 离散型随机变量及其分布律
  • 2.4 连续型随机变量及其概率密度函数
  • 2.5 分布函数(对离散 连续均成立)
    • 2.5.1 离散型的分布函数
      • 2.5.2 连续型的分布函数
      • 2.6 几种分布
        • 2.6.1 离散型的分布
          • 1. 0-1分布
          • 2. 几何分布
          • 3. 二项分布
          • 4. 泊松分布
          • 5. 超几何分布
        • 2.6.2 连续型的分布
          • 1. 均匀分布
          • 2. 指数分布
          • 3. 正态分布
      • 2.7 随机变量的函数的分布
        • 2.7.1 离散型
          • 2.7.2 连续型
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档