2.1 统计基础

rocket

发布于 2018-09-14 11:28:23

1.3K0

发布于 2018-09-14 11:28:23

文章被收录于专栏：用户3246163的专栏

15 Probability

15.1 离散和连续随机变量的区别

离散随机变量的概率是一个positive finite number
连续随机变量的概率是一个range，单一点的概率是zero

15.2 PDF和CDF的区别

PDF是等于某个个点概率
CDF是等于并小于某个点的概率

15.3 计算discrete uniform distribution的某事件概率

p(X)=1/n

15.4 区分independent和mutually exclusive event

独立事件的概率不受其他事件的影响
互斥事件的交集概率为0

15.5 根据matrix计算交集概率

独立事件 P(AB)=P(A)*P(B)
互斥事件 P(AP)=0
矩阵单元格就是交集概率

15.6 计算条件概率，区分条件概率和非条件概率

非条件概率是一个时间发生的概率
条件概率是在A发生下，B发生的概率

16 Basic Statics

16.1 解释随机变量的mean，SD，Variance

mean是所有变量的平均
方差和标准差是度量变量到mean的离差（dispesion）

16.2 计算mean，SD，Variance

期望是所有变量加和除以N
方差是平方的期望减去期望的平方

16.3 解释和计算离散随机变量的期望

期望是每个点乘以概率加和

16.4 计算和解释两个随机变量的协方差和相关性

协方差公式

相关性=协方差／（SD1*SD2）

16.5 两个变量的mean和variance的运算

如果两个变量不独立，注意variance计算需要covariance

16.6 描述4个moment：mean，variance，skewness，kurtosis

1st raw moment：mean
2nd central moment：variance
skewness 是标准化3rd central moment
kurtosis 是标准化4th central moment

16.7 描述skewness，kurtosis的特点

skewness>0, right-skewed,尾右
skewness<0, left-skewed,尾左
kurtosis>3, leptokurtosis, fat tail more peaked
kurtosis<3, platykurtosis, thin tail less peaked

16.8 描述和解释best linear unbiased estimator

主要用在线性回归的时候来估计b1 unbiasedness: 估计的残差是随机的 efficiency：对比其他估计样本残差最小 consistency：样本增大残差方差降低 linearity：是样本的线形函数

17 distribution

17.1 区分8个分布的关键属性

uniform:

binomial: n次实验有x次成功的概率

poission: 每单元成功x个的概率，是平均每单元成功的个数

举例：911每秒接听0.1个电话，问一分钟接听5个电话的概率是多少

,1分钟平均接听电话是6个 P(1分钟接听5个)=

=16.06%

normal：对称分布，Z表
lognormal：非对称分布，Y=eX, X是normal distribution
Chi-squared：检验估计的方差
Student's T：df=n-1，样本小的时候使用
F-distribution：用样本检验两个总体的方差是否一致

17.2 描述central limit theorem

总体均值=样本总体方差=样本方差／n

17.3 描述independent and identical distribute随机变量和normal分布

当样本足够大，iid将会变成normal

17.4 描述一个mixture分布，解释mixture的创建和特征

Mixture 组合了参数和非参数分布。选用构成的分布是参数的，但是每个分布对应的权重时根据历史数据得到的，是非参数的。

18 bayesian 分析

18.1 描述bayes理论，并用这个利率计算条件概率

使用二叉树的方法,直观快速：

已知某经理高于市场，它是优秀经理的概率是

18.2 比较bayesian approach和frequentist approach

bayes 基于之前信任的概率 frequentist 基于之前发生的频率，如果前三年高于市场，那么第四年也会高于市场

18.3 应用beyes在超过两个结果情景中，并计算后面的概率

使用和18.1类似的树图来计算

19 假设检验和置信区间

19.1 计算和解释样本均值和样本方差

除以n-1是因为样本数量太小，通过n-1来调整方差更接近真实

standard error of sample mean：样本均值的标准差，样本平均值的波动程度

算样本的协方差也需要通过n-1来进行调整

19.2 构建和解释一个置信区间

Normal with known Variance，求总体均值的置信区间

根据样本均值和总体标准差构建的Z分布，得出：我们有1-的概率相信，总体均值将会落入这个置信区间

Normal with unknown Variance，使用样本方差，求总体均值的置信区间

根据样本均值和样本均值标准差构建的t分布，得出：我们有1-的概率相信，总体均值将会落入这个置信区间使用t分布的degree of freedom = n-1

Non-normal with unknown variance

如果总体方差已知，n大于30，使用z分布来计算
如果总体方差未知，n大约30，使用t分布来计算

19.3 构建一个null and alternative hypothesis，计算测试统计值来验证假设

构建假设检验的流程：

声明一个假设，比如一个公司平均年收入是多少，平均年收入的方差是多少
选择合适的测试统计方法，使用z分布，t分布，分布，F分布 z分布：总体方差已知，检验假设的均值 t分布：总体方差未知，检验假设的均值 分布：用样本方差检验假设的方差 F分布：用两个不同总体的样本，检验两个总体的方差是否一致
指定significant level：,显著水平，就是这个假设检验的概率水平 10%，5%
声明decision rule，， Null hypothesis：,研究者想证伪的一个假设 Alternative hypothesis：,由于研究拒绝了而得出的结论由于科学研究只能证伪，无法证真，所以假设检验就是通过一次次证伪来得出结论
收集样本计算样本统计指标并计算

总体方差已知：

总体方差未知：

基于统计指标做出是否拒绝假设的决定

19.4 区分一个单尾和双尾测试的区别，识别何时使用每种假设

只能根据test statistics来决定是否reject

two-tailed test：

如果test statistic不在置信区间内，则reject ，所以conclude 如果test statistic在置信区间内，not reject ，但不能conclude 双尾的对应的z值置信区间： 5%<--->[-1.96，+1.96] 1%<--->[-2.58，+2.58]

one-tailed test：

根据，决定单尾的critical value（一般是根据分布查表的到）如果

, 而test statistic >= critical value, 则reject ，所以conclude 如果

, 而test statistic < critical value, 则not reject ，但不能conclude 单尾的对应的z值critical value： 5%<--->1.645 1%<--->2.33

Type I and Type II error

Decision	H0 is true	H0 is false
not reject H0	正确决策	Type II error，假阳性（没病但是检查有病）发生这种错误的概率是1-
reject H0	Type I error，假阴性（有病但是检查没病）发生这种错误的概率是	正确决策，power of test测试力度是1-

如果假阴性增多，说明阴性的范围太大，需要减少阴性范围，也就是提高power of test p-value: 根据测试统计值拒绝H0的概率

19.5 用指定的level of confidence来解释假设测试的结果

Z-Test，总体方差已知，检验假设的均值

T-Test，总体方差未知，检验假设的均值

-Test，用样本方差，检验假设的方差

要注意df是n-1

F-Test，已知两个总体的样本，检验两个总体的方差是否一致

要注意S1和S2的df1和df2

Chebyshev‘s inequiality

用来快速计算概率范围的，k是k个 [-1.25,+1.25]个标准差范围内的概率是36% [-4,+4]个标准差范围内的概率是94%

19.6 描述通过计算超额损失的来backtesting VaR的流程

backtesting：比较期望输出结果和实际结果

期望的VaR(95%)=100m, 含义是：有95%的概率，损失不超过100m 100天中最多有5天，损失可能超过100m 所以如果100天中，损失超过100m的天数大于5天，那么就说明期望的不准确，风险被低估了

20 相关性和连接函数copulas

20.1 定义correlation和covariance，并区别correlation和dependence

correlation和covariance都是用来度量两个变量的线形关系 如果cov或等于0，说明X，Y没有线形关系，但不代表两者没有关系或没有依赖性 covariance的范围是负无穷到正无穷 correlation的范围是-1到+1

20.2 使用EWMA和GARCH(1,1)模型计算covariance

EWMA 指数加权移动平均

假设当前的相关性和距离当前最近一个时刻的相关性关系最大

lambda是按照时间指数分布的权重

EWMA还可以用来估计方差：

GARCH(1,1) 通用自回归条件异方差

GARCH(1,1)还可以用来估计方差：

20.3 对协方差应用一致性条件consistency condition

当Xi的方差和协方差都可以计算出来的时候，就可以构建一个variance-covariance matrix

	X1	X2	X3
X1
X2
X3

如果matrix是positive-semidefinite，就被认为是内部一致的

使用下面的公式来验证consistency

一个矩阵如下：

0+0.64+0.64-2 * 0 * 0.8 * 0.8=1.28 大于1，所以结论是矩阵not internally consistent

20.4 描述从一个bivariate normal distribution中生成样本的过程

先用univariate标准正态分布随机生成两个独立变量

Y变量的条件样本就是：

都是normal distribution Expected value of Y 和X有线性关系 Y的均值，标准差是条件的，的均值，方差是非条件的

20.5 当使用one-factor模型时，描述正态分布变量之间的相关性属性

如果把20.4的公式中当作一个公共因素common factor(F) 那么公式就变成了Y和之间的关系了，这就是A Factor Model

这个模型有两个优点： 1. covariance matrix是positive-semidefinite 2. 相关性的数量减少了很多

CAPM就是one factor model,

20.6 定义copula，描述copulas和copula correlation的关键属性

copula，耦合 1. 把X，Y的原有分布转换成一个已知分布（正态分布，t分布）按照百分比转换 2. 计算转换后分布的correlation，就是copula correlation

copula的关键属性是：preservation of original marginal distribution while defining a correlation between them.

比如贷款违约或不违约(二项分布)就可以通过copula转换成正态分布来看它和另外一个变量之间的关系

20.7 解释tail dependence

Student‘s t copula比Gaussian更好的描述了如果历史有极端异常值的的相关性结构， Student‘s t copula有更大的tail dependence，更好度量tail risk

20.8 描述Gaussian copula，Student‘s t copula，multivariate copula and one factor copula

Gaussian copula, 转换成标准正态分布
Student‘s t copula，转换成t分布，比Gaussian更适合极端异常值
multivariate copula，定义个多变量的相关性结构
one factor copula，如果Z，F是正太分布，Ui是t分布

one factor copula可以用来算loan的VaR

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2016-11-10，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自馔玉阁微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

2.1 统计基础

2.1 统计基础

15 Probability

15.1 离散和连续随机变量的区别

15.2 PDF和CDF的区别

15.3 计算discrete uniform distribution的某事件概率

15.4 区分independent和mutually exclusive event

15.5 根据matrix计算交集概率

15.6 计算条件概率，区分条件概率和非条件概率

16 Basic Statics

16.1 解释随机变量的mean，SD，Variance

16.2 计算mean，SD，Variance

16.3 解释和计算离散随机变量的期望

16.4 计算和解释两个随机变量的协方差和相关性

16.5 两个变量的mean和variance的运算

16.6 描述4个moment：mean，variance，skewness，kurtosis

16.7 描述skewness，kurtosis的特点

16.8 描述和解释best linear unbiased estimator

17 distribution

17.1 区分8个分布的关键属性

17.2 描述central limit theorem

17.3 描述independent and identical distribute随机变量和normal分布

17.4 描述一个mixture分布，解释mixture的创建和特征

18 bayesian 分析

18.1 描述bayes理论，并用这个利率计算条件概率

18.2 比较bayesian approach和frequentist approach

18.3 应用beyes在超过两个结果情景中，并计算后面的概率

19 假设检验和置信区间

19.1 计算和解释样本均值和样本方差

19.2 构建和解释一个置信区间

Normal with known Variance，求总体均值的置信区间

Normal with unknown Variance，使用样本方差，求总体均值的置信区间

Non-normal with unknown variance

19.3 构建一个null and alternative hypothesis，计算测试统计值来验证假设

构建假设检验的流程：

19.4 区分一个单尾和双尾测试的区别，识别何时使用每种假设

two-tailed test：

one-tailed test：

Type I and Type II error

19.5 用指定的level of confidence来解释假设测试的结果

Z-Test，总体方差已知，检验假设的均值

T-Test，总体方差未知，检验假设的均值

-Test，用样本方差，检验假设的方差

F-Test，已知两个总体的样本，检验两个总体的方差是否一致

Chebyshev‘s inequiality

19.6 描述通过计算超额损失的来backtesting VaR的流程

20 相关性和连接函数copulas

20.1 定义correlation和covariance，并区别correlation和dependence

20.2 使用EWMA和GARCH(1,1)模型计算covariance

EWMA 指数加权移动平均

GARCH(1,1) 通用自回归条件异方差

20.3 对协方差应用一致性条件consistency condition

20.4 描述从一个bivariate normal distribution中生成样本的过程

20.5 当使用one-factor模型时，描述正态分布变量之间的相关性属性

20.6 定义copula，描述copulas和copula correlation的关键属性

20.7 解释tail dependence

20.8 描述Gaussian copula，Student‘s t copula，multivariate copula and one factor copula

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐