15 Probability
15.1 离散和连续随机变量的区别
- 离散随机变量的概率是一个positive finite number
- 连续随机变量的概率是一个range,单一点的概率是zero
15.2 PDF和CDF的区别
- PDF是等于某个个点概率
- CDF是等于并小于某个点的概率
15.3 计算discrete uniform distribution的某事件概率
15.4 区分independent和mutually exclusive event
- 独立事件的概率不受其他事件的影响
- 互斥事件的交集概率为0
15.5 根据matrix计算交集概率
- 独立事件 P(AB)=P(A)*P(B)
- 互斥事件 P(AP)=0
- 矩阵单元格就是交集概率
15.6 计算条件概率,区分条件概率和非条件概率
- 非条件概率是一个时间发生的概率
- 条件概率是在A发生下,B发生的概率
16 Basic Statics
16.1 解释随机变量的mean,SD,Variance
- mean是所有变量的平均
- 方差和标准差是度量变量到mean的离差(dispesion)
16.2 计算mean,SD,Variance
- 期望是所有变量加和除以N
- 方差是平方的期望减去期望的平方
16.3 解释和计算离散随机变量的期望
16.4 计算和解释两个随机变量的协方差和相关性
16.5 两个变量的mean和variance的运算
- 如果两个变量不独立,注意variance计算需要covariance
16.6 描述4个moment:mean,variance,skewness,kurtosis
- 1st raw moment:mean
- 2nd central moment:variance
- skewness 是标准化3rd central moment
- kurtosis 是标准化4th central moment
16.7 描述skewness,kurtosis的特点
- skewness>0, right-skewed,尾右
- skewness<0, left-skewed,尾左
- kurtosis>3, leptokurtosis, fat tail more peaked
- kurtosis<3, platykurtosis, thin tail less peaked
16.8 描述和解释best linear unbiased estimator
主要用在线性回归的时候来估计b1
unbiasedness: 估计的残差是随机的
efficiency:对比其他估计样本残差最小
consistency:样本增大残差方差降低
linearity:是样本的线形函数
17 distribution
17.1 区分8个分布的关键属性
- uniform:
- binomial: n次实验有x次成功的概率
- poission: 每单元成功x个的概率,是平均每单元成功的个数
举例:911每秒接听0.1个电话,问一分钟接听5个电话的概率是多少
,1分钟平均接听电话是6个
P(1分钟接听5个)=
=16.06%
- normal:对称分布,Z表
- lognormal:非对称分布,Y=eX, X是normal distribution
- Chi-squared:检验估计的方差
- Student's T:df=n-1,样本小的时候使用
- F-distribution:用样本检验两个总体的方差是否一致
17.2 描述central limit theorem
总体均值=样本
总体方差=样本方差/n
17.3 描述independent and identical distribute随机变量和normal分布
当样本足够大,iid将会变成normal
17.4 描述一个mixture分布,解释mixture的创建和特征
Mixture 组合了参数和非参数分布。
选用构成的分布是参数的,但是每个分布对应的权重时根据历史数据得到的,是非参数的。
18 bayesian 分析
18.1 描述bayes理论,并用这个利率计算条件概率
使用二叉树的方法,直观快速:

已知某经理高于市场,它是优秀经理的概率是
18.2 比较bayesian approach和frequentist approach
bayes 基于之前信任的概率
frequentist 基于之前发生的频率,如果前三年高于市场,那么第四年也会高于市场
18.3 应用beyes在超过两个结果情景中,并计算后面的概率
使用和18.1类似的树图来计算
19 假设检验和置信区间
19.1 计算和解释样本均值和样本方差
除以n-1是因为样本数量太小,通过n-1来调整方差更接近真实
standard error of sample mean:样本均值的标准差,样本平均值的波动程度
算样本的协方差也需要通过n-1来进行调整
19.2 构建和解释一个置信区间
Normal with known Variance,求总体均值的置信区间
根据样本均值和总体标准差构建的Z分布,得出:
我们有1-的概率相信,总体均值将会落入这个置信区间
Normal with unknown Variance,使用样本方差,求总体均值的置信区间
根据样本均值和样本均值标准差构建的t分布,得出:
我们有1-的概率相信,总体均值将会落入这个置信区间
使用t分布的degree of freedom = n-1
Non-normal with unknown variance
- 如果总体方差已知,n大于30,使用z分布来计算
- 如果总体方差未知,n大约30,使用t分布来计算
19.3 构建一个null and alternative hypothesis,计算测试统计值来验证假设
构建假设检验的流程:
- 声明一个假设,比如一个公司平均年收入是多少,平均年收入的方差是多少
- 选择合适的测试统计方法,使用z分布,t分布,分布,F分布
z分布:总体方差已知,检验假设的均值
t分布:总体方差未知,检验假设的均值
分布:用样本方差检验假设的方差
F分布:用两个不同总体的样本,检验两个总体的方差是否一致
- 指定significant level:,显著水平,就是这个假设检验的概率水平 10%,5%
- 声明decision rule,,
Null hypothesis:,研究者想证伪的一个假设
Alternative hypothesis:,由于研究拒绝了而得出的结论
由于科学研究只能证伪,无法证真,所以假设检验就是通过一次次证伪来得出结论
- 收集样本计算样本统计指标并计算
总体方差已知:
总体方差未知:
- 基于统计指标做出是否拒绝假设的决定
19.4 区分一个单尾和双尾测试的区别,识别何时使用每种假设
只能根据test statistics来决定是否reject
two-tailed test:
如果test statistic不在置信区间内,则reject ,所以conclude
如果test statistic在置信区间内,not reject ,但不能conclude
双尾的对应的z值置信区间:
5%<--->[-1.96,+1.96]
1%<--->[-2.58,+2.58]
one-tailed test:
根据,决定单尾的critical value(一般是根据分布查表的到)
如果
, 而test statistic >= critical value, 则reject ,所以conclude
如果
, 而test statistic < critical value, 则not reject ,但不能conclude
单尾的对应的z值critical value:
5%<--->1.645
1%<--->2.33
Type I and Type II error
| | |
---|
| | Type II error,假阳性(没病但是检查有病)发生这种错误的概率是1- |
| Type I error,假阴性(有病但是检查没病)发生这种错误的概率是 | 正确决策,power of test测试力度是1- |
如果假阴性增多,说明阴性的范围太大,需要减少阴性范围,也就是提高power of test
p-value: 根据测试统计值拒绝H0的概率
19.5 用指定的level of confidence来解释假设测试的结果
Z-Test,总体方差已知,检验假设的均值
T-Test,总体方差未知,检验假设的均值
-Test,用样本方差,检验假设的方差
要注意df是n-1
F-Test,已知两个总体的样本,检验两个总体的方差是否一致
要注意S1和S2的df1和df2
Chebyshev‘s inequiality
用来快速计算概率范围的,k是k个
[-1.25,+1.25]个标准差范围内的概率是36%
[-4,+4]个标准差范围内的概率是94%
19.6 描述通过计算超额损失的来backtesting VaR的流程
backtesting:比较期望输出结果和实际结果
期望的VaR(95%)=100m, 含义是:
有95%的概率,损失不超过100m
100天中最多有5天,损失可能超过100m
所以如果100天中,损失超过100m的天数大于5天,那么就说明期望的不准确,风险被低估了
20 相关性和连接函数copulas
20.1 定义correlation和covariance,并区别correlation和dependence
correlation和covariance都是用来度量两个变量的线形关系
如果cov或等于0,说明X,Y没有线形关系,但不代表两者没有关系或没有依赖性
covariance的范围是负无穷到正无穷
correlation的范围是-1到+1
20.2 使用EWMA和GARCH(1,1)模型计算covariance
EWMA 指数加权移动平均
假设当前的相关性和距离当前最近一个时刻的相关性关系最大
lambda是按照时间指数分布的权重
EWMA还可以用来估计方差:
GARCH(1,1) 通用自回归条件异方差
GARCH(1,1)还可以用来估计方差:
20.3 对协方差应用一致性条件consistency condition
当Xi的方差和协方差都可以计算出来的时候,就可以构建一个variance-covariance matrix
如果matrix是positive-semidefinite,就被认为是内部一致的
使用下面的公式来验证consistency
一个矩阵如下:
0+0.64+0.64-2 * 0 * 0.8 * 0.8=1.28 大于1,
所以结论是矩阵not internally consistent
20.4 描述从一个bivariate normal distribution中生成样本的过程
- 先用univariate标准正态分布随机生成两个独立变量
- Y变量的条件样本就是:
都是normal distribution
Expected value of Y 和X有线性关系
Y的均值,标准差是条件的,的均值,方差是非条件的
20.5 当使用one-factor模型时,描述正态分布变量之间的相关性属性
如果把20.4的公式中当作一个公共因素common factor(F)
那么公式就变成了Y和之间的关系了,这就是A Factor Model
这个模型有两个优点:
1. covariance matrix是positive-semidefinite
2. 相关性的数量减少了很多
CAPM就是one factor model,
20.6 定义copula,描述copulas和copula correlation的关键属性
copula,耦合
1. 把X,Y的原有分布转换成一个已知分布(正态分布,t分布)按照百分比转换
2. 计算转换后分布的correlation,就是copula correlation
copula的关键属性是:preservation of original marginal distribution while defining a correlation between them.
比如贷款违约或不违约(二项分布)就可以通过copula转换成正态分布来看它和另外一个变量之间的关系
20.7 解释tail dependence
Student‘s t copula比Gaussian更好的描述了如果历史有极端异常值的的相关性结构,
Student‘s t copula有更大的tail dependence,更好度量tail risk
20.8 描述Gaussian copula,Student‘s t copula,multivariate copula and one factor copula
- Gaussian copula, 转换成标准正态分布
- Student‘s t copula,转换成t分布,比Gaussian更适合极端异常值
- multivariate copula,定义个多变量的相关性结构
- one factor copula,如果Z,F是正太分布,Ui是t分布
one factor copula可以用来算loan的VaR