前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >统计分析篇-统计常用分布(1)

统计分析篇-统计常用分布(1)

原创
作者头像
臭脚妹妹
修改2022-11-16 19:36:39
5340
修改2022-11-16 19:36:39
举报
文章被收录于专栏:临床试验
  • 定量资料分布
  • 从定量资料里面抽样本,抽得得样本均值分布。
  • 用抽样分布确定本次抽样出现的可能性。

1.定量资料分布:

以身高为例,以学校为总体,假设学校51578人,会有5178个身高,这5178个身高如下表:

5178个身高
5178个身高
代码语言:javascript
复制
/*SAS生成代码示例 */
data random;
label i = "人员编号" x="身高测量值";
	do i=1 to 5178;
	x=rand('normal',165,10);output;
	end;
run;

这5178个身高做成直方图:

直方图,柱子上是这个柱子中的人数占这5178个人的百分比
直方图,柱子上是这个柱子中的人数占这5178个人的百分比
正态分布公式
正态分布公式

用f(x)描述曲线,通常我们不关心当x取值为多少时f(x)的值,我们关心曲线下面积是多少。曲线下面积代表大于x这个值的可能性。

而我们在试验中,总不能把5178个人身高全部测量得到去回答这5178个人的身高均值和标准差是多少,故抽取一个样本量为20的样本来探究总体的身高和标准差是多少,抽取结果如下:

代码语言:javascript
复制
PROC SURVEYSELECT  
	data=random 
	method = SRS
	out=random_2 
	n=20
	seed =200;
	run; 
样本量为20的1次抽样
样本量为20的1次抽样
代码语言:txt
复制
    假设我们抽这一次得到的均值和标准差就是这5178个人的均值和标准差,那抽这一次的结果大概率会在**抽样分布**集中的地方。随之而来我们就研究**抽样的分布**性质:如果抽1000次样,我们抽样这一次的结果出现的概率是多少?如果概率低于0.05,那就是这次抽样是不太可能发生的。下面是在5178人的总体中,抽1000次样本,得到的1000个均值分布图。
1000次抽样均值的分布
1000次抽样均值的分布
代码语言:txt
复制
在假设抽一次样本跟总体的值是相等的时候,如果我们抽样的均值是169或者比169更大,这种情况出现的概率仅为0.2%+0.3%+1.7%+4.3%=6.5%,这种情况出现的概率太低了,我们就认为我们的假设不对,所以我们拒绝刚才的假设,就得到了抽样跟总体不相等的结论。
代码语言:javascript
复制
/*抽1000个样本,每个样本求均值*/
%macro sum();
%do i=1 %to 1000;
PROC SURVEYSELECT  	data=random 	method = SRS	out=out 	n=20;	run; 

proc sql;
create table sum_&i. as 
select  &i. as sample , sum(x)/20 as sum 
from out;
quit; 
%end;

data final;set sum_:;run;
proc sort;by sample;run;
%mend;
%sum();

proc datasets lib=work;delete sum:;run; 

/*做抽样样本的直方图*/
proc univariate data=final;
 histogram sum
 /  normal ( mu = est sigma = est color = blue w = 2.5 ) 
 	barlabel=percent
	midpoints = 140 to 190 by 1;
run;

总结一下上边的文字用数学符号表示出来:

身高这个变量称为随机变量:常用 X 表示,它的取值常用x 表示。

样本身高的均值和标准差:均值常用 \bar{x} 表示,标准差常用 S 表示。

总体身高的均值和标准差:均值常用 \mu 表示,标准差常用 \sigma 表示。

正态分布常用以下公式表示: f\left( x \right) =\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\left( x-\mu \right) ^2}{2\sigma ^2}},\;x\in \left( -\infty ,\;+\infty \right) ,随机变量 X 服从正态分布常记作:X\sim N\left( \mu ,\;\sigma ^2 \right)

统计推断之路从这里展开到以下几个方面:

正态分布、标准正态分布、t分布,几种分布均是随机变量经过变换而来,标准正态分布是正态分布经过 Z 变换,抽样分布是正态分布抽样而来,t分布是抽样分布经过t变换而来。

几种分布间的转换关系
几种分布间的转换关系

以上即为起点。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.定量资料分布:
    • 总结一下上边的文字用数学符号表示出来:
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档