在数据分析中,常常可以见到二分类式的数据,例如,患病的有和无,是否吸烟,喝酒喝高血压等等。这些均属于二分类数据,从这类数据中抽取样本,只存在两种情况,要么是对立中的一类,要么是另一类,常将这样的数值定义为0和1,并且一般默认为赋值较小的数值为阳性事件,若用离散型随机变量X来描出现1和0的次数,随机变量X出现1的频率为P时,那么随机变量X出现0的概率是1-P,这样的数据分布类型就称为二项分布。
例:根据筛查得得知某省份成人的α-地中海贫血基因携带率为7.6%,某研究机构在本省的山区随机抽样125例成人,检出α-地中海贫血基因携带者12例,分析该山区与本省一般成年人此基因的携带率有无差异。
1
数据库建立
2
数据录入
3
加权个案
4
分析数据-–非参数检验-二项式检验(设置检验比例,为此事件的总体概率值)
5
结果输出
6
结果解读
样本的地中海贫血基因的携带率是9.6%,总体中此基因的携带率是7.6%,应用近似于正态分布法,p=0.242,可以判定此山区地中海贫血基因的携带率和本省的一般成人没有差异。
—END—
领取专属 10元无门槛券
私享最新 技术干货