(本文框架)
01
输为什么要用抽样样本
我们经常需要调查某一批对象的某一项情况,如果所调查对象的体量比较少时,我们可以采取去量调查统计的形式,但是如果被调查统计对象体量较大时,很显然全量统计就有点不现实,我们需要采用抽取样本的形式。
02
如何设计抽样样本
1、确定目标总体,首先要明白目标总体何在,才知道样本取自哪里。这里的目标总体是指被调查对象的总体。
2、确定抽样单位,在确定目标总体以后,需要确定抽样单位,抽样单位就是该以什么样的量去抽取样本,比如检验某批食品的合格率时可以按每件也可以按每箱来抽取,这里的件和箱就是抽样单位。
3、确定抽样空间,最后需要确定一下抽样空间,即你在哪一范围内抽哪些对象呢。
03
样本设计不好出现的后果
我们有的时候会嫌上面的步奏过于繁琐,会通过拍脑袋的方式来进行抽样,但是这样的抽样往往是不准确的,会导致抽样样本发生偏倚。而偏倚样本无法代表目标总体,所以抽样结果无效。
04
出现不准确结果的原因
我们只知道抽样过程操作不当会导致样本数据进行偏倚,可是具体是是哪些操作导致样本结果偏倚的呢。
1、抽样空间中所选对象不全,因此未包含目标总体中的所有对象,。如果样本中的所选调查对象不全,那么就会导致结果偏倚。
2、抽样单位不准确,比如我们上面提到过的检验一批商品的合格率中抽样对象有件和箱两种,我们在选择抽样单位的时候一定要根据实际情况进行合理的选择。
3、调查问卷的问题设计不当。设计的问题要中性,要适合每个人回答。比如,某公司为了调查A品牌在消费者心中的喜欢程度,在做问卷的过程中,设置了“在XX行业,比起A品牌,你更喜欢哪个品牌?”这样的问卷,而这样的问卷明显带有偏倚,应该是“在XX行业,你比较喜欢哪个品牌”。
4、样本缺乏随机性。例如,如果在大街上展开调查,我们很可能会回避那些行色匆匆或气势汹汹的人,这样你就把这些人排除在调查范围以外。
05
如何避免不准确结果的出现
关于偏倚产生的原因,上面讲述了四点,虽然偏倚来源广泛,但是大部分可以归结为样本选取方法,我们接下来就该针样本选取方法进行改进。以下是集中样本选取方法。
1、简单随机抽样,简单随机抽样就是通过随机的选取一个大小为n的样本,所有大小为n的样本被选中的可能都相同。 简单随机抽样又包括重复抽样和不重复抽样,两者的主要区别是在一次抽选结束以后是否继续参与下一轮的抽选。
简单随机抽样具体的方式有:抽签,随机编号生成器。
除了简单随机抽样以外我们还有分层抽样、整群抽样、系统抽样三种。
2、分层抽样将总体划分为几个组或几个层,组或层中的单位都很相似,每一层都尽可能与其他层不一样,分号层以后,就对每一层进行简单随机抽样。
3、整群抽样将总体划分为几个群,其中每个群都尽量与其他群相似,可通过简单随机抽样随机抽取几个群,这个时候抽样单位为群。
4、系统抽样是选取一个数字K,然后没打第K个单位就抽样一次,用系统抽样的前提是总体之间无明显的位置(顺序)规律。
本篇完