抽样调查怎么做?

全篇为5部分,主要采用5W2H的逻辑。

(本文框架)

01

输为什么要用抽样样本

我们经常需要调查某一批对象的某一项情况,如果所调查对象的体量比较少时,我们可以采取去量调查统计的形式,但是如果被调查统计对象体量较大时,很显然全量统计就有点不现实,我们需要采用抽取样本的形式。

02

如何设计抽样样本

1、确定目标总体,首先要明白目标总体何在,才知道样本取自哪里。这里的目标总体是指被调查对象的总体。

2、确定抽样单位,在确定目标总体以后,需要确定抽样单位,抽样单位就是该以什么样的量去抽取样本,比如检验某批食品的合格率时可以按每件也可以按每箱来抽取,这里的件和箱就是抽样单位。

3、确定抽样空间,最后需要确定一下抽样空间,即你在哪一范围内抽哪些对象呢。

03

样本设计不好出现的后果

我们有的时候会嫌上面的步奏过于繁琐,会通过拍脑袋的方式来进行抽样,但是这样的抽样往往是不准确的,会导致抽样样本发生偏倚。而偏倚样本无法代表目标总体,所以抽样结果无效。

04

出现不准确结果的原因

我们只知道抽样过程操作不当会导致样本数据进行偏倚,可是具体是是哪些操作导致样本结果偏倚的呢。

1、抽样空间中所选对象不全,因此未包含目标总体中的所有对象,。如果样本中的所选调查对象不全,那么就会导致结果偏倚。

2、抽样单位不准确,比如我们上面提到过的检验一批商品的合格率中抽样对象有件和箱两种,我们在选择抽样单位的时候一定要根据实际情况进行合理的选择。

3、调查问卷的问题设计不当。设计的问题要中性,要适合每个人回答。比如,某公司为了调查A品牌在消费者心中的喜欢程度,在做问卷的过程中,设置了“在XX行业,比起A品牌,你更喜欢哪个品牌?”这样的问卷,而这样的问卷明显带有偏倚,应该是“在XX行业,你比较喜欢哪个品牌”。

4、样本缺乏随机性。例如,如果在大街上展开调查,我们很可能会回避那些行色匆匆或气势汹汹的人,这样你就把这些人排除在调查范围以外。

05

如何避免不准确结果的出现

关于偏倚产生的原因,上面讲述了四点,虽然偏倚来源广泛,但是大部分可以归结为样本选取方法,我们接下来就该针样本选取方法进行改进。以下是集中样本选取方法。

1、简单随机抽样,简单随机抽样就是通过随机的选取一个大小为n的样本,所有大小为n的样本被选中的可能都相同。 简单随机抽样又包括重复抽样和不重复抽样,两者的主要区别是在一次抽选结束以后是否继续参与下一轮的抽选。

简单随机抽样具体的方式有:抽签,随机编号生成器。

除了简单随机抽样以外我们还有分层抽样、整群抽样、系统抽样三种。

2、分层抽样将总体划分为几个组或几个层,组或层中的单位都很相似,每一层都尽可能与其他层不一样,分号层以后,就对每一层进行简单随机抽样。

3、整群抽样将总体划分为几个群,其中每个群都尽量与其他群相似,可通过简单随机抽样随机抽取几个群,这个时候抽样单位为群。

4、系统抽样是选取一个数字K,然后没打第K个单位就抽样一次,用系统抽样的前提是总体之间无明显的位置(顺序)规律。

本篇完

原文发布于微信公众号 - 张俊红(zhangjunhong0428)

原文发表时间:2016-11-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏钱塘大数据

聚类分析—大数据时代数据挖掘的关键突破口

导读:人类文明已迈入大数据时代,得“数据”者得天下,而数据处理技术是必不可少的,那么说到大数据分析中的应用,最常用的经典算法之一就是聚类法,这是数据挖掘采用的起...

42080
来自专栏机器之心

学界 | 新研究将GRU简化成单门架构,或更适用于语音识别

选自arXiv 机器之心编译 参与:Panda Yoshua Bengio 领导的一个团队近日在 arXiv 上发布了一篇论文,介绍了他们通过修改门控循环单元(...

33080
来自专栏专知

【干货荟萃】机器学习&深度学习知识资料大全集(二)(论文/教程/代码/书籍/数据/课程等)

【导读】转载来自ty4z2008(GItHub)整理的机器学习&深度学习知识资料大全荟萃,包含各种论文、代码、视频、书籍、文章、数据等等。是学习机器学习和深度学...

504120
来自专栏AI2ML人工智能to机器学习

概率估值的光滑(Smoothing)

一般通过频率(Frequency / Counting)来估值的过程中,存在需要光滑(Smoothing)的问题, 这个问题在自然语言处理或者贝叶斯算法中尤为突...

42820
来自专栏机器之心

教程 | 用数据做酷的事!手把手教你搭建问答系统

选自TowardsDataScience 作者:Priya Dwivedi 机器之心编译 参与:Pedro、路 本文介绍了如何基于 SQuAD 数据集搭建问答系...

29470
来自专栏新智元

DeepMind丨深度学习最新生成记忆模型,远超RNN的GTMM

【新智元导读】DeepMind 的最新研究成果,对广泛使用于语音识别、图像识别、语义理解等领域的深度学习人工网络RNN性能带来显著提升(substantiall...

40760
来自专栏人工智能LeadAI

《机器学习基石》课程学习总结(一)

《机器学习基石》课程非常棒,作为总结,本文重点是梳理课程中的知识脉络,同时尽可能说白话,让没有机器学习背景的朋友也能看懂。 这个课程好在哪里? 1、最大的好 课...

46750
来自专栏专知

【干货】理解特征工程Part 1——连续数值数据(附代码)

92510
来自专栏机器之心

专栏 | 阿里IJCAI 2017 Workshop论文:使用深度强化学习方法求解一类新型三维装箱问题

机器之心专栏 阿里菜鸟物流人工智能部 据机器之心了解,阿里巴巴有 11 篇论文入选如今正在墨尔本进行的 IJCAI 2017 大会,其中 6 篇来自阿里巴巴-浙...

1.1K60
来自专栏iOSDevLog

十个主题,最全的优秀 TensorFlow 相关资源列表

470110

扫码关注云+社区

领取腾讯云代金券