学习
实践
活动
工具
TVP
写文章

不同研究方法,如何获得高质量数据?

在社会科学研究中,获得高质量的数据是做出好研究的关键之一,要收集哪些数据则取决于研究的目的、数据的可获得性以及研究成本。此外,不同的研究方法之下,所获得的数据特点也各不相同,我们要充分理解其优缺点,才能更有效地评估数据的质量,也才能做出更优的研究选择。

获得数据的方法有很多种,根据研究目的、数据的可测性与可获得性而进行的不同的研究设计决定了后续的数据搜集方法。按照研究方法进行分类,目前主要的数据搜集途径有:二手数据法、大数据法和抽样调查、案例法/实地研究、实验法与准实验法中与数据搜集相关的步骤。研究设计不同,有待获得的数据类型就不同,下面本文将针对不同研究方法和目的,综合考虑成本与精度等要素,探讨最合适的数据获取途径。

二手数据法

对于调查对象范围较大的研究而言,从概念化到获得资料的整个过程花费的时间和经费成本可能非常大。此时,根据研究目的和研究对象的要求,如果可以找到合适的既有数据库作为二手资料来源,就可以在一定成本的限制下达到精度和效率最大化、同时又具有一定效度的目的。举例来说,研究中国的老龄化与地区经济发展水平之间的关系,可以利用中国国家统计年鉴的数据,将某年的地区生产总值和人均生产总值作为该年该地区的经济发展水平衡量标准(Picture 1-1),用分地区人口年龄构成和抚养比中的老年人口抚养比作为衡量老龄化的标准(Picture 1-2):

图1-1:中国2016年地区生产总值(表格局部)

图1-2:2016年中国分地区人口年龄构成和抚养比(华北部分)

完整数据来源参见:中国统计年鉴—2017 http://www.stats.gov.cn/tjsj/ndsj/2017/indexch.htm

大数据法

和抽样调查等传统社会调查方式相比,大数据法搜集数据最突出的特点在于不需要抽样,从而减少了抽样的过程中出现的代表性误差,如果需要获得大量的时空信息并将数据进行可视化、在此基础上进行预测,大数据可以在很大程度上提高数据的质量与搜集数据的效率。一个典型的案例就是通过Youtube数据估计美国大选支持率并预测投票结果(Picture 2-1)。大数据的基本流程是经过初步采集数据和预处理之后,在自然语言过程中进行文本分析,准备关联数据,再用机器学习进行结构化分类、计算相关性。这一整套过程不仅利用丰富的方法工具箱提升了效率,还减少了传统调查中访员指导的调查过程中的可变成本(variable cost),尽管研究初期在建立数据库和软硬件设计上可能投入了大量固定成本(fixed cost),但“全量数据”的测量背景下大数据法的平均成本是很小的。

图2-1:通过Youtube视频观看量估计美国大选支持率的可视化结果

(图源:严洁:社会科学方法导论——数据搜集课堂讲义,2018)

但是,大数据法对数据质量的最大影响在于效度问题。为了应对这个问题,一方面可以进行有监督的学习,通过人工编码和机器学习准确度相似性的比对检验数据质量和测量效度;另一方面,行为数据可能无法替代态度价值数据,在进行这方面的测量时需要用大数据法结合抽样调查。

抽样调查 & 案例法/实地研究

抽样调查是传统调查方法中最常用的数据信息搜集手段,主要包括从研究总体中随机抽样和结构化的问卷两大要素。为了保证样本数据的代表性,通常在抽样的时候使用概率抽样,只有在面临样本群体的不可及性或典型案例调查等情况下才会采用非概率抽样。在概率抽样中,等距抽样、分层抽样可以减少单纯的简单随机抽样带来的误差,PPS抽样(概率与规模成比例抽样)可以进一步减小抽样带来的误差。大范围的抽样需要使用多阶段抽样,抽样阶段越多,数据质量越低,因此全国范围内的抽样(中国)一般分为区县、村与街道、户三阶段,并采用分层抽样+PPS抽样抽取初级抽样单位,以获得尽可能高质量的数据。

在利用结构化问卷搜集数据的过程中,按照调查工具分类有面访、邮寄问卷、电话调查、网络调查等模式,其中邮寄问卷和网络调查属于自访答调查,面访和电话调查属于访员指导的调查。引入计算机辅助技术可以结合自访答和访员指导、纸质问卷和网络调查的模式(如CAPI,CASI等模式)。从覆盖率的角度而言,区域抽样框+面访模式得到的数据质量是最高的,但是成本通常也较高昂,电话调查、邮寄调查和网络调查通常只能针对已有抽样框的特定人群。从应答率来看,按照质量从高到低排列依次是面访、电话、邮寄调查。从测量质量本身来说,考察数据完整性、社会期许偏差影响、应答效应影响三个维度(Groves et al., 2009): 第一,从数据缺损值来看,面访缺失的数据显著少于电访和网调,从开放题的应答长度来看,面访得到的可编码应答也更多,辅之以计算机调查可以进一步提高数据完整性。第二,从社会期许偏差影响来看,自访调查在面对敏感题时的社会期许偏差低于访员指导的调查。第三,从应答效应而言,自访调查中的题目顺序效应比电话调查少,电访更容易产生“近呈效应”,面访更容易产生“首呈效应”(Groves et al., 2009)。

如果说调查测量的是总体的常态特征,那么实地研究和案例分析可以帮助我们看到社会中的非常态现象或者典型案例背后的生态特征。深度访问在得到保密、敏感的数据信息上相较于普通的抽样调查具有很大的优势。多案例研究中遵循复制法则,模仿实验研究的思维进行控制变量的设计可以减少访员效应,使得自变量对因变量的数据影响可以更显著地呈现出来。

综合考虑成本和精度的影响,调查研究中广泛使采取混合模式:比如,在历时较长的研究中,第一轮使用面访以最大化应答率,之后几轮调查采用电话调查以节约成本。又或在第一轮调查中采用邮寄调查,对于无应答的样本采用成本更高的电话调查,再对剩下的个案采用面访调查。

实验法/准实验法

实验法中牵涉到数据搜集的步骤主要有前测、后测,会影响到数据搜集质量的除了测量阶段还有实验抽样阶段。在实验室环境或者可以施加前测和刺激的实地环境中,为了保证数据质量,一定要保证实验组和对照组的可比性:通过随机抽样确保实验特征值分布的相似性,同时最好能通过类似所罗门四组实验的设计控制前后测带来的内部与外部无效度。

另一方面,如果是自然实验或者政策实验,外部刺激已经发生,且无法进行前测,此时要采用实验手段就只能通过准实验法:因为无法在干预发生之前进行随机化分组,所以在选取实验组和对照组的时候只能通过配对法(或者选取自然对照组)来实现可比性并减少系统误差。同时,如果将抽样调查和准实验法结合也能提高数据质量,由于接受过罕有变量影响的样本过小,因此抽样得到具有总体代表性的样本之后结合准实验法可以得到质量更高的数据。

参考文献

【1】罗伯特·M·格罗夫斯,弗洛伊德·J·福勒 :《调查方法》,邱泽奇译,重庆大学出版社,2017

【2】严洁:社会科学方法导论,数据搜集,北京大学,课堂讲义,2018

【3】中国统计年鉴2017,http:// www.stats.gov.cn/ tjsj/ndsj/ 2017/ indexch.htm

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181127G0H81W00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券