前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据研究初体验 做找米的巧妇

大数据研究初体验 做找米的巧妇

作者头像
企鹅号小编
发布2018-01-08 15:05:14
6120
发布2018-01-08 15:05:14
举报
文章被收录于专栏:大数据大数据

CHARLES项目是由北京大学国家发展研究院主持、北京大学中国社会科学调查中心与北京大学团委共同执行的大型跨学科调查项目,该项目旨在调查收集一套代表中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析我国人口老龄化问题,推动老龄化问题的跨学科研究,为制定和完善我国相关政策提供更加科学的基础。该项目于2011年开始在全国范围内进行基线调查,并于2013年,2015年完成两次跟踪调查 [1]。

今年,我与我的两位学姐合作,对CHARLES项目基线调查的部分数据进行分析,所获结果有幸被柳叶刀杂志与中国医学科学院共同组织的2017柳叶刀-中国医学院医学峰会接受,并发表在柳叶刀杂志增刊上 [2]。这是我第一次尝试大数据分析,在这个过程中学到了很多东西,也获得了不少经验。古语有云“巧妇难为无米之炊”,而我的经验总结起来,就是“勤找米,变巧妇,多多炊”。

1

何为“米”

我把它定义为数据。如果说过去受条件所限,收集大批量的数据有一定困难,在当下这个时代,即便不能亲自进行数据收集,从其他资源获取海量数据已经不再是遥不可及的事情。从此次柳叶刀的会议摘要集里也可以发现,有超过10个研究团队使用了可以免费下载的公开数据集进行分析,可见资源广泛。这些数据既包括为某些研究目的而直接从受访者处收集而来的问卷或生物学样本,也有单纯通过分析统计年鉴中的相关数据而得出结论的研究;特别要注意的是,所谓海量数据,并不仅仅指样本量大,也包括总单个样本上所获取的信息量,以及后续的多次随访。以我所使用的CHARLES研究为例,不仅样本量大(基线超过17500人),同时问卷所涉及的面也广,最直观的表现就是问卷长(A4纸超过180页)且变量多(与我项目相关的4个子数据库变量总计超过3500),还不包括其它相关生物信息资料以及后续随访所产生的数据。

2

如何成“巧妇”

在大数据时代,海量数据对于每一个研究者既是机遇,也是挑战。面对海量数据,要成为巧妇,最重要的能力恐怕就是持续不断的学习,所谓学无止境。学,一方面要学习知识,而另一方面,则要学习工具的使用。学习知识,下面这个图例可能最能说明问题[3]。

虽然这个图最初面对的对象是博士生,我想,它也同样适合每一个研究者。在当下这个知识爆发的时代,作为研究者既要努力深入了解自己研究方向内部相关研究的最新进展,也应该时刻保持好奇心,了解其它相关学科的发展状况,这样才可能跟上时代发展的脚步。而工具,则更是五花八门,选择多多,无论是在统计、文献检索,还是其它方面,只要保持一颗好奇心,多学多试,总能找到一件合适的工具。

这里多说一点统计工具的事情。一方面,SPSS作为一款界面友好的统计软件,现在仍然在被大量使用,而且必须承认,在处理小批量且“干净”的数据集时,SPSS依旧简洁高效。但也应该注意的是,在大数据时代,简单满足于SPSS的交互界面,就多少有些落伍了。作为研究者,应该了解SPSS软件内部同样提供编程功能,即syntax,应该多多学习并且使用,可以有效提高工作效率,也方便其他研究者对分析结果进行检验。另一方面,也应该注意到,SPSS处理复杂数据库结构以及进行高级统计分析的局限性也是很明显的,例如,在文献中越来越多见的结构方程模型,在SPSS基本模块中并不能实现。在没有任何利益冲突的情况下,此处强推一波R。相对于SPSS,R还是有一些天然优势的,比如免费,开源,以及灵活。如果有能力,打算直接从python入手,那就更是再好不过。在网上有很多相关视频教程介绍这些工具,在这里就不赘述了。至于SAS,实在是,太贵了~~

3

巧妇有米如何“炊”

在原材料极大丰富的情况下,这既是机遇,也对研究者提出了更高的要求。从机遇的角度看,要做什么科研,怎么做,真是八仙过海,各显其能。以CHARLS研究为例,且不论在官方网站上所公布的几百篇基于CHARLES数据库所发表的论文,仅这次会议发表的摘要中,就有三个团队对于不同的研究课题使用CHARLES数据库进行分析,这其中,大部分研究(包括我自己)还都只局限于横断面研究,而纵向研究数据库还大有潜力可挖。而另一方面,因为大样本和变量的出现,也使数据结构变得更加复杂,要求研究者更加深入了解研究问题,并且掌握更加全面的数据分析方法,以获得更加准确可靠的结果。这些,也同样是我今后努力的方向。

最后,我特别想强调团队合作的重要性。在我看来,向他人学习,与他人合作,在现在这个时代尤为重要,因为没有一个人可以全面掌握所有知识。建立一个和谐的团队,大家一起努力,是提高效率,取得成果的一个必要保障。这里,我也要向我的两位学姐,也就是这篇摘要的两位共同作者表示感谢。她们从研究题目的选定到摘要完成发挥了巨大的作用。可以说,没有她们的帮助和支持,也不会有这项研究和这篇摘要的出现。

以上,就是我个人对于在大数据时代使用公开数据进行研究的一点感想,在此抛砖引玉,不足之处,还希望大家批评指正。

夏楠

中国香港大学李嘉诚医学院公共卫生学院博士在读

Reference:

2. N Xia, S. Feng, and L.D.-L. Wang,Depressive symptoms and healthy lifestyle behaviours in soon-to-be old andolder adults in China: an analysis of data from a nationwide cross-sectionalsurvey. The Lancet, 2017. 390(SpecialIssue): p. S15.

3. Theillustrated guide to a Ph.D.; Available from: http://matt.might.net/articles/phd-school-in-pictures/.

编辑/ 芦秀燕

本文来自企鹅号 - 协和慧眼之雾里看花媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文来自企鹅号 - 协和慧眼之雾里看花媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档