大数据研究初体验 做找米的巧妇

CHARLES项目是由北京大学国家发展研究院主持、北京大学中国社会科学调查中心与北京大学团委共同执行的大型跨学科调查项目,该项目旨在调查收集一套代表中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析我国人口老龄化问题,推动老龄化问题的跨学科研究,为制定和完善我国相关政策提供更加科学的基础。该项目于2011年开始在全国范围内进行基线调查,并于2013年,2015年完成两次跟踪调查 [1]。

今年,我与我的两位学姐合作,对CHARLES项目基线调查的部分数据进行分析,所获结果有幸被柳叶刀杂志与中国医学科学院共同组织的2017柳叶刀-中国医学院医学峰会接受,并发表在柳叶刀杂志增刊上 [2]。这是我第一次尝试大数据分析,在这个过程中学到了很多东西,也获得了不少经验。古语有云“巧妇难为无米之炊”,而我的经验总结起来,就是“勤找米,变巧妇,多多炊”。

1

何为“米”

我把它定义为数据。如果说过去受条件所限,收集大批量的数据有一定困难,在当下这个时代,即便不能亲自进行数据收集,从其他资源获取海量数据已经不再是遥不可及的事情。从此次柳叶刀的会议摘要集里也可以发现,有超过10个研究团队使用了可以免费下载的公开数据集进行分析,可见资源广泛。这些数据既包括为某些研究目的而直接从受访者处收集而来的问卷或生物学样本,也有单纯通过分析统计年鉴中的相关数据而得出结论的研究;特别要注意的是,所谓海量数据,并不仅仅指样本量大,也包括总单个样本上所获取的信息量,以及后续的多次随访。以我所使用的CHARLES研究为例,不仅样本量大(基线超过17500人),同时问卷所涉及的面也广,最直观的表现就是问卷长(A4纸超过180页)且变量多(与我项目相关的4个子数据库变量总计超过3500),还不包括其它相关生物信息资料以及后续随访所产生的数据。

2

如何成“巧妇”

在大数据时代,海量数据对于每一个研究者既是机遇,也是挑战。面对海量数据,要成为巧妇,最重要的能力恐怕就是持续不断的学习,所谓学无止境。学,一方面要学习知识,而另一方面,则要学习工具的使用。学习知识,下面这个图例可能最能说明问题[3]。

虽然这个图最初面对的对象是博士生,我想,它也同样适合每一个研究者。在当下这个知识爆发的时代,作为研究者既要努力深入了解自己研究方向内部相关研究的最新进展,也应该时刻保持好奇心,了解其它相关学科的发展状况,这样才可能跟上时代发展的脚步。而工具,则更是五花八门,选择多多,无论是在统计、文献检索,还是其它方面,只要保持一颗好奇心,多学多试,总能找到一件合适的工具。

这里多说一点统计工具的事情。一方面,SPSS作为一款界面友好的统计软件,现在仍然在被大量使用,而且必须承认,在处理小批量且“干净”的数据集时,SPSS依旧简洁高效。但也应该注意的是,在大数据时代,简单满足于SPSS的交互界面,就多少有些落伍了。作为研究者,应该了解SPSS软件内部同样提供编程功能,即syntax,应该多多学习并且使用,可以有效提高工作效率,也方便其他研究者对分析结果进行检验。另一方面,也应该注意到,SPSS处理复杂数据库结构以及进行高级统计分析的局限性也是很明显的,例如,在文献中越来越多见的结构方程模型,在SPSS基本模块中并不能实现。在没有任何利益冲突的情况下,此处强推一波R。相对于SPSS,R还是有一些天然优势的,比如免费,开源,以及灵活。如果有能力,打算直接从python入手,那就更是再好不过。在网上有很多相关视频教程介绍这些工具,在这里就不赘述了。至于SAS,实在是,太贵了~~

3

巧妇有米如何“炊”

在原材料极大丰富的情况下,这既是机遇,也对研究者提出了更高的要求。从机遇的角度看,要做什么科研,怎么做,真是八仙过海,各显其能。以CHARLS研究为例,且不论在官方网站上所公布的几百篇基于CHARLES数据库所发表的论文,仅这次会议发表的摘要中,就有三个团队对于不同的研究课题使用CHARLES数据库进行分析,这其中,大部分研究(包括我自己)还都只局限于横断面研究,而纵向研究数据库还大有潜力可挖。而另一方面,因为大样本和变量的出现,也使数据结构变得更加复杂,要求研究者更加深入了解研究问题,并且掌握更加全面的数据分析方法,以获得更加准确可靠的结果。这些,也同样是我今后努力的方向。

最后,我特别想强调团队合作的重要性。在我看来,向他人学习,与他人合作,在现在这个时代尤为重要,因为没有一个人可以全面掌握所有知识。建立一个和谐的团队,大家一起努力,是提高效率,取得成果的一个必要保障。这里,我也要向我的两位学姐,也就是这篇摘要的两位共同作者表示感谢。她们从研究题目的选定到摘要完成发挥了巨大的作用。可以说,没有她们的帮助和支持,也不会有这项研究和这篇摘要的出现。

以上,就是我个人对于在大数据时代使用公开数据进行研究的一点感想,在此抛砖引玉,不足之处,还希望大家批评指正。

夏楠

香港大学李嘉诚医学院公共卫生学院博士在读

Reference:

2. N Xia, S. Feng, and L.D.-L. Wang,Depressive symptoms and healthy lifestyle behaviours in soon-to-be old andolder adults in China: an analysis of data from a nationwide cross-sectionalsurvey. The Lancet, 2017. 390(SpecialIssue): p. S15.

3. Theillustrated guide to a Ph.D.; Available from: http://matt.might.net/articles/phd-school-in-pictures/.

编辑/ 芦秀燕

本文来自企鹅号 - 协和慧眼之雾里看花媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

Google“快一亿倍”背后:量子计算到底是如何实现的?

日前,谷歌推出的D-Wave量子计算机,号称其解决问题的能力比其他任何计算机都快出一亿倍。有人认为是谷歌为夺人眼球,进行商业炒作;也有人认为谷歌制造出了量子计算...

46370
来自专栏AI科技评论

学界|运筹学教授叶荫宇:作为 AI 基石,优化算法如何在实际中应用?

AI科技评论按:昨天,AI科技评论报道了钛媒体和杉数科技主办的 2017 AI 大师论坛,其中,杉数科技首席科学顾问叶荫宇出席了活动并发表了学术演讲。作为在运筹...

436120
来自专栏新智元

认知科学与人机交互简史

前言 “水是最好的”(Water is best),这句话是西方“科学和哲学之祖”泰勒斯(Thales,约公元前624年——公元前546年)的名言,无独有偶,与...

38850
来自专栏大数据文摘

Podcast脱口秀重磅上线 | 听数据大咖们把枯燥的人工智能Paper花式聊出来

26330
来自专栏大数据文摘

凯文•斯拉文:算法塑造世界

19950
来自专栏腾讯高校合作

腾讯多项AI黑科技亮相SIGGRAPH Asia 2018

? 你的脑洞,在这里都已实现:虚拟人Siren、AI画师YUI、腾讯丽影、智慧商超、智能弹幕、微派机器人······ ? 2018年12月4日到7日,第11届...

23820
来自专栏新智元

【新智元笔记】反伊莉莎效应,人工智能的新概念

【立委按】隆重推出立委版人工智能新概念【反伊莉莎效应】,以后如果进了AI历史,各位都是见证人,发明权属于立委。 我: 人工智能里面有一个著名的现象,叫伊莉莎效应...

32650
来自专栏量子位

60名英语专八的半年苦战:机器智能背后有一群“数字工人”

李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI Google Pixel Buds的发布震惊了不少人。 每个人都期望戴上这样的翻译耳机,犹如获得...

33850
来自专栏机器之心

专访 | 昆仑数据首席科学家田春华:人工智能降低了工业大数据分析的门槛

44870
来自专栏邱翔的终身学习

iPhone X的Face ID有多安全?

344100

扫码关注云+社区

领取腾讯云代金券