看观点:我为什么要强烈反对,对着数据做数据的研究

作者:施澄,同济大学

最近在看到一些研究生的论文答辩和开题,对其中的一些研究内容,我产生了一些看法。这些看法在某些微信群中展开了激烈的讨论。冷静后,梳理自己的想法,形成短文,供大家讨论。

观点一:大数据研究的讨论应该要建立在一个基本框架下讨论

所有有意义的争论与质疑要建立在两件事情上。第一是要有共同认知模式,比如用A宗教的认知模式去争论B宗教的观点,怎么也不会有结果的。第二是要有基本的讨论框架,才能让逻辑和知识在这个框架下运行,保证讨论逻辑对内的自洽。目前的很多微信群中的讨论,主要是缺乏后者。

我这里提出一个讨论问题的框架,仅供参考。

定义 -> 数据源 -> 计算方法 -> 扩样方法 -> 数据校核

1. 定义:所讨论数据研究的定义内涵外延。

2. 数据源:数据来源,时间,数据特点,可能的缺陷。

3. 计算方法:大致的计算方法,模型选择。

4. 扩样方法:样本与母体的关系,扩样的方法。(并不是所有的研究都需要扩样,有研究仅讨论相对关系的。)

5. 数据校核:外部独立不相关数据的校核,校核源越多一般就越有说服力。

观点二:反对从数据资料出发和从研究工具出发的研究

所有的研究都应该是从问题出发的。理由是所有的研究最终是要解决具体的有价值的问题的。有些学者由于掌握了一些特点的数据材料,有些是掌握了。讲一个我听到过的一个有趣的故事吧。历史学曾经有一个研究是关于杨玉环上吊是用白绫还是红绫,一派支持白绫说,一派支持红绫说。两派争执不下,主要是各自都有特定的研究出土文物,以及新的考古技术。也就是从材料出发和从工具出发。可是对于历史研究而言,杨玉环的死用什么颜色的绫子又有什么关系呢??

观点三:大数据所谓的概化的模糊,本质上还是统计学原理

杨东援教授曾经说过,以传统调查为代表的小数据抽样可能是精确的错误,以手机信令数据分析为代表的大数据研究技术则是模糊的准确。应该怎么理解这句话呢?我觉得本质上是没有不同的,在统计意义上不存在数据大到一定程度就放生神奇的质的变化,都是对于母体的抽样,只是抽样的规模不一样。即便是高达80%的抽样也是抽样,其实很少有真正意义上100%的全样本调查(因为各类的脏数据总是客观存在的。)既然是抽样,就必须讲清楚抽样和母体的关系。所谓的大数据的概化的模糊的准确,本质上是统计学上通过统计工具计算后对于小概率事件的拒绝。

所以既然大数据研究也是抽样,所以就有可能会产生扩样的问题,至少一定要证明抽样样本的统计为什么是可以反应母体性质的。从另一个角度说,数据也不是相对母体占比越多越好的,而是无偏性越好则越好的。只能说,一般数据量的样本大,抽样无偏的概率就越大,比如移动信令数据的无偏性理论上是要好于联通信令数据的。

观点四:一定要说明参与计算数据集合选择,为什么是适合本次研究的

当我们处理数据的时候,把数据包中的数据,经过一些计算规则和算法模型得到的参与最后计算的样本,一定要说明这些样本与原来的数据包是什么关系,为什么现在选出来的数据是可以用于模型统计的。

以最近微信公众号上一篇利用上海手机信令数据,研究上海职住联系结构的研究为例,参与计算的样本是上海400万对职住不同地的数据。但是上海一天出现的手机号码有1800万,被剔除的数据有1400万之多,这就不是统计学可以忽略的小概率数据了。这1400万到底是什么人呢?物联网卡?火车高速公路过境人员?短期驻留人口?白天夜晚很少活动的老人小孩高校学生?或者就是无可解释的人员?总之要和现实世界的其他统计数据核对。

如果换一个城市重复这样的计算方法,比如中小城市,职住同地的人比例高许多的数据,职住不同地的样本变得比例非常小,还能反应职住空间联系吗?这是值得思考的问题。否则就是任意按照自己的某种规则选择一些样本就可以参与计算了,需要怎样的结果就可以人为的得到,就失去研究的价值了。

再举一个例子,最近某硕士论文研究,上海两个年度的手机信令数据中相同msid家和工作地的变化,来研究职住变迁。问题就在于,两个年度的数据之间共同msid的比例很低,凭什么用这个交集就能研究上海的职住变迁呢?进一步地,这个职住变迁的比例偏高太多,三年内上海职住变迁的人数比例会有那么高吗?尤其是住的人群。

观点五:数据的光芒最后一定要照耀到现实世界中去

从数据中来,一定要最终走出数据,要去和现实世界的其他统计数据做对比。结论到底是否正确,如果和现实的结果不符合,会不会是计算的错误?会不会是数据本身质量的问题?不可以自娱自乐,不问世事。再拿上文提到的那篇研究性的公众号文章为例,文中研究的用复杂网络理论计算的“社区”(一种联系紧密的空间单元,并非一般所知的社区),得到的结论中大量“社区”是在上海外环外的郊区无人地区或者农村地区,这一类结论就是没有和现实世界去对照。非常有可能是数据异常导致的,或者是这种方法本身就不适合。

再讲一个我看到真实的例子,某美国教授研究的一篇sci论文。大概说的是,测算全球气候变暖以后,海平面会升高多少,从而导致佛罗里达州有多少面积的土地和公路无法使用。在一定条件下,这样的公路网的可达性会下降多少。

这个就是属于典型的用数据和模型研究一个完全无用的内容,好比西方谚语中,讲学习杀龙的技巧,但是世界上根本不存在龙。并不是说全球气候变暖,从而不会导致海啸。而是说如果真有如此重大自然灾害的时候,已经几乎没有什么太大的必要去使用残缺的道路系统了。其实整篇论文就是盖了一个巨大的全球气候变暖的帽子,用常规的方法研究了一下公路部分封闭的可达性变化,本质上是故弄玄虚。目前,在许多论文中,这其实是一种比较普遍的现象,主要原因是研究机构的学者距离实践的世界越来越远。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180706B0D2DB00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券