我为什么要强烈反对：对着数据做数据的研究

文章来源：企鹅号 - 悠闲老头看交通

最近在看到一些研究生的论文答辩和开题，对其中的一些研究内容，我产生了一些看法。这些看法在某些微信群中展开了激烈的讨论。冷静后，梳理自己的想法，形成短文，供大家讨论。

观点一：大数据研究的讨论应该要建立在一个基本框架下讨论

所有有意义的争论与质疑要建立在两件事情上。第一是要有共同认知模式，比如用A宗教的认知模式去争论B宗教的观点，怎么也不会有结果的。第二是要有基本的讨论框架，才能让逻辑和知识在这个框架下运行，保证讨论逻辑对内的自洽。目前的很多微信群中的讨论，主要是缺乏后者。

我这里提出一个讨论问题的框架，仅供参考。

定义->数据源->计算方法->扩样方法->数据校核

1.定义：所讨论数据研究的定义内涵外延。

2.数据源：数据来源，时间，数据特点，可能的缺陷。

3.计算方法：大致的计算方法，模型选择。

4.扩样方法：样本与母体的关系，扩样的方法。（并不是所有的研究都需要扩样，有研究仅讨论相对关系的。）

5.数据校核：外部独立不相关数据的校核，校核源越多一般就越有说服力。

观点二：反对从数据资料出发和从研究工具出发的研究

所有的研究都应该是从问题出发的。理由是所有的研究最终是要解决具体的有价值的问题的。有些学者由于掌握了一些特点的数据材料，有些是掌握了。讲一个我听到过的一个有趣的故事吧。历史学曾经有一个研究是关于杨玉环上吊是用白绫还是红绫，一派支持白绫说，一派支持红绫说。两派争执不下，主要是各自都有特定的研究出土文物，以及新的考古技术。也就是从材料出发和从工具出发。可是对于历史研究而言，杨玉环的死用什么颜色的绫子又有什么关系呢？？

观点三：大数据所谓的概化的模糊，本质上还是统计学原理

杨东援教授曾经说过，以传统调查为代表的小数据抽样可能是精确的错误，以手机信令数据分析为代表的大数据研究技术则是模糊的准确。应该怎么理解这句话呢？我觉得本质上是没有不同的，在统计意义上不存在数据大到一定程度就放生神奇的质的变化，都是对于母体的抽样，只是抽样的规模不一样。即便是高达80%的抽样也是抽样，其实很少有真正意义上100%的全样本调查（因为各类的脏数据总是客观存在的。）既然是抽样，就必须讲清楚抽样和母体的关系。所谓的大数据的概化的模糊的准确，本质上是统计学上通过统计工具计算后对于小概率事件的拒绝。

所以既然大数据研究也是抽样，所以就有可能会产生扩样的问题，至少一定要证明抽样样本的统计为什么是可以反应母体性质的。从另一个角度说，数据也不是相对母体占比越多越好的，而是无偏性越好则越好的。只能说，一般数据量的样本大，抽样无偏的概率就越大，比如移动信令数据的无偏性理论上是要好于联通信令数据的。

观点四：一定要说明参与计算数据集合选择，为什么是适合本次研究的

当我们处理数据的时候，把数据包中的数据，经过一些计算规则和算法模型得到的参与最后计算的样本，一定要说明这些样本与原来的数据包是什么关系，为什么现在选出来的数据是可以用于模型统计的。

以最近微信公众号上一篇利用上海手机信令数据，研究上海职住联系结构的研究为例，参与计算的样本是上海400万对职住不同地的数据。但是上海一天出现的手机号码有1800万，被剔除的数据有1400万之多，这就不是统计学可以忽略的小概率数据了。这1400万到底是什么人呢？物联网卡？火车高速公路过境人员？短期驻留人口？白天夜晚很少活动的老人小孩高校学生？或者就是无可解释的人员？总之要和现实世界的其他统计数据核对。

如果换一个城市重复这样的计算方法，比如中小城市，职住同地的人比例高许多的数据，职住不同地的样本变得比例非常小，还能反应职住空间联系吗？这是值得思考的问题。否则就是任意按照自己的某种规则选择一些样本就可以参与计算了，需要怎样的结果就可以人为的得到，就失去研究的价值了。

再举一个例子，最近某硕士论文研究，上海两个年度的手机信令数据中相同msid家和工作地的变化，来研究职住变迁。问题就在于，两个年度的数据之间共同msid的比例很低，凭什么用这个交集就能研究上海的职住变迁呢？进一步地，这个职住变迁的比例偏高太多，三年内上海职住变迁的人数比例会有那么高吗？尤其是住的人群。

观点五：数据的光芒最后一定要照耀到现实世界中去

从数据中来，一定要最终走出数据，要去和现实世界的其他统计数据做对比。结论到底是否正确，如果和现实的结果不符合，会不会是计算的错误？会不会是数据本身质量的问题？不可以自娱自乐，不问世事。再拿上文提到的那篇研究性的公众号文章为例，文中研究的用复杂网络理论计算的“社区”（一种联系紧密的空间单元，并非一般所知的社区），得到的结论中大量“社区”是在上海外环外的郊区无人地区或者农村地区，这一类结论就是没有和现实世界去对照。非常有可能是数据异常导致的，或者是这种方法本身就不适合。

再讲一个我看到真实的例子，某美国教授研究的一篇sci论文。大概说的是，测算全球气候变暖以后，海平面会升高多少，从而导致佛罗里达州有多少面积的土地和公路无法使用。在一定条件下，这样的公路网的可达性会下降多少。

这个就是属于典型的用数据和模型研究一个完全无用的内容，好比西方谚语中，讲学习杀龙的技巧，但是世界上根本不存在龙。并不是说全球气候变暖，从而不会导致海啸。而是说如果真有如此重大自然灾害的时候，已经几乎没有什么太大的必要去使用残缺的道路系统了。其实整篇论文就是盖了一个巨大的全球气候变暖的帽子，用常规的方法研究了一下公路部分封闭的可达性变化，本质上是故弄玄虚。目前，在许多论文中，这其实是一种比较普遍的现象，主要原因是研究机构的学者距离实践的世界越来越远。

发表于: 2018-07-032018-07-03 15:37:01
原文链接：https://kuaibao.qq.com/s/20180703B10JKR00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

我为什么要强烈反对：对着数据做数据的研究

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐