批评文:大数据,大安利

最近在社会上刮起一阵大数据的不正之风,本科生也敢拿着几个G的硬盘声称这些数据能解决某某疑难问题,让人联想起存满硬盘黄片的处男说这家伙老爽了。

虽然在社会科学领域流行程度远不及计算机和工程,谷歌学术我用关键字搜索一下,大数据和社会科学为内容的文章2011年是194个,2012年 635,2013年1820,这两年算是以1.2左右的指数增长了吧。一个话题一年一两千篇文章并不算多,相比之下”social stratification”2014年还没过完就已经16800多篇了,但是大数据这个话题在网上传的很神,尤其是我国这个每个人什么都懂一点但又懂得不精的土地上,有种安利好产品准备取代传统营销的感觉。

对码农来说如获至宝,世界上的数据太多,本来被认为是煤干渣的东西现在好像也可以当钻石了,煤窑工人挥舞锄头高喊:万岁data mining!不过我认为这也没错,随着技术的进步,苞米也能替代汽油,煤干渣也可以做成首饰。大数据对工程学是很好的,但是矿工拿煤干渣当钻石推销到社会科学,说这玩意可以代替统计学和抽样技术,我就不乐意了。物理学家对大数据也颇有微词,不过我不懂物理就不说了。

国外对大数据在其他领域滥用已经有了很多批评,我总结一下主要: 1,无意义的显著性:没有理论的大数据是皮毛,只看到显著相关性,但不经检验,没有理论,这样的相关是没有意义的,或许是虚假。关键是:大数据的data point太多,在计算上找到两个矢量的显著关系极其容易,但正是因为数据量大,控制虚假关系反而更难,这是一个两难。我有一篇文章投出去,匿名评审说:样本很大,当然能找到显著相关,但是看不出意义。 2,采样方法问题:统计学家方凯撒总结了一个现象,谷歌、facebook等网络收集的数据,往往不具有同质性,是在不同的时间用不同的资源收集,随后把整个数据合并起来,结果大数据内部许多部分的数据根本不是用同样的方法收集的,统计抽样的基本假设都被推翻了。而且网络数据和线下数据的内容不一致,比如华尔街邮报的电子版和纸版就不一样,而且用户可以自定义内容。 3,机器语言不稳定:谷歌最开始用关键字预测感冒流行地区,开始说比疾控中心预测的还准,但后来越来越不准。有人认为这是谷歌的搜索算法在不停地改进,所以自动收集数据不稳定了。另外机器语言一旦被误导会越错越离谱,比如谷歌翻译是根据真实的文章总结的,但是有些网络的“真实”翻译其实是谷歌翻的,于是谷歌会把自己的翻译基于这些 “真实”文章上。

以上归根结底是人和机器的矛盾:数据必须让人用理论来指导、收集,否则会出现谬误。这些都是可以避免或改进的,但这些原因足以让大数据在短期之内难以在社会科学领域立足。除此之外,我自己有一个想法,基于一个假设,认为大数据是不可能在人类行为领域立足的,研究文本或死物的历史学、语言学或许可以,但是社会学、犯罪学、人类学这三个恐怕很难。

学抽样的都明白,只要确定了图1中想要的准确度 Z(a/2)^2,方差S,回答率r,基本就可以求出从一个人群中应该抽多少个样本才能有代表性,而人群总量N的影响最后就不大了。在95%置信区间的情况下,一个小镇4000人,一个城市十万人,从小镇抽360人可以达到代表性,从那个城市抽390人照样可以有代表性,不可能因为后者多了几百倍就要多抽几百倍的人。所以大数据首先就没有必要了,在满足准确性的时候,小样本和大数据的效果没有区别;而不满足准确性的时候,大数据的误差只会更大。

这只是最基本的情况,实际抽样中往往需要分层,二龙湖有十块苞米地,有些面积大有些小,有些里面有非法性交易,要找那块苞米地里有性交易,就得把十块苞米地分成两类:离人烟近的,离人烟远的,赋予后者的抽样概率要大。这是所谓分层抽样,现实中,几乎所有大规模抽样都是分层抽样的变种。

分层抽样的情况下,后期统计运算都必须一个权重w,如图2,每层人数M和n都暂时不重要,权重是和phi成反比的:phi是该层被选择的概率。一个分层的权重高,在分析中就不可忽视。大数据的问题是它只能收集到权重低的数据:

我们知道帕累托分布,应用很广,从小姐接客分布到富豪财产分布都可以用帕累托分布表示。另一种类似power distribution的Zipf曲线,P(r)=1/(r*Ln(R)),用来表示重要性和出现频率:语言学中,一个词日常使用频率与它的排名成反比,chinkafir这个词排第10000,它的出现概率就大概是1/10000。由于这个分布的广泛性,我有一个基于权重的假设:因为抽样概率越低的分层,的权重越高;所以越难被抽样的人群,的统计重要性越高。现实中,最容易研究的对象往往最无聊,心理学经常上课找大学生做实验,所以现在以大学生为样本的文章很难发表了;而谁要在二龙湖跟浩哥混几天,做出来的研究就算不很严密也依然重要。

这点才是我说大数据的第二个重要弱点,数据越大越不重要。一个人收集了一堆权重接近0的中产阶级对暴力犯罪的态度,而另一人在Cicero和Latin Kings混了两个月,你觉得谁的结论重要?不是说前者没有意义,普通人群在分析时是必要的,但大数据基本只能接触到一些数据,没有抽样技术的话永远不具有代表性。就跟安利一样,产品或许不错,但是推销方式往往太傻逼,想取代传统还需努力。

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2014-10-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

Science | 来自机器学习系统的排名:计算机科学与神经科学大牛TOP10

【新智元导读】Science11月11日报道,艾伦人工智能研究院Semantic Scholar的人工智能搜索学术引擎近日推出了神经科学学术领域最有影响力的10...

36011
来自专栏新智元

【独家】朱凯华:智能搜索和对话式OS最新技术全面解读(65PPT)

【新智元导读】百度度秘事业部首席技术官朱凯华日前在上海计算机学会做了题为《AI赋能的搜索和对话交互》的报告,主要介绍了现在的百度搜索及度秘“DuerOS”系统。...

6216
来自专栏新智元

【中国脑计划与众神计算】AI芯片大航海时代,打造新一代脑模拟计算系统

【新智元导读】3月11日,北京脑科学和类脑计算论坛召开,以“众神(经)计算”为主题,由中科院计算所研究员孙毓忠首次提出,众专家分析讨论,探索用于脑科学和脑疾病的...

5639
来自专栏专注研发

第一次写博客,想了很久要给自己留一个什么样的开始

       我想说下我的理解。        很多ACMer入门的时候,都被告知:要多做题,做个500多道就变牛了。其实,这既不是充分条件、也不会是必要条件。

1423
来自专栏新智元

【重磅】谷歌推出商用神经网络机器翻译系统,正确率最高87%(附论文)

来源:Google Research、Science 2016年10月18日, 世界人工智能大会技术分论坛,特设“新智元智库院长圆桌会议”,重量级研究院院长 7...

42410
来自专栏机器之心

专访 | 阿里巴巴「鹿班」算法技术负责人星瞳:用可控视觉生成引擎完成智能设计

2748
来自专栏AI科技评论

【深度】Nature:我们能打开人工智能的“黑箱”吗?

编者按:人工智能无处不在。但是在科学家信任人工智能之前,他们首先应该了解这些人工智能机器是如何运作的,这也就是文中所提到的“黑箱”问题。在控制论中,通常把所不知...

3206
来自专栏新智元

从马文·明斯基到AlphaGo,人工智能走过了怎样的70年?

从19世纪中叶人工智能的萌芽时期,到现今人工智能的重生,从马文·明斯基到AlphaGo,历史上发生了哪些激动人心的故事?本文以此铺展人工智能发展近70年来...

3445
来自专栏数据科学与人工智能

【数据科学】大数据科学方法变革和哲学思考

随着信息技术和网络技术的快速发展,人类所存储的数据越来越多,数据已经从量变走向了质变,成为了“大数据”(Big Data)。大数据概念首见于1998年《科学》(...

2567
来自专栏量子位

能把晦涩难懂的研究工作讲清楚,Distill就奖你10000美刀

Root 编译整理 量子位 出品 | 公众号 QbitAI 在机器学习研究圈里,大家可能都有这样的赶脚: 大部分从事机器学习研究的人,不太擅长写作,无法清晰地呈...

3286

扫码关注云+社区

领取腾讯云代金券