大数据分析的光荣与陷阱——从谷歌流感趋势谈起

腾讯研究院

发布于 2018-01-31 17:56:26

1.2K0

发布于 2018-01-31 17:56:26

沈艳北京大学国家发展研究院教授

　　“谷歌流感趋势”（Google Flu Trends，GFT）未卜先知的故事，常被看做大数据分析优势的明证。2008年11月谷歌公司启动的GFT项目，目标是预测美国疾控中心（CDC）报告的流感发病率。甫一登场，GFT就亮出十分惊艳的成绩单。2009年，GFT团队在《自然》发文报告，只需分析数十亿搜索中45个与流感相关的关键词，GFT就能比CDC提前两周预报2007-2008季流感的发病率。

　　也就是说，人们不需要等CDC公布根据就诊人数计算出的发病率，就可以提前两周知道未来医院因流感就诊的人数了。有了这两周，人们就可以有充足的时间提前预备，避免中招。多少人可以因为大数据避免不必要的痛苦、麻烦和经济损失啊。

　　此一时，彼一时。2014年， Lazer等学者在《科学》发文报告了GFT近年的表现。2009年，GFT没能预测到非季节性流感A-H1N1；从2011年8月到2013年8月的108周里，GFT有100周高估了CDC报告的流感发病率。高估有多高呢？在2011-2012季，GFT预测的发病率是CDC报告值的1.5倍多；而到了2012-2013季，GFT流感发病率已经是CDC报告值的双倍多了。这样看来，GFT不就成了那个喊“狼来了”的熊孩子了么。那么不用大数据会如何？作者报告，只用两周前CDC的历史数据来预测发病率，其表现也要比GFT好很多。

　　2013年，谷歌调整了GFT的算法，并回应称出现偏差的罪魁祸首是媒体对GFT的大幅报道导致人们的搜索行为发生了变化。Lazer等学者穷追不舍。他们的估算表明，GFT预测的2013-2014季的流感发病率，仍然高达CDC报告值的1.3倍。并且，前面发现的系统性误差仍然存在，也就是过去犯的错误如今仍然在犯。因为遗漏了某些重要因素，GFT还是病得不轻。

　　为什么传说中充满荣光的大数据分析会出现如此大的系统性误差呢？从大数据的收集特征和估计方法的核心，我们可以探究一二。

新瓶装旧酒：过度拟合

　　大数据时代的来临，为数据收集带来了深刻变革。海量数据、实时数据、丰富多样的非结构数据，以前所未有的广度进入了人们的生活。但不变的是，在统计分析方法上，数据挖掘（Data mining）仍然是统计分析的主要技术。而数据挖掘中最引人注目的过度拟合（overfitting）问题，由于下文提到的各类陷阱的存在，远远没有解决。

　　我们先用一个故事来解释何为过度拟合。假设有一所叫做象牙塔的警官学校致力于培养抓小偷的警察。该校宣称，在他们学校可以见到所有类型的普通人、也能见到所有类型的小偷；到他们学校来学习就能成为世界上最厉害的警察。一段时间后，问题来了：象牙塔最棒警察在象牙塔校内总能迅速找到小偷，可一旦出了象牙塔，该警察就老犯错抓、该抓不抓的错误。他抓小偷的表现，甚至比从来没有来象牙塔学习的人还要差。这是因为，这所学校有个古怪，就是从不教授犯罪心理学，这就意味着抓小偷并不需要理解小偷为什么会成为小偷，类似于在数据分析中只关心相关关系而不关注因果关系。

　　从过度拟合的角度，可以帮助我们理解为什么GFT在2009年表现好而之后表现差。在2009年，GFT已经可以观察到2007-2008年间的全部CDC数据，也就是说GFT可以清楚知道CDC报告的哪里发病率高而哪里发病率低。但2009年之后，该模型面对的数据就真正是未知的，这时如果后来的数据特征与2007-2008年的数据高度相似，那么GFT也可以高度拟合CDC估计值。但现实是无情的，系统性误差的存在，表明GFT在一些环节出了较大偏差而不得不面对过度拟合问题。

　　从上面的故事可以看到，产生过度拟合有三个关键环节。第一，象牙塔学校认定本校知道所有普通人与所有小偷的特征，也就等于知道了社会人群特征。第二，象牙塔学校训练警察，不关心小偷的形成原因，而关注细致掌握已知小偷的特征。第三，象牙塔学校认为，不论时间如何变化，本校永远能保证掌握的普通人和小偷的行为特征不会发生大规模变动、特别是不会因为本校的训练而发生改变。

　　在大数据这个新瓶里，如果不避开下面的三个陷阱，就仍然可能装着数据挖掘带来的过度拟合旧酒：大数据自大、算法演化、看不见的动机导致的数据生成机制变化。

大数据分析的三大陷阱

陷阱一：“大数据自大”

　　Lazer等学者提醒大家关注 “大数据自大（big data hubris）”的倾向，即认为自己拥有的数据是总体，因此在分析定位上，大数据将代替科学抽样基础上形成的传统数据（后文称为“小数据”）、而不是作为小数据的补充。

　　如今，大数据确实使企业或者机构获取每一个客户的信息、构成客户群的总体数据成为可能，那么说企业有这样的数据就不需要关心抽样会有问题吗？

　　这里的关键是，企业或者机构拥有的这个称为总体的数据，和研究问题关心的总体是否相同。《数据之巅》一书记载了下面这个例子：上世纪三十年代，美国的《文学文摘》有约240万读者。如果《文学文摘》要了解这个读者群的性别结构与年龄结构，那么只要财力人力允许，不抽样、直接分析所有这240万左右的数据是可行的。但是，如果要预测何人当选1936年总统，那么认定“自己的读者群”这个总体和“美国选民”这个总体根本特征完全相同，就会差之毫厘谬以千里了。事实上，《文学杂志》的订户数量虽多，却集中在中上层，并不能代表全体选民。与此相应，盖洛普根据选民的人口特点来确定各类人群在样本中的份额，建立一个5000人的样本。在预测下届总统这个问题上，采用这个小数据比采用《文学文摘》的大数据，更准确地把握了民意。

　　在GFT案例中，“GFT采集的搜索信息”这个总体，和“某流感疫情涉及的人群”这个总体，恐怕不是一个总体。除非这两个总体的生成机制相同，否则用此总体去估计彼总体难免出现偏差。进一步说，由于某个大数据是否是总体跟研究问题密不可分，在实证分析中，往往需要人们对科学抽样下能够代表总体的小数据有充分认识，才能判断认定单独使用大数据进行研究会不会犯“大数据自大”的错误。

陷阱二：算法演化

　　相比于“大数据自大”问题，算法演化问题（algorithm dynamics）就更为复杂、对大数据在实证运用中产生的影响也更为深远。我们还是借一个假想的故事来理解这一点。假定一个研究团队希望通过和尚在朋友圈发布的信息来判断他们对风险的态度，其中和尚遇到老虎的次数是甄别他们是否喜欢冒险的重要指标。观察一段时间后该团队发现，小和尚智空原来遇到老虎的频率大概是一个月一次，但是从半年前开始，智空在朋友圈提及自己遇到老虎的次数大幅增加、甚至每天都会遇到很多只。由于大数据分析不关心因果，研究团队也就不花心思去追究智空为什么忽然遇到那么多老虎，而根据历史数据认定小智空比过去更愿意冒险了。但是研究团队不知道的情况是：过去智空与老和尚同住，半年前智空奉命下山化斋；临行前老和尚交代智空，山下的女人是老虎、遇到了快躲开。在这个故事里，由于老和尚的叮嘱，智空眼里老虎的标准变了。换句话说，同样是老虎数据，半年前老虎观测数量的生成机制，和半年后该数据的生成机制是不同的。要命的是，研究团队对此并不知情。

　　现实中大数据的采集也会遇到类似问题，因为大数据往往是公司或者企业进行主要经营活动之后被动出现的产物。以谷歌公司为例，其商业模式的主要目标是更快速地为使用者提供准确信息。为了实现这一目标，数据科学家与工程师不断更新谷歌搜索的算法、让使用者可以通过后续谷歌推荐的相关词快捷地获得有用信息。这一模式在商业上非常必要，但是在数据生成机制方面，却会出现使用者搜索的关键词并非出于使用者本意的现象。

　　这就产生了两个问题：第一，由于算法规则在不断变化而研究人员对此不知情，今天的数据和明天的数据容易不具备可比性，就像上例中半年前的老虎数据和半年后的老虎数据不可比一样。第二，数据收集过程的性质发生了变化。大数据不再只是被动记录使用者的决策，而是通过算法演化，积极参与到使用者的行为决策中。

　　在GFT案例中，2009年以后，算法演化导致搜索数据前后不可比，特别是“搜索者键入的关键词完全都是自发决定”这一假定在后期不再成立。这样，用2009年建立的模型去预测未来，就无法避免因过度拟合问题而表现较差了。

陷阱三：看不见的动机

　　算法演化问题中，数据生成者的行为变化是无意识的，他们只是被页面引导，点出一个个链接。如果在数据分析中不关心因果关系，那么也就无法处理人们有意识的行为变化影响数据根本特征的问题。这一点，对于数据使用者和对数据收集机构，都一样不可忽略。

　　除掉人们的行为自发产生系统不知道的变化之外，大数据的评估标准对人们行为的影响尤为值得关注。再以智空为例。假定上文中的小和尚智空发现自己的西瓜信用分远远低于自己好友智能的西瓜信用分。智空很不服气，经过仔细观察，他认为朋友圈言论可能是形成差异的主因。于是他细细研究了智能的朋友圈。他发现，智能从不在朋友圈提及遇到老虎的事，而是常常宣传不杀生、保护环境、贴心灵鸡汤，并定期分享自己化斋时遇到慷慨施主的事。虽然在现实中，他知道智能喜好酒肉穿肠过、也从未见老和尚称赞智能的化斋成果。智空茅塞顿开，从此朋友圈言论风格大变，而不久后他也满意地看到自己的西瓜信用分大幅提高了。

　　如今，大数据常常倚重的一个优势，是社交媒体的数据大大丰富了各界对于个体的认知。这一看法常常建立在一个隐含假定之上，就是人们在社交媒体分享的信息都是真实的、自发的、不受评级机构和各类评估机构标准影响的。但是，在互联网时代，人们通过互联网学习的能力大大提高。如果人们通过学习评级机构的标准而相应改变社交媒体的信息，就意味着大数据分析的评估标准已经内生于人们生产的数据中，这时，不通过仔细为人们的行为建模，是难以准确抓住数据生成机制这类的质变的。

前车之鉴

　　目前，我国高度重视大数据发展。2015年8月31日，国务院印发《促进大数据发展行动纲要》，系统部署大数据发展工作。与此相应，近年来多地成立了大数据管理局、业界学界对于大数据的分析利用也予以热烈回应。因此，了解大数据分析的优势与陷阱，对我国的经济发展和实证研究具有极其重要的意义；而GFT项目折射出的大数据使用中可能存在的机会与问题，都值得关注。

第一，要防范“大数据自大”带来的风险。

　　这一点在“大众创业、万众创新”的今天尤其需要关注。这是因为大数据作为目前“创新”最闪亮的新元素被高度推崇，而我国经济处于转型时期的特征，使企业或者机构面对的微观数据不断发生动态变化。如果在数据挖掘中忽略这些变化，往往要面临过度拟合带来的损失。例如，我国P2P网贷行业采用的数据体量虽然大多达不到大数据要求的海量数据，但是不少企业热衷采用爬虫等技术从社交媒体挖掘信息用于甄别客户。这些平台健康状况，就可能与过度拟合的严重程度密不可分。

第二，大数据和小数据齐头并进乃大势所趋。

　　大数据和小数据各有优劣。小数据在收集上有变量定义清晰、数据生成机制基本可控、检验评估成本相对较低等优点，但是缺点是数据收集成本高，时间间隔长、颗粒度较粗。

　　在过去的十多年中，我国在通过非官方渠道采集小数据、特别是微观实证数据方面取得了长足进展。在多方努力下，更多经过严格科学论证而产生的数据可被公众免费获得并用于研究。例如，北京大学的“中国健康与养老追踪调查”、“中国家庭追踪调查”，都由经济、教育、健康、社会学等多领域的专家协同参与问卷的设计和数据采集的质控。在这些努力下，小数据的生成机制更为透明，交叉验证调查数据的可信度等实证研究的必要步骤也更为可行。

　　但是，目前在小数据的收集和使用、政府和有关机构的小数据开放运用方面，我国还有很大推进空间。只有在对涉及我国基本国情的小数据进行充分学习研究之后，我国学界和业界才能对经济政治社会文化等领域的基本状况有较清晰的把握。而这类的把握，是评估大数据质量、大数据可研究问题的关键，对推进大数据产业健康发展有举足轻重的作用。

　　因此在政策导向上，为要实现大数据、小数据相得益彰推动经济发展的目标，在促进发展大数据的同时也要大力发展小数据相关产业，推动小数据相关研究与合作，使大数据与小数据齐头并进、互为补充。

第三，提高大数据使用的透明度，加强对大数据质量的评估。

　　大数据面临的透明度问题远比小数据严重。在GFT案例中，Lazer等人指出，谷歌公司从未明确用于搜索的45个关键词是哪些。虽然谷歌工程师在2013年调整了数据算法，但是谷歌并没有公开相应数据、也没有解释这类数据是如何搜集的。我国大数据相关企业的数据，也鲜有学者可以获得并用于做研究的例子。

　　与透明度相关的就是大数据分析结果的可复制性问题。由于谷歌以外的研究人员难以获得GFT使用的数据，因此就难以复制、评估采用该数据分析结果的可靠性。因此利用大数据的研究难以形成合力，只能处于案例、个例的状态。

　　另外还要注意到，如果数据生成机制不清晰，研究结论难以复制，而算法演化也表明，最终数据往往成为使用者和设计者共同作用的结果。这种数据生成的“黑箱”特征，容易成为企业或者机构操纵数据生成过程和研究报告结果的温床。唯有通过推动大数据的透明化、公开化，我们才能在大数据产业发展之初，建立健康的数据文化。

结语

　　目前有些流行观点认为，在大数据时代，技术容许人们拥有了总体因此抽样不再重要、另外由于数据挖掘术的进展，只需关心相关关系而不必再关心因果关系。而GFT的实例表明，即便谷歌公司用于GFT计算的是数十亿的观测值，也不能认为谷歌公司拥有了流感人群的总体。误认为数据体量大就拥有了总体，就无法谦卑结合其他渠道的小数据，得到更为稳健的分析结论。而GFT估计的偏误原因，从来都离不开人们的主动的行为-- 无论是谷歌公司自己认为的GFT的流行导致更多人使用该搜索、还是Lazer等人认为的算法变化、丢弃异常值。因此，不明白数据生成机理变化的原因而只看相关关系的后果，于谷歌是GFT的计算偏误丢了脸，而对热情地投身于采用大数据到创新、创业中的中国民众和相关机构来说，则可能是不得不面对事先没有预备的重大经济损失。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2016/03/01 ，如有侵权请联系 cloudcommunity@tencent.com 删除

数据处理