大数据时代,还需要统计思维吗?

摘 要

本期推送美国联合学院数学系助理教授Roger W.Hoerl等人在WIREs Computational Statistics(2014年第6期)杂志上发表的《应用统计思维破解“大数据”难题》(Applying statistical thinking to ‘Big Data’problems)一文。

文章指出,大数据在帮助我们理解或预测事物上具有光明的前途,但也带来了一个潜在的误识:大数据时代统计思维不再需要了。而作者认为统计思维和建模的基本原理是大数据项目成功的关键,良好的统计实践、扎实的专业知识、全面的建模策略和计划对于解决大数据难题比小数据难题更为重要。

社论团队出品·2015|社会学前沿论文

大数据与科学方法之争

2008年,美国连线杂志主编Chris Anderson发表了一篇引起广泛科学争议的文章——理论的终结:海量的数据取代了科学方法(The End of Theory: the Data Deluge Makes the Scientific Method Obsolete)。

尽管引起了科学界的强烈反击,但是这在大数据社区却是人所共识的观点,由于大数据和新技术的不断出现,现在不再需要科学模型、理论、经验和专业知识,而只要有实证的数据分析就能够解决科学和工业的主要问题。甚至,Mayer-Schönberger和Cukier认为我们不再需要关注因果关系,应该从探求因果关系(causation)转而寻求相关性(correlation)。

然而,大数据时代,统计思维真的没有用武之地了吗?作者认为,当前大数据和精致的算法实际上比以往任何时代都更重要,并列举了缺乏统计思维而导致大数据项目失败的诸多案例。

大数据的失败案例

作者指出,由于大数据分析的能力和影响,人们很容易轻信大数据加先进的分析技术就等于成功,不幸的是许多基于大数据的精致分析却产生了令人意想不到的结果。最著名的例子是杜克大学基因研究中心的瓦解,该中心的两位研究者共同发表了一篇突破性的文章,在文中他们认为通过对女性DNA的分析能够找出治疗乳腺癌的办法。但不幸的是基于此理论的大量临床试验并未产生预期的结果。两位统计学家开始展开调查,结果发现在巨大的数据集中出现了一处行列转置问题,这一小小的失误最终导致了基因中心的瓦解。

在金融领域,雷曼兄弟的破产也是一例。雷曼兄弟公司花了数年时间开发出了一套用于测试公司违约的模型,希望通过它比竞争对手更快、更准确的预测出投资公司违约的风险。然而讽刺的是,如此精致的模型和大数据却没有预测到雷曼兄弟自身的破产。如今,在许多人看来,导致雷曼兄弟没能预见自己公司破产的原因是该模型的一个关键假设,即假设将来会像过去一样发展,比如一个消极因素会广泛的影响市场的未来,就像它在过去发生的一样。

然而,作者认为这些案例失败的根本原因是人们在为拥有大量数据和新的、精确的算法而欢呼雀跃时,忘却了基本的统计学思维。数据量大固然是好,但是大量的数据也会增加发现重要信息的难度,因此,大数据时代,基本的统计思维仍然是至关重要的,它有助于产生可行的、有效的解决方案。

大数据时代应该具有的统计思维

作者认为,统计思维是一种学习和实践的哲学,包括三个基本的原则:

1、所有的工作都是相互联系的过程;

2、每一个过程都可以存在变异;

3、理解并减少变异是成功的关键。

在这里,工作是一个广义的概念,是指人类的一切活动,它意味着所有活动都是一个过程,并且这些过程将会影响整个正式的系统,比如我们想要恰当的分析数据,就需要了解数据产生的过程。第二个原则和第三个原则是指我们需要承认变异的普遍存在,并且明白如何解释和处理数据的变异。

在践行这些原理时需要注意四个方面:

1、仔细的考察数据的质量。评估数据质量的关键需要仔细考察数据的“谱系”(pedigree),这需要遵守如下步骤:(1)明白数据结构、产生和收集过程的科学和工程学;(2)知道数据的收集过程;(3)明白如何测量获得的数据。明确地知道数据从哪儿来、如何收集的有助于了解数据质量和稳定性,作者认为评估数据的“谱系”应该被至于数据分析的首要位置。数据管理、自动的数据清洗算法和缺失值是导致数据问题的三个来源。

2、运用可靠的专业知识。作者认为专业知识能够在如何选择变量和模型上给予我们有效的指导。专业知识在研究的整个过程中都能得到充分的应用,包括评估数据质量、选择变量、选择合适的测量方法和模型、解释结果、推断结果、总结未来可能的研究等。优质的数据、地道的分析和良好的专业知识才是强大的组合。

3、有明确的数据分析策略。从统计工程学的角度,解决大数据问题的包含五个阶段:一是识别重要问题,积极的发现问题;二是分析问题的结构,将含混不清的、结构化的问题转化为精确的、具体的问题;三是理解问题产生的背景,需找合适的方法澄清潜在的限制和局限;四是提出分析策略,它应该是一个总体性的方案,而不只是选择一个合适的统计工具;五是实施分析策略。

4、循序渐进的解决问题。循序渐进是一个重要的科学方法,即在每一次试验中取得一点进步,收集更好的、更相关的数据,检验和修正假设等等,直到最终解决问题。在统计学中存在一个令人担忧的现象:在利用现有数据进行统计建模时一味的寻求最佳模型,这时“最佳”就很容易狭隘的定义为一些数值标准,比如均方根误差(RMSE)。因此,作者认为与其在现有数据上花费大量时间寻求“最佳”模型,不如尽快的找到现有数据能够回答的问题,然后继续将来的数据收集。因为实践呼吁合适的分析而不是终极的分析,而执行一个合理的分析本质上是基于循序渐进的分析方法。

点评

文章针对大数据时代忽视统计思维的现象展开了讨论。作者认为大数据增加了发现重要信息的难度,在缺乏统计思维、一味追求“最佳”模型和精确算法的情况下,大数据甚至会带来未预料的后果,在大数据时代统计思维仍然至关重要。文章的这个判断在某种程度上是一种友善的提醒,但这确实是大数据发展过程中,尤其是在遭受到大量质疑时,不容忽视的重要问题,作者的呼吁应该得到每位数据科学工作者的重视。

参考文献:

Roger W.Hoerl, Ronald D.Snee and Richard D.De Veaux, 2014, Applying statistical thinking to ‘Big Data’ problems. WIREs Computational Statistics, Vol. 6: 222-232.

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181127A0BB1U00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券