统计思维如何帮助大数据应用从人工走向智能？（上）

数据森麟

发布于 2019-09-27 18:45:29

6420

发布于 2019-09-27 18:45:29

文章被收录于专栏：数据森麟

本文首发于知乎（作者：京东金融）链接：https://zhuanlan.zhihu.com/p/42204964

2018年8月9日（上周四），笔者和金融科技业务部的几位算法同事有幸参加了哥伦比亚大学全球中心举办的人工智能系列论坛。本次论坛邀请了哥伦比亚大学数据科学研究所副所长、哥伦比亚大学统计学郑甜教授（也是笔者在哥大Master期间的Advisor），分享哥大经典的统计思维研究及其对大数据分析、人工智能应用的启发。

论坛上，郑甜教授发表了题为《统计思维为大数据应用注入智慧》的专题讲座，笔者将整个讲座内容总结为如下三个方面：

以著名的“幸存者偏差”（survivorship bias）问题引入对于统计思维的理解。这个问题讲的是二战期间，美国空军想研究怎么能够通过加固飞机的某些部位，从而使得飞机更加安全。当时美军通过分析返回的飞机，认为弹孔越多的地方越应该被加固。然而著名统计学家亚伯拉罕▪沃德教授（也是哥大统计系的创始人）却持反对意见，他认为这些返回的飞机都属于幸存者偏差，正是因为他们已经幸存了，所以那些有弹孔的地方反而不应该被加固。在这个问题中，统计学家沃德教授通过幸存飞机表面弹孔的现象，总结出了他们背后幸存的实质原因。

所以什么是统计思维？那就是通过现象看本质，其中现象就是数据，本质就是规律，统计思维就是通过概率分布、数学模型等来系统地量化和分析数据背后的规律和随机性。

对于当下业界中面对的大数据问题和现象，远比飞机弹孔复杂得多。郑甜教授认为，一方面，现在的大数据问题中数据太多，导致现象背后的本质难以找寻。另一方面，现在机器学习提供了许多分析工具，但是大部分情况下是给人一种非常神秘的感觉，他们的可解释性和可操纵性并不是很明确，导致分析人员想要做决策却不知道怎么进行下一步。

因而，大数据应用的时候是需要智慧的，这个智慧可以通过统计思维来系统地注入到这个应用中。当下数据科学领域的一些学术研究，不是从实际问题出发，而是从工具出发的，这样在数据科学里面有点本末倒置的感觉。因为用工具去套数据的话，有可能并不能达到很好的应用效果，所以现在数据科学中最需要的还是从实际问题出发。当你有实际问题的时候，你第一点想到的应该是数据在哪里，通过实际问题找到数据，再判断这个实际问题能不能够被翻译成一个数据问题。

因此当分析人员在做数据科学应用的时候，实际上就会有个端到端的循环，这个循环永远都应该是从实际问题出发的。

最近在数据科学领域经常讨论的，就是说你有这个目标，需要人工智能来实现，这个人工智能的关键字不是在人工而是在智能。这个智能，就是说你怎么能够让这个数据问题很好的体现这个实际的问题，怎么能从数据中找到解决方案，从而又有效地推出新的产品和新的政策。在这里，统计思维就提供了一种可以用来翻译问题的非常正式的语言，包括我们的概率分布、数学模型，使得当我们有了结果以后又可以重新翻回去，这是统计思维的一个优势。

对于统计思维在数据科学中的作用，郑甜教授分享了自己身边的两个小故事。

第一个小故事，纽约时报健康版面曾在2015年报道过普林斯顿大学经济学教授安格斯▪迪顿的一篇报道，显示近年来中年白人男性死亡率持续上升。

在2017年，郑甜教授的一位同事为了找到背后合理的解释，做了一系列的统计分析，终于发现了死亡率升高背后的历史原因[1]。原来第二次世界大战期间，美国一共有1300万人参军，等战争一结束，这些人就回到家结婚生子，产生了战后20年内的婴儿潮现象。而这批1946年到1964年出生的婴儿，导致了2000年和2010年研究的两群人年龄分布发生了变化，2010年人群的平均年龄大于2000年。基于年龄增长死亡率上升的共识，就产生了2015年报道中中年白人男性死亡率持续上升的结论。

第二个小故事，是郑甜教授自己做的一些研究，关于社交网络的结构。

举个非常小的例子，如果要估算一个人的社交圈人数，可以通过问卷问他认识多少个李刚。如果他的回答是2个，基于全国大概有一百多万个李刚占总人口0.1%的前提假设，可以估计他大约认识2000个人。这个结论看似合理，其实其中的几个假设并不成立。比如说李刚大概率是男性，社会学中我们有个很明显的结论就是，男性会认识更多的男性，女性会认识更多的女性，因而这个李刚的问题会过度估计男性的朋友圈，而低估女性的朋友圈。更进一步，在郑甜教授的论文中[2]，利用Latent Surface Model和Aggregated Relational Data，以Robert和Christina两个常见美国名字为例，量化了这两个人群与无家可归者、AIDS患者、监狱犯人等美国社会特殊群体之间社交圈的关系和距离。

论坛的最后，郑甜教授还就大数据如何在行业内创造价值、需要统计学解决的大数据问题以及统计学如何更有效地为大数据做出贡献这三方面，与各位行业内的专家展开了讨论。其中来自我们京东集团的副总裁翁志教授，也发表了一些自己独到的见解。翁志教授表示，在京东集团内部，大数据帮助我们了解每个用户的消费习惯，预测商品的趋势以及未来销量，以及更加智能地选择商铺的位置。在机器学习和深度学习模型中，统计学可以帮助我们更好的理解数据以及处理和加工结构化的数据。在数据科学中，统计学的应用也十分强大，比如有统计学背景的同学，可以更好的拨开现象看到问题的本质，并且在机器学习和深度学习的研究中走的更快。

以上就是笔者整理的本次统计思维论坛中的主要内容，更多详细内容和其他业内专家的精彩发言，由于篇幅有限，本文上半部分着重总结了郑甜教授以及众位资深行业专家对于统计思维在大数据应用中的一些观点，帮助同学们对于统计思维有了一个宏观上的认识。在本文下半部分中，笔者将会结合自己实际工作中的一些案例，分享下统计思维在京东金融建模场景中的应用，来看看我们的模型是如何一步一步走向智能的，敬请期待。

参考文献：

https://www.brookings.edu/blog/brookings-now/2017/03/23/working-class-white-americans-are-now-dying-in-middle-age-at-faster-rates-than-minority-groups/
McCormick, T. H. and T. Zheng (2015). “Latent surface models for networks using Aggregated Relational Data.” Journal of the American Statistical Association 110(512): 1684-1695.

有好的文章可以联系我们与大家分享，需要获取代码或者转载本公众号文章，欢迎直接在公众号或者文章下方留言。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-08-29，如有侵权请联系 cloudcommunity@tencent.com 删除

大数据