统计思维如何帮助大数据应用从人工走向智能?(上)

本文首发于知乎(作者:京东金融)链接:https://zhuanlan.zhihu.com/p/42204964

2018年8月9日(上周四),笔者和金融科技业务部的几位算法同事有幸参加了哥伦比亚大学全球中心举办的人工智能系列论坛。本次论坛邀请了哥伦比亚大学数据科学研究所副所长、哥伦比亚大学统计学郑甜教授(也是笔者在哥大Master期间的Advisor),分享哥大经典的统计思维研究及其对大数据分析、人工智能应用的启发。

论坛上,郑甜教授发表了题为《统计思维为大数据应用注入智慧》的专题讲座,笔者将整个讲座内容总结为如下三个方面:

以著名的“幸存者偏差”(survivorship bias)问题引入对于统计思维的理解。这个问题讲的是二战期间,美国空军想研究怎么能够通过加固飞机的某些部位,从而使得飞机更加安全。当时美军通过分析返回的飞机,认为弹孔越多的地方越应该被加固。然而著名统计学家亚伯拉罕▪沃德教授(也是哥大统计系的创始人)却持反对意见,他认为这些返回的飞机都属于幸存者偏差,正是因为他们已经幸存了,所以那些有弹孔的地方反而不应该被加固。在这个问题中,统计学家沃德教授通过幸存飞机表面弹孔的现象,总结出了他们背后幸存的实质原因。

所以什么是统计思维?那就是通过现象看本质,其中现象就是数据,本质就是规律,统计思维就是通过概率分布、数学模型等来系统地量化和分析数据背后的规律和随机性。

对于当下业界中面对的大数据问题和现象,远比飞机弹孔复杂得多。郑甜教授认为,一方面,现在的大数据问题中数据太多,导致现象背后的本质难以找寻。另一方面,现在机器学习提供了许多分析工具,但是大部分情况下是给人一种非常神秘的感觉,他们的可解释性和可操纵性并不是很明确,导致分析人员想要做决策却不知道怎么进行下一步。

因而,大数据应用的时候是需要智慧的,这个智慧可以通过统计思维来系统地注入到这个应用中。当下数据科学领域的一些学术研究,不是从实际问题出发,而是从工具出发的,这样在数据科学里面有点本末倒置的感觉。因为用工具去套数据的话,有可能并不能达到很好的应用效果,所以现在数据科学中最需要的还是从实际问题出发。当你有实际问题的时候,你第一点想到的应该是数据在哪里,通过实际问题找到数据,再判断这个实际问题能不能够被翻译成一个数据问题。

因此当分析人员在做数据科学应用的时候,实际上就会有个端到端的循环,这个循环永远都应该是从实际问题出发的。

最近在数据科学领域经常讨论的,就是说你有这个目标,需要人工智能来实现,这个人工智能的关键字不是在人工而是在智能。这个智能,就是说你怎么能够让这个数据问题很好的体现这个实际的问题,怎么能从数据中找到解决方案,从而又有效地推出新的产品和新的政策。在这里,统计思维就提供了一种可以用来翻译问题的非常正式的语言,包括我们的概率分布、数学模型,使得当我们有了结果以后又可以重新翻回去,这是统计思维的一个优势。

对于统计思维在数据科学中的作用,郑甜教授分享了自己身边的两个小故事。

第一个小故事,纽约时报健康版面曾在2015年报道过普林斯顿大学经济学教授安格斯▪迪顿的一篇报道,显示近年来中年白人男性死亡率持续上升。

在2017年,郑甜教授的一位同事为了找到背后合理的解释,做了一系列的统计分析,终于发现了死亡率升高背后的历史原因[1]。原来第二次世界大战期间,美国一共有1300万人参军,等战争一结束,这些人就回到家结婚生子,产生了战后20年内的婴儿潮现象。而这批1946年到1964年出生的婴儿,导致了2000年和2010年研究的两群人年龄分布发生了变化,2010年人群的平均年龄大于2000年。基于年龄增长死亡率上升的共识,就产生了2015年报道中中年白人男性死亡率持续上升的结论。

第二个小故事,是郑甜教授自己做的一些研究,关于社交网络的结构。

举个非常小的例子,如果要估算一个人的社交圈人数,可以通过问卷问他认识多少个李刚。如果他的回答是2个,基于全国大概有一百多万个李刚占总人口0.1%的前提假设,可以估计他大约认识2000个人。这个结论看似合理,其实其中的几个假设并不成立。比如说李刚大概率是男性,社会学中我们有个很明显的结论就是,男性会认识更多的男性,女性会认识更多的女性,因而这个李刚的问题会过度估计男性的朋友圈,而低估女性的朋友圈。更进一步,在郑甜教授的论文中[2],利用Latent Surface Model和Aggregated Relational Data,以Robert和Christina两个常见美国名字为例,量化了这两个人群与无家可归者、AIDS患者、监狱犯人等美国社会特殊群体之间社交圈的关系和距离。

论坛的最后,郑甜教授还就大数据如何在行业内创造价值、需要统计学解决的大数据问题以及统计学如何更有效地为大数据做出贡献这三方面,与各位行业内的专家展开了讨论。其中来自我们京东集团的副总裁翁志教授,也发表了一些自己独到的见解。翁志教授表示,在京东集团内部,大数据帮助我们了解每个用户的消费习惯,预测商品的趋势以及未来销量,以及更加智能地选择商铺的位置。在机器学习和深度学习模型中,统计学可以帮助我们更好的理解数据以及处理和加工结构化的数据。在数据科学中,统计学的应用也十分强大,比如有统计学背景的同学,可以更好的拨开现象看到问题的本质,并且在机器学习和深度学习的研究中走的更快。

以上就是笔者整理的本次统计思维论坛中的主要内容,更多详细内容和其他业内专家的精彩发言,由于篇幅有限,本文上半部分着重总结了郑甜教授以及众位资深行业专家对于统计思维在大数据应用中的一些观点,帮助同学们对于统计思维有了一个宏观上的认识。在本文下半部分中,笔者将会结合自己实际工作中的一些案例,分享下统计思维在京东金融建模场景中的应用,来看看我们的模型是如何一步一步走向智能的,敬请期待。

参考文献:

  1. https://www.brookings.edu/blog/brookings-now/2017/03/23/working-class-white-americans-are-now-dying-in-middle-age-at-faster-rates-than-minority-groups/
  2. McCormick, T. H. and T. Zheng (2015). “Latent surface models for networks using Aggregated Relational Data.” Journal of the American Statistical Association 110(512): 1684-1695.

有好的文章可以联系我们与大家分享,需要获取代码或者转载本公众号文章,欢迎直接在公众号或者文章下方留言。

本文分享自微信公众号 - 数据森麟(shujusenlin)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-08-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏有三AI

【每周CV论文推荐】 初学GAN必须要读的文章

欢迎来到《每周CV论文推荐》。在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的。

11030
来自专栏AI算法与图像处理

计算机视觉中的注意力机制(Visual Attention)

本文将会介绍计算机视觉中的注意力(visual attention)机制,本文为了扩大受众群体以及增加文章的可读性,采用递进式的写作方式。第1部分的全部以及第2...

39030
来自专栏WOLFRAM

时间就是生命:用树莓派和Wolfram神经网络创建虚拟飞行副驾

"There's some good magic going on in that neural networks algorithm..."

12830
来自专栏机器学习算法与Python学习

【ML小白】10 个机器学习 Q&A,面试必知!

本文整理了一些最常见的机器学习面试问题及其相应的回答。机器学习有志者以及经验丰富的ML专业人员可以在面试前以此巩固其基础知识。

8530
来自专栏机器学习理论与数据竞赛实战

李航《统计学习方法》决策树ID3算法实现

机器学习算法其实很古老,作为一个码农经常会不停的敲if, else if, else,其实就已经在用到决策树的思想了。只是你有没有想过,有这么多条件,用哪个条件...

12850
来自专栏机器学习算法与Python学习

做目标检测,这一篇就够了!2019最全目标检测指南

计算机视觉是一门研究如何对数字图像或视频进行高层语义理解的交叉学科,它赋予机器“看”的智能,需要实现人的大脑中(主要是视觉皮层区)的视觉能力。

12830
来自专栏不仅仅是python

机器学习相关的python库介绍

顾名思义,机器学习是计算机编程的科学,通过它可以从不同类型的数据中学习。Arthur Samuel给出的更一般的定义是 - “机器学习是一个研究领域,它使计算机...

11220
来自专栏AI研习社

计算机视觉算法工程师面试总结

校招尘埃落定了,由于最近一直在忙毕业论文,现在才腾出时间总结一下面试经历,因为最近人工智能的火爆,所以今年算法岗竞争也相当激烈,投了很多公司也踩了很多坑,最后也...

28110
来自专栏AI科技大本营的专栏

谷歌NIPS论文Transformer模型解读:只要Attention就够了

导读:在 NIPS 2017 上,谷歌的 Vaswani 等人提出了 Transformer 模型。它利用自我注意(self-attention)来计算其输入和...

11830
来自专栏机器学习算法与Python学习

人脸照片秒变艺术肖像画:清华大学提出APDrawingGAN CVPR 2019 oral paper

该项工作被CVPR 2019录取为oral paper。CVPR是计算机视觉和人工智能领域内的国际顶级会议,2019共收到投稿5160篇,录取1300篇,其中o...

11230

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励