大数据预测思维方法,相关性并不意味着因果关系

时至今日,关于西方传来的一些哲学思想,不断地占据人们的思维空间,比如墨菲定律,比如二八定律,还有著名的蝴蝶效应。

蝴蝶效应,通俗浅白形象来说,就是北半球一种蝴蝶展翅飞翔,很可能引起了南半球的一场风暴。

随着大数据的兴起,人们发现有些风马牛不相及的事情,却有很强的关联性,或者叫做相关性。

大数据的意义在于从海量的数据里寻找出一定的相关性,然后推演出行为方式的可能性。在大数据时代,随着存储和计算能力在不断提高,能够被数据化的东西也越来越多,所以利用统计学研究各种数据之间的相关关系,研究非相关数据之间的相关性就是相关性分析。这最终可以成为我们决策的依据,大大提升我们的管理效率或者处理事情的能力,也极大地颠覆我们原来的思维。

虽然他们没有因果关系,例如随着甲的出现,必然会导致乙的出现。

根据引力的计算,月圆月缺和潮起潮落,其实没有太强的因果关系,月球的引力不足以在地球的海面掀起如此的巨浪,但是他们是紧密相关的。

几千年都是遵循这样的相关性。比如月相规律和女性的月经的关系,都不是一种强关联性,几乎没有因果关系。

还有本文起初提到的蝴蝶效应,其实这本质上就是一种相关性,但是并不是因果关系,很显然从物理学力学都说不通。

还有中医的脉诊,很多人以为这是一个脏腑的反应,其实真的搞错了,这本质就是一种镜像反射,中医把脉所取都在手太阴肺经上,何来直接对应五脏六腑之说?

就是一种取象,取他们的相关性。

有一个很精妙的比喻,相关性就像一个人照镜子,镜子里的人和你的动作一模一样,但是你和镜子里的人,没有半毛钱关系,开枪对着镜子里的人打,你却毫发无伤。

相关性,并不意味着因果,但是可以看到一种趋势,一个结果,就照镜子,开枪把镜子打碎了,人也没事,但是看得清清楚楚,如此而已。

TwitterHealth是纽约罗彻斯特大学发起的一个研究项目,可以通过分析用户的Twitter微博内容来预测用户会不会感冒。注意,他们仅仅分析微博内容!

这一项目原来只是给研究人员用作数据挖掘和机器学习系统用的,后来开发出了这一功能。罗彻斯特大学计算机科学系主任Henry Kautz说:“TwitterHealth是一个专门研究分析不同地理位置信息的项目,比如智能手机的GPS信息。”

Kautz说:“我们发现越来越多的社交媒体开始加入地理位置定位这一功能,人们在发Twitter微博的时候就会顺带上自己的地理位置信息。我们的研究小组就从网站上下载并研究此类信息。”

Kautz的学生建立起一个计算机网络,专门用来下载地理位置坐标为大城市的Twitter微博。然后他们开始从海量的大数据资源中挑选可用数据。

“我们发现,人们经常在Twitter微博中提到自己的健康状况。比如说‘我流鼻子了’、‘我感冒了’、‘我感觉不舒服’等。我们就设想,是否可以根据这些词句来跟踪季节性流感?”

于是研究团队开始拙手写机器学习算法,在几百条实验微博中挑选“感冒微博”。

最后团队的算法在挑选“感冒微博”时已经可以达到99%的准确率,几乎与人脑分析文本一致,而且“感冒”分析速度要快于美国本土最大的疾病控制中心。

“从大数据中,我们可以发现季节性流感的分布和传播,我们测量和预测的精度完全不输疾病控制中心。”Kautz说道。

从这个案例来讲,发微博和感冒完全没有因果关系,但是能够分析出来人群和个体的疾病特征,甚至连宏观的流行性疾病趋势分布图,都一清二楚。

从这点上看,科学越来越接近玄学了。

欢迎关注隐士申子源更多文章,与你分析碰撞思维火花!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180526A02Z0M00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券