首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

美国大选,为什么大数据预测失效了?

在上篇文章中我们说到,大数据就是“全数据”,就是把所有的数据都用上。区别于传统的统计学抽样调查。

其实这样说是不严谨的,即使是大数据也离不开抽样调查。在很多时候,即使把所有数据都用上,将数据作为一个整体去分析,仍然会出现偏差。这是因为,把所有数据作为一个整体来看,它本身就是一个大的抽样样本,它不能完全代表更大的整体,甚至由于这个样本抽取的随机性不够还会造成更大的错误。

在2016年的美国大选中,所有的大数据都预测希拉里的胜算更大,选举结果大跌眼镜:喜剧表演艺术家特朗普胜出,当选美国总统。

为什么科技如此先进的美国,大数据预测会失灵?

这是因为,大数据在源头就出现了问题。例如采集Twitter的帖子和评论来分析,可能会采集到上亿条数据,数据量足够大。但是即使如此之大的数据量,也只能代表Twitter用户的观点,而美国选民中的Twitter用户只占一部分,还有很大一部分是不用Twitter的。

收集Twitter数据来做分析,就等于在整体中进行抽样,只抽取了Twitter用户,如此抽样随机性会大打折扣。统计学家已经证明,抽样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。

根据选举后的分析,特朗普之所以能够胜出,是因为他赢得了众多美国底层白人的选票,而这些人很少有人使用Twitter。

虽然这次预测动用了大数据的分析能力,但是在最开始就犯了统计学里面抽样随机性低的错误,最后预测结果不准确就成了很正常的事。

另外,技术和成本也是重要的考量因素。当今社会数据的产生在爆炸式增长,但储存这些数据的技术成长速度并没有那么快。并且,收集、存储、调取、计算所产生的成本是巨大的。一家大型的数据公司其每年的电费就可能超过千万人民币。这时如果每次计算都调取整体数据,所造成的巨额成本可能得不偿失,随机调取一部分数据来推测整体就成了性价比最高的做法,

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200610A0Q40W00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券