首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大数据如何将你洗脑?

大数据观察

柏拉图曾在《理想国》的第七篇中,讲了一个着名的比喻——洞穴之喻(Allegory of the Cave)

设想有个很深的洞穴,洞里有一些囚徒,他们生来就被锁链束缚在洞穴之中,他们背向洞口,头不能转动,眼睛只能看着洞壁。

在他们后面砌有一道矮墙,墙和洞口之间燃烧着一堆火,一些人举着各种器物沿着墙往来走动,如同木偶戏的屏风。当人们扛着各种器具走过墙后的小道,火光便把那些器物的影像投射到面前的洞壁上。

由于这些影像是洞中囚徒们唯一能见的事物,他们便以为这些影像就是这个世界真实的事物。

在现实生活中,数据就像该比喻中印在壁洞上的影像——它试图利用低维的事物,去给人们描绘一个高维的东西。

如果将洞壁的影像进行数据化处理,哪怕技术再先进,收集的数据再多,都难以让洞穴人感知到一个真实的世界,因为他们看到的世界都被“降维处理”了。

而另一方面,常识又是什么?

不可否认的是:常识跟数据一样,都是片面的。并且每个人的常识都不尽相同,质量参差不齐。

不过这里想说的重点是:相比于数据,常识能从更多得多的角度去分析一个事物。

因为人类的大脑很奇妙,它能把很多看似无关的事物联系在一起。而这一点,是任何计算机都很难以数据的形式做到的。

举个最简单的例子:人们可通过观察“一根筷子折得断,十根筷子折不断”的现象,悟出一个与之毫不相关的道理——团结就是力量。而同一个现象如果交给计算机去处理,那最后的结果就肯定只能与“材料”“扭矩”和“力度”等相关…

再比如迈克·亚当斯曾做过的一项研究,他发现:美国大学生期中考试临近时,奶奶去世的可能性是平时的10倍,而期末考试时是平时的19倍。(数据来自各高校收到的请假邮件和推迟交论文的申请)

若单看数据,你也许会认为学生的学术压力会对奶奶的健康造成影响(的确有科学家对此做过研究…);但若用常识去思考,那就很简单了——为躲避考试,学生们编造了“奶奶去世”的请假借口。

这就是常识与数据的区别——常识是多维的,数据是单维的。

数据不骗人,但它会坑人

数据真正的价值并不在于其统计或计算结果,而在于人们能对其做出正确的解读。不过这很困难,尤其当你面对的是残缺的数据。

据《2017社会大学英雄榜》显示,国内登上胡润百富榜的2000多位资产超二十亿的富豪中,有一半的人都是低学历。(PS,低学历是指本科以下的学历)

请问:从这条新闻中你能读出什么结论?

我想肯定有很多人会认为:学历的高低跟收入的确没什么关系。

然而,这种解读是错的。

正确的解读方式是什么呢?

应该是:中国在2016年末大约有13.8亿人口,其中本科及以上的只有3800万,本科以下则有13.42亿——低学历的人本来就比高学历的人多得多(35倍),而它们进入榜单的人数基本相同。因此,拥有高学历的人进入百富榜的概率,是低学历的35倍。

在这个例子中,所有的数据都是真实的。但如果你只看到一部分数据,而没有看到其他数据,那就很容易被数据给坑了,得出错误的结论。

当然,要想得出更加准确的结论,这里还需挖掘更多的数据。比如:

富豪们的年龄分布。毕竟不同年龄段人群的学历分布是不一样的;

所属行业的分布。毕竟不同行业对学历的要求与相关程度是不一样的;

在这些富豪中,高学历的收入与低学历的收入的总体对比情况…

嗯,如果你不是专门学统计的,相信在加入这么多因素之后,一定会崩溃掉…不过你也不用慌,因为大部分情况下,你根本就没有机会能知道这么详尽的数据。

包括以数据着称的新零售。为什么大部分新零售项目仍然在亏钱?其实就是因为它们的规模还没有达到一定的量,数据的维度依然比较单一,“算”出来的东西依然不够精准,所以效率的提升也就很有限了。

文章与部分图片来源于网络,如有疑问,请联系删除

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180711B1CCOE00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券