首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Everybody Lies

我有段时间爱听的Tim Ferriss播客里(对,现在不爱听了,他话太多),他常爱问做客嘉宾的问题是,你最爱送别人的书(但不是自己写的)是什么?因为Tim在科技届算是很活跃,我每次听到都觉得有些好笑,送书还是硅谷常见的行为吗?

这本书是我身边一个很geeky的朋友送的,记得拿到的一刹那我就想起Tim Ferriss来了。

这本书的作者Seth SD是一个经济学家,也是纽约时报的专栏作家。

书的封面还是很一目了然的,讲的是大数据以及反应出来的人的行为。跟经济学关联不大,更多是社会学的内容。既然是纽约时报的专栏作家,自然是文笔幽默、通俗,也知道用大众最有兴趣的一些话题吸引人的眼球。

一开始Seth解释了听起来非常深奥的“数据分析”这门科学——他用自己的祖母如何根据自己的人生经验描述了他该寻找的最佳结婚对象这个实例,说明了“数据分析”是人类已经多年掌握并实际运用的一个学问。

真正好的数据科学方法,常常很符合直觉,因为它的核心无非就是在数据中发现规律,并从中预计一个变量如何影响另一个变量。人们在生活中一直都在这样做。

(这本书送得很合我心意,应该也是我的geek朋友观察积累了我一些数据作出的准确判断啊)

(另外需要强调的是,Seth也说明了,虽然数据科学方法常常很符合直觉,结果往往和直觉相反)

Seth主要依赖的数据库是Google的搜索,文中虽然穿插了一些其它数据来源,但Google大约占了八成以上的内容。

切合封面的结论,每个人都撒谎,Seth用了一些例子来说明,包括:

性行为次数(调查回答和实际避孕套销售量)

种族歧视的消灭(明显带有歧视意味的语句搜索量,尤其是跟政治事件,例如奥巴马选举的相关性)

选举参与比例(调查回答和实际搜索投票地点)

以及其它例子。他总结说:

搜索数据表明,我们生活的真实世界,和依赖公众调查的学术界以及媒体描述的非常不同。

Seth认为大数据主要体现在四种力量:

获取全新的数据

具有真实性和坦诚度(互联网是新世界的树洞)

拥有新的某一小众人的数据

实验的随意性得到更大保证

Seth的一些有趣的数据发现在文末。

他书里我个人觉得最有趣的是第三章,倡导要小心处理数据。

他主要是从数据科学本身的角度提出了一些警告,比如纬度陷阱(过多纬度有时候会误导数据的解读)。

再比如数据衡量的和真正希望了解的之间可能有差距。有意思的是,Seth用到脸书的例子,尽管脸书可以了解关于点击、“赞”、转发、评论这些数据,但是最重要的问题,比如整个体验如何,有没有帮助用户了解世界、帮TA跟朋友的联系、甚至是有没有让TA笑等等,数据都无法有效回答。

Seth的建议是,大数据需要小数据和人来帮忙。

有些数据不能用,除了本身道德的问题,Seth从数据方面也提出了问题。比如脸书发现,赞的内容跟智商、外向型和良心都很相关。比如喜欢莫扎特、雷雨和卷的炸薯条的人通常IQ比较高,而喜欢哈雷摩托,“我爱做妈妈”和一个乡村乐团的通常IQ较低,但可否用这样的数据决定雇佣?

Seth用了几个实例证明,目前这些数据可以用在“大数据”上,比如如果敌视穆斯林的情绪有所身高,可以提高对穆斯林居住区的保护,但不能针对哪些搜索表示仇恨甚至杀戮穆斯林的个人采取行动,因为即使只看数据,最高只有10%的人真正会有仇视行动发生。

整本书是用轻松读物的写法写的。书末Seth说他最早让他走向这条路的是《魔鬼经济学》。在如何避免数据分析被公司或机构滥用这个问题上,Seth的写法也可以算是避重就轻。在如何用大数据创造价值这些事例上,他采用都是一些有趣的生活中的例子,比如决定运动员的运动生涯还有没有更佳表现,赛马押谁,赌博时赌场如何决定何时干预等等。已经在发生的一些用大数据设计城市交通,防治流行疾病传播,这些对社会有更大影响的都完全没有提。

你不需要很多数据,你需要的是适合的数据。

防抑郁药的效果没有温度强。预期服用药物,不如搬家到更温暖的地方常驻。

居住在郊区的中产阶级家庭比住在城中的低收入家庭更容易培养出NBA明星,而且他们的名字往往更普遍。(2013年勒布朗得到第二个NBA总冠军的时候接受采访时,曾说I am LeBron James, from Akron, Ohio. From the inner city. I am not even supposed to be here. 当时社交媒体上有很多批评,主要是觉得他自认是黑马有些虚伪。但这个观点其实是符合数据分析的)

弗洛伊德《梦的解析》里的内容,尤其是梦到形状像性器是否有性的意味,在数据分析中没有被证实,尤其是比如梦到香蕉、黄瓜等,这些传统上套用弗洛伊德理论的,在数据上和其本身在水果蔬菜届的地位相符。

弗洛伊德另一个有名的理论是关于口误和潜意识的关联的,Seth主要分析的是笔误。他通过非常翔实的分析,说明没有发现跟其它笔误有差别。

弗洛伊德的“俄狄浦斯情结“(恋母情结)则在数据分析中有明显表现。他关于孩童时期的性启蒙阶段对于一生的影响也同样得到证实。

第一次约会后,如何了解对方是否有兴趣?女人通常语调变化更大,语气更温柔,较少用一些无所谓的词语比如“可能吧”“大概是的”。更重要的是,女人可能会更多谈论自己。

男人呢?男人通常在说话时语调低沉平稳(更显男子气概)。然而数据还证明了大家的直觉,对话是否有趣在男人对女人是否有兴趣这件事情上,占比很小,外表的决定因素高很多。

我们很多一生中的重要决定,比如喜欢哪个球队、政治信仰等,都在某个年龄层形成,跟当时的社会和政治环境有很大关系。

进好学校重要,但是否进到最好的学校没有那么重要。比较以最低分进最好的学校和差一点就进到这个学校的两群人,他们的命运没有发生明显转折。

读完整本Thinking: Fast and Slow只有7%!

所以Seth最后一章随意得很,意思是,估计也没多少人看到这儿了。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180414G0VT5I00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券