数据科学家Rudder借助大数据阐述9个关于约会的启示

大数据先生:象往常一样你在酒吧喝过两杯酒之后遇到一个新朋友, 于是又加上一杯。你靠近这位大数据朋友, 比平时更专注地听他讲。“数字足迹。”“信息时代。”你点头微笑,即使你并不明白。“改变世界。”“未来。”你心领神会的样子,即便没有真正听懂,你也伪装得很好。

早晨醒来,你对大数据仅残存些模糊的记忆,诸如它的标记线和些许流行语。你对这些词的的理解也是隐约而模糊。

如果你仍在为理解这位大数据朋友而努力,大数据还有你不曾见过的另一面——它不再是承诺利用海量数字来优化,货币化或者系统化我们生活中的每一个部分,给我们带来好处的那个大数据朋友。这个大数据先生会戳破画皮,告诉我们一些并不希望知道的东西。就如同Christian Rudder在他的新书《数据变革:我们是谁(当我们认为没有人在注意我们的时候)》(Dataclysm: Who We Are (When We Think No One’s Looking),)中所展示的那样,这也许同样值得追求。在我们提升人类的体验之前,我们首先应该理解它。

Rudder,OkCupid的创始人之一,哈佛毕业的数据科学家,分析过数以百万计的数据记录并利用相关研究来理解我们如何搜寻和寻求爱情。但Rudder工作的魅力之处并不是那些发现多么让人震惊。相反,他深刻揭示了那些我们大多数人不愿去想的问题:对于黑人女性和亚裔男性的种族歧视,或者“同性恋(Gay)”一词是如何成为“我的丈夫是否是(My husband is)…”这一搜索条的No 1的谷歌搜索建议的。

这里有9个关于性和约会的启示,是Rudder借助大数据在Dataclysm 这本书里阐述的。

1. 直男认为女性有一个保值期。

尽管女性倾向于寻求与她们同一年龄阶段的男性,但OkCupid数据显示,所有年龄的男性迄今都在寻找二十出头的女性。虽然男性通常会将女性的年龄要求设置为三十岁甚至更大,但事实上他们极少联系29岁以上的女人。

2. 直女表达性欲的可能性远远低于其它人口类型。

在OkCupid网站,6.1%的直男都很明确地是在寻找一夜情。对男同性恋者来说,这一概率为6.9%,女同性恋者为6.9%。而对于直女,则仅有0.8%。

3. “大部分人过着默默而绝望的生活,带着只在心中唱响的歌谣,走进坟墓。”

(Most men lead lives of quiet desperation and go to the grave with the song still in them.–Thoreau)”

像任何优秀的数据科学家一样,Rudder运用文学,在这里是梭罗(Thoreau,译者注:18世纪美国作家,《瓦尔登湖》的作者),来解释人们的生活状态。Rudder援引了一名Google工程师的描述,这位工程师发现搜索“男同性恋的描写”(他实际的意思是同性恋色情)在每个州发生的概率为5%,社会科学家们估计同性恋占世界人口的比重也差不多是这个比例。所以如果一个民意调查显示,一个州有1%的人口是同性恋,那么另外的4%可能仍然存在,只是没有表现出来。(译者注:4%,一个沉默而又压抑的人群)

4. 搜索“我丈夫是否是同性恋?”一般都发生在那些同性婚姻极少能被人们所接受的州。

这里有一个搜索数据测试,您可以自行查看:在谷歌上键入“我的丈夫是否?(My husband is)”并看看谷歌推荐结果。Rudder指出,这一搜索是在南卡罗来纳州和路易斯安那州最为常见,这两个州同性婚姻率的支持率同样都是最低的。

5. 根据Rudder的研究,对女性而言,亚洲男人是最不中意的种族…

OkCupid上,用户可以对彼此以1至5的分数打分。亚洲女性更有可能给亚洲男性以更高的评分,而其他种族的女性——黑种人,拉丁裔,白种人——给亚洲男性的评分介于1和2之间,低于她们通常评价男人的分值。黑种人和拉丁裔同样面临来自各自不同种族的歧视,而白人男性的评级在所有种族的女性中享有的评分都比较高。

(编者注:作为中国男人,我们是否应该对此嗤之以鼻!!!)

6. 同时对于男性而言,黑人女性是最不中意的种族群体。

几乎是一样的情形。亚裔、拉丁裔和白种人常常给黑人女性1到1.5分甚至更低,而黑人女性给于黑人男性的评分则与所有种族的女性给于黑人男性的评分更加一致。但亚裔和拉丁裔女性通常会获得来自所有男性的较高评价,甚至高于白人女性。

7. 发送复制粘贴信息的用户能更为有效地获得回应。

OkCupid追踪用户在消息中输入多少字符以及他们实际上发出了多少封电邮。(对于大多数用户来说,每发送一个字符需要键入三个字符。) 在做这项分析时,Rudder发现高达20%的用户设法利用5个或者更少的组合键发送成千上万个文字,像是Ctrl+C,Ctrl+V,回车。更深层次的挖掘显示,尽管从头创建的信息表现会优25%,但复制粘贴信息就单位努力而言,收到了更多的回复。(译者注:不要担心别人笑话你抄情书)

8. 你的Facebook点赞显示能够显露你的性别,种族,性取向和政治观点。

英国的一组研究人员发现,单就基于每个人的Facebook点赞,他们便能够以88%的准确率识别出一个用户是男同还是直男;女同还是直女的识别准确率为75%;相应地,白人还是黑人,95%;男人还是女人,93%;民主党还是共和党,85%。

9. 相对而言,佛蒙特州不怎么淋浴。

Rudder放送了一些沉重的信息供大家思考,所以最后一条谈个稍微轻松的话题:一般来说,根据他的研究,在较为炎热的州,人们淋浴多;而较为寒冷的州,人们淋浴则较少。不过,东北地区洗浴相对频繁。但佛蒙特州是个例外。Rudder也不知道为什么。你觉得呢?

Rudder还有一些非爱情领域的额外收获…

——在7月里一个寻常的早晨,米特·罗姆尼在几分钟内便获得了20000个Twitter关注者。

Rudder更进一步深入研究了社交媒体数据,显示罗姆尼2012年7月22日上午8时获得了18860个新的关注者。当天并没有什么特别有趣的事发生,关注者的激增大约200倍于他之前和过后得到新关注者的增幅。秘密何在?可能是购买了僵尸粉。罗姆尼并不是唯一这样做的政治家——这是一种惯常的做法,Rudder 说,因为我们试图强化我们的“个人品牌”。

——奥巴马的当选和就职引发了谷歌搜索“n-gger”的一个高峰。

根据谷歌搜索数据,在2008年11月奥巴马当选时,“n-gger”的搜索量在2008年11月奥巴马当选时增加了一倍还多,随后在一个月内迅速下降。当奥巴马在2009年1月宣誓就职时,它同样飙升,然后迅速下降。我们并没有所谓的有组织的种族国家对话,Rudder暗示,这只是全国范围内自发的民众行为。

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2014-09-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云社区全球资讯抢先看

斯德歌尔摩——数据中心供暖之都

“云”是个真实存在的地方。你在Instagram上发布的照片,在Facebook页面上给朋友们留下的生日祝福,以及在Netflix上收看的流媒体电视节目,绝不是...

22090
来自专栏企鹅号快讯

AI能从根本上解决紧张的医患关系吗?专访美国国家工程院院士何志明:“机器人根本不能独立看病!”

虽然大数据医疗的应用前景广泛,但是现实情况往往令人沮丧。在个性化医疗中,“光有AI是不够的,因为AI还是需要大数据。” “如果机器人通过一定的医学考核后,上岗给...

20970
来自专栏华章科技

2017年诺贝奖出炉:你变丑和变笨的原因,他们终于研究出来了…

因为随着研究的深入,三位科学家发现,昼夜节律的紊乱,与内分泌代谢疾病,例如肥胖、糖尿病、高血压、高血脂、严重的脑部疾病,例如阿尔茨海默病,乃至肿瘤的发生发展都有...

7130
来自专栏程序员互动联盟

什么样的公司值得我们托付一辈子?

过年了,先祝各位程序员新年快乐。想必年后肯定有一批人要换工作,到底什么样的环境好呢。看一下年前程序员对公司的对比或许对你有所帮助。 1、谁是2B 这是一致认可的...

34470
来自专栏大数据文摘

大数据能否挽救我父亲于癌症

26380
来自专栏镁客网

黑科技 | 柔性电池新研究,未来你的眼泪也能为它供电

12400
来自专栏新智元

埃隆·马斯克(Elon Musk)的脑机接口团队揭秘

【新智元导读】硅谷钢铁侠埃隆·马斯克(Elon Musk)最近进军脑机接口领域——成立新公司 Neuralink,一时刷爆朋友圈。本文揭秘 Neuralink ...

543110
来自专栏大数据文摘

大数据里笑看那些风花雪月的事

15590
来自专栏腾讯研究院的专栏

通信人格权初探:刍议号权

王红霞  中南大学法学院博士后,中南大学法学院讲师 一、通讯社交利益之发轫 社会交往自人之产生就已经开始,是人的基本需求和存在方式。美国社会学家库利主...

38660
来自专栏大数据文摘

美重申禁止编辑人类胚胎基因

17370

扫码关注云+社区

领取腾讯云代金券