学习
实践
活动
工具
TVP
写文章

6年前美国小伙开始用大数据和AI相亲,如今……

是第55次约会,只有3个约会对象愿意再来一次,想来第三次的只有1位。

小麦的自尊心严重受挫,更严重的是,他怀疑自己的算法是不是有问题。

当小麦想出用大数据寻找自己的另一半时,他感觉自己是天才……

1

用大数据相亲

国很多年轻人称自己找不到对象,身在美国的Chris McKinlay(后称小麦)也遇到了同样的问题。

2011年,刚过而立之年的小麦失恋了,他是位大学教师,在加州大学洛杉矶分校数学系任教。

他通过Okcupid、Match.com、J-Date 以及 e-Harmony 等网站寻找下一份爱情。可是过了九个月,只约会了6次。

2012年6月,小麦看着显示器中的代码和一旁相亲网站的资料,突然浑身一个激灵,那一瞬间,他感觉被图灵、拉格朗日和丘比特附体了。

“再也不能这样活,我要有一个数学家应该有的样子。”小麦嘟囔着:“我要用大数据来相亲。”

于是小麦将色眯眯数学家的眼睛盯向了网站Okcupid(后称O网),一个用算法匹配用户的红娘网站。

“您希望您的下一段恋爱关系持续多久?”这是在你想成为O网会员之前可能需要回答的问题。平均起来,每个会员要从大题库里回答350个问题。

O网的匹配引擎会利用这此数据计算出一对男女的兼容性水平分数,这个分数越接近100%,双方契合度越高。

和小麦契合度高的异性有多少呢?洛杉矶市居住着 200 万女性,O网中有约 8 万名女性的信息,而和小麦有90%以上兼容性的女性不到100名。

于是小麦决定在诚实的基础上重新做一份个人资料。而这位资料要保证自己匹配到洛杉矶区域内每一位可能适合自己的女性,同时排除掉其他不合适的对象。

这就需要大数据。

2

邪性的数学家

大数据来计算自己的终身大事,在一般人看来有点不伦不类。但小麦从来就是个邪性的数学家。

他曾经供职于麻省理工学院著名的二十一点扑克算法团队,通过计算扑克牌面的出现几率赚取到高达 6 万美元的年收入。

“他们(麻省理工学院二十一点扑克算法团队)能够在多种不同的应用场景下使用数学知识。他们发现了很多能够用数学方法解决的游戏,例如扑克牌九。他们会写下代码,并提出赢面最大的游戏策略。”

——Chris Mckinlay

这段经历让小麦对应用数学产生了浓厚兴趣,并最终促使他拿下了硕士学位以及博士学位。更神奇的是他之前学的是和数学毫不沾边的中文。

小麦出生于波士顿郊区,2001 年毕业于米德尔伯里学院并获得中文学位。同年8月,他在纽约找到一份汉译英的兼职工作,工作地点在世贸中心北栋 91 楼。

工作一个月后就发生了“911事件”,幸运的是他当时不在办公室,但是心灵上受到了撞击,于是有了上边所说的经历。

小麦想把扑克事业上的成功,用在自己的爱情事业上。

想要运用大数据,首先就要获取大量的数据。小麦注册了9个O网账户,并编写一套Python脚本用于管理这些账户。

这套脚本帮他收集这些数据,它会访问年龄在25-45岁的异性恋或双性恋女生的页面,并抓取她们的个人信息,包括种族、身高、宗教、嗜好等。

O网中若要查看其他人的资料,自己必须已经回答过系统提供的问题。小麦又设置了脚本,可以随机回答这些问题,反正他的目的只是收集资料。

起初这个脚本可以完美地运转,但是大约在收集到第1000份资料时,他的脚本被系统封禁了。

原来O网中有一套系统来防止这种收集数据的行为,它能够找到操作速度异常的用户,并封禁它们。

小麦遇到了难题。

3

AI加持

要人工智能才行。小麦需要把脚本训练得像真实的人类在操作,才能骗过系统的检测。

他想到了Sam Torrisi(后称山姆)。山姆是位神经学家,他正一边教小麦学习音乐,一边向小麦学习数学。

山姆也在使用O网,并且他决定帮助小麦。

山姆的AI系统原理很简单:先安装一个间谍软件监控自己使用O网的习惯,积累足够的数据后,再让小麦把自己的机器人训练得能模拟他的点击和打字速度。

最后小麦用一台专门的电脑全天24小时地运行这些脚本。终于在三周后收集到全美国2万名女性用户关于600万个问题的答案。

在AI的帮助下,小麦终于收集到了需要的数据,接下来要如何让它们有用呢?

K-Modes帮助了小麦,这是一种聚类算法,首次应用是在1998年,用于根据大豆作物的颜色判断其是否受到感染的分析。

小麦根据K-Modes编写了一套新的算法,然后将2万名女性的数据进行反复分析,出奇顺利地获得了理想的结果——具有七个统计层面的星团状集合体。

怕算法有误,小麦又进行了验证。他重新收集了5000名女性用户的信息,并用他的K-Modes进行分析,得到的结果证明他的统计结论准确无误。

接下来是筛选用户。小麦选定了一个25岁女性为主的簇群,她们大多是自由职业者、音乐家和艺术家。这是他喜欢的类型。

小麦又选择了一个“备胎”簇群,这里的女性年龄稍大,从事的是编辑、设计等创造性工作。他把这两个簇群都当成目标,并分为A组和B组。

4

55次约会

麦挑选出这两个簇群最受欢迎的500个问题,并诚实地填写自己的答案(他不希望通过谎言博取女性的芳心,毕竟是冲着结婚去的)。

他还打算用“自适应增强型机器学习算法”搞清楚每个问题的重要程度。

小麦发现这两个簇群的人都对教学感兴趣,所以,他为自己撰写了一份简价,强调自己教过高等数学。

而且他还作了两份资料:一份配的是攀岩的照片,一份配的是弹奏吉他的照片。

在回答了所有问题,并进行重要度排列之后,小麦在O网中对洛杉矶女性进行匹配,第一页的女生匹配率高达99%,兼容性超过90%的女性高达1万名。

接下来就是吸引这些女性的注意力。小麦又编写了一个程序,让它自动访问匹配度高的女性的页面。周一访问1000名41岁女性,周二访问1000名40岁女性……两周后访问1000名27岁的女性,之后再把年龄返回到41岁继续访问。

很快就有了效果,被访问的女性纷纷留言,表示对他很感兴趣。

直到现在,我还没有遇到过符合自己心意的对象。但我发现你的个人资料很有趣。看起来,你是个精通数字且性情粗犷的男性……我想我应该跟你打个招呼。

你好——你的个人资料真的让我非常吃惊,我想来打个招呼。我认为我们有很多共同点,虽然我不懂数学,但肯定也能聊得很开心。

你真的能翻译中文吗?我也上过一堂课,但感觉学不明白。

约会终于开始了。第一个约会对象来自A组,很有艺术家气质,是位年轻的网页设计师。然而,约会过后他们并没有产生好感。

小麦说:太吓人了,整个过程像一次学术交流。

第二个约会对象来自B组,是位博客编辑,他们都对自己的生活感到沮丧,同样也对这场约会感到沮丧。

第三个对象也是来自B组,是一位编剧系学生,肩上有一个斐波那契螺旋的纹身。后来小麦给她发消息,却没有收到回复。

小麦每天大约能收到20个人的消息,并且能很快敲定一场约会。但是赢在资料上的他,却狠狠地输在了约会上

到第20次约会时,他对这些女性有了更多“视觉统计学”上的分析。例如,年轻女生一般住在东区,而且会拥有两个以上的纹身;年长的女生大多喜欢大型犬等等。

他也更加有效率地约会,通常是吃个午餐或喝个咖啡,有时甚至在一天安排两场约会。

直到第55次约会时,只有3个约会对象愿意再来一次,想来第三次的只有1位。

小麦的自尊心严重受挫,更严重的是,他怀疑自己的算法是不是有问题。

5

似是而非的真爱

在第88次约会时,小麦感觉自己遇到了真爱。

她叫Christine Tien Wang(后称小王),28岁,身高一米八,蓝色眼睛,是位艺术家兼监狱废除支持者,在加州大学洛杉矶分校攻读美术硕士。

他们的兼容度为91%。第一次约会是在学校的雕塑园区,然后一起去寿司店用餐。

小麦很快就对她有了感觉,他们一起谈论书籍、艺术和音乐。

小麦还把自己用大数据相亲的故事说给她听。她的反应居然是:“哈哈,真有阴谋论和愤世嫉俗的感觉,我喜欢这个主意。”

一年后,他们还在经常约会。不过对于小麦用大数据找到她这件事,小王有不同的看法。

“不是你找到我,是我找到了你。”小王对小麦说:“人们要比自己的个人资料复杂得多。所以,我们相遇的方式有点肤浅,但发生的一切却并不肤浅。这是由大量准备工作所促成的美好结果。”

小麦想了想,认为她说得没错。

一周后小麦向小王求婚,后者欣然答应。

后来的故事是,有人翻出了小麦的推特,并发现他在2017年9月5日回复一位网友时说:

Married her last fall so so far so good.

(去年秋天结婚了,目前感觉相当好。)

故事到这里完结,您认为大数据找对象靠谱吗?欢迎在文章后方留言,或回复【社群】加群讨论。

End

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180903G1FN6800?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券