【实战】美数学博士研发找对象算法

感谢微友田丰的推荐,同时也欢迎更多朋友投稿或荐文。

一位数学家的约会大作战

2012年六月的某天,在洛杉矶 UCLA 数学系的一个35岁的年轻人Chris McKinlay,在为他的博士毕业论文而苦苦挣扎的同时,心心念念的却是他的 OkCupid(美国知名婚介交友网站)收件箱里,是否有新的消息。在OkCupid 里,每个注册用户需要回答 350 道左右的问题,这些问题是随机选取的,包含了政治、宗教、家庭观、爱情观、性、喜欢的书籍电影甚至智能手机等等。系统会根据问题的答案自动计算用户间的匹配程度,匹配度高的,系统会优先推荐给你。在这样的算法下,McKinlay 发现自己吃了大亏。他被分配到的那些问题明显比较冷门,所以跟他配对的女性的数量也少的可怜。只有不到 100 个勉强达到 90% 的 match。而要知道,全洛杉矶,至少有 8 万个女性在用 OkCupid。他可是华丽丽的被无视了呢。

面对着满屏的代码与空空如也的约会日程表,他决定了,既然他是个数学家,那么就要拿出专业一点的办法来搞定约会这个难题。McKinlay 想到他可以通过抽样与统计,知道那些他喜欢的女人们都会在意哪些问题。然后他可以根据这些问题,建立一个新的档案。这样就可以保证,全洛杉矶适合他的女人,都能到他的碗里来了。

Round 1:爱情就是数据分析?

为了获取资料,McKinlay申请了 12 个 OkCupid 账户,胡乱填写了资料,而后编了一个基于 Python 的脚本。利用这 12 个账户,该脚本自动搜索 25 至 45 岁之间的异性恋和双性恋女性,访问她们的主页,搜集她们的种种信息包括:种族,身高,是否吸烟,星座等等。可在收集了一千个左右的样本之后,McKinlay 的程序被OkCupid 的防御系统屏蔽了。为让他的系统像人一样的干活,他找到了他的好朋友 Sam。Sam 也活跃在 OkCupid 上,McKinlay 在他的电脑上安装一个软件,监视他使用该网站的情况。于是 McKinlay 就写了个程序模拟 Sam 的点击率和打字速度来应对OkCupid的屏蔽。仅三周,他收集到了 600 多个问题的答案,数据来自全美的数万个女性。现在,他已经顾不上自己的毕业论文了,全身心投入到了这些数据的分析中去。

通过比较,McKinlay选择了贝尔实验室的 K-Modes 算法来给这些女人分类。于是2 万个来自洛杉矶的待选女性被自动分成了七组。综合考虑了下,两队人马脱颖而出。一是二十出头,特立独行,爱音乐爱艺术的年轻姑娘们,他把她们叫做 A 组。二是年龄稍长,主要从事设计类工作的事业女性,他把她们叫做 B 组。他确信,这里头一定有最适合他的那一个。

Round 2:姑娘,我们很相配!

同样在计算机的帮助下 McKinlay 了解了这两拨姑娘的喜好,对此精挑细选了 500 个最让她们关心的问题,如实填写了自己的答案。就这样,他创建了两份最终档案,针对性的附上不同的照片:给 A 组年轻姑娘们看的是他正在攀岩的照片,而给 B 组秀的是他演奏吉他的样子。当这一切都完成的时候,他运行了 OkCupid 的配对搜索,结果很惊人:99% match 的女人就有好多页,滚也滚不完,一直拉到了第一万个,都还有 90% 的匹配度。

有了匹配度,还得让那些姑娘们注意到自己。他又写了个程序,自动在对方的主页上踩下痕迹。这样姑娘们登陆 OkCupid 之后就会发现,有个超速配的帅哥关注过自己。之后,他的收件箱自然就被塞满了。每天不停的有美女主动来跟他问候,要求见面。

Round 3:约会

在 6 月 30 日,McKinlay 达成了他的首次约会。对象是个年轻的网页设计师,来自 A 组,他们在咖啡馆共进午餐,结果却叫人沮丧,这简直成了一次学术交流会。第二次约会是和一个网站编辑,来自 B 组。在他的构想中两人会在公园湖畔浪漫的散步,可现实完全走样。接下来一次次的约会中,McKinlay 觉得自己必须调整战略方向,他注意到 A 组的女人的一些共性,比如纹身,毅然决定放弃掉她们,集中火力攻占 B 组。就这样,到夏季结束时,他约会了近百次,但有的姑娘约会了几次,就没有下文了。

Final:爱神光顾

McKinlay大受打击,他开始怀疑自己的人品以及程序。可就在这时,一个叫 Christine Tien Wang 的28 岁姑娘,主动在网站上跟他 say hi。她也在 UCLA,一个美术专业的硕士生。他们在学校的花园碰了头,谈论了书籍,艺术和音乐,互相留下了深刻的印象。McKinlay 告诉她自己是如何利用 OkCupid 获得约会机会的事,而姑娘也坦白说,在短消息他之前,她也稍微改了下自己的档案。

一年后,McKinlay拿到了他的博士学位,在大学里做授课讲师。而 Tien Wang在卡塔尔学习艺术。他们每天用 Skype 联系。直到有一天,McKinlay 在视频聊天时,拿出一只钻戒,然后,她点头了,说好的。接下来,他可能需要再编个程序,让计算机帮他们挑个黄道吉日来举行婚礼了。

摘自:EMC,wired

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2014-01-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏灯塔大数据

单身数学家如何通过大数据找到真爱

? 男主角麦金利 凌 晨三点,在加州大学洛杉矶分校(UCLA)数学系大楼五楼的一个拥挤小隔间里,克里斯·麦金利(Chris McKinlay)正在为他的博士论...

2865
来自专栏钱塘大数据

涨姿势,单身数学家如何通过数据挖掘找真爱

没女朋友的一定要读完这篇脱单记, 有女朋友的请默默转发这篇脱单记, 因为…… 男主真的太牝了! 凌晨三点,在加州大学洛杉矶分校(UCLA)数学系大楼五楼的一个...

3554
来自专栏大数据文摘

元数据杀人?我们已被网络空间绑架

30111
来自专栏Golang语言社区

IT界不为人知的14个狗血故事

随着计算机变得功能越来越强大,我们人类要搞清楚自己在哪些方面仍然更胜一筹。这里倒有个建议:虽然互联网上充斥着无穷无尽的海量数据,但还是需要人的头脑,才能查找筛选...

3725
来自专栏数据星河

Linux之父道歉后,Linux社区颁布开发人员行为准则

  本周Linux之父Linus Torvalds出人意表地发表忏悔录后,Linux社交周二再公布关于开发人员的言行的行为准备,不过社交反应不一。

1250
来自专栏鹅厂优文

创造101的小姐姐,了解一下?

在女票的影响下开始看咱们厂自制的综艺节目《创造101》,被里面充满才华和颜值的小姐姐们所吸引。在大饱眼福的同时,不仅萌生了深入了解小姐姐的想法。

93910
来自专栏智能算法

看数学天才如何利用“大数据”找到真爱

原文地址 http://www.wired.com/2014/01/how-to-hack-okcupid/all/ ? 男主角麦金利 每个人都试图创建最佳版本...

3417
来自专栏华章科技

单身数学家如何通过数据挖掘找真爱

凌晨三点,在加州大学洛杉矶分校(UCLA)数学系大楼五楼的一个拥挤小隔间里,只有一只灯泡和一台计算机的屏幕发出光亮。克里斯·麦金利(Chris McKinlay...

642
来自专栏CDA数据分析师

单身数学家教你如何通过数据挖掘找真爱

? 男主角麦金利 凌晨三点,在加州大学洛杉矶分校(UCLA)数学系大楼五楼的一个拥挤小隔间里,只有一只灯泡和一台计算机的屏幕发出光亮。克里斯·麦金利(Chri...

2029
来自专栏机器人网

涨知识!原子是如何被发现,并进行核能利用的?

原子是一种非常神奇的粒子,它拥有复杂的结构,自然而然会发生神奇的变化。整个世界都是由大量微小的原子组成,原子又是由中子、质子和电子组成。两百多年来,科学家为了证...

2684

扫码关注云+社区

领取腾讯云代金券