专栏首页大数据文摘【实战】美数学博士研发找对象算法

【实战】美数学博士研发找对象算法

感谢微友田丰的推荐,同时也欢迎更多朋友投稿或荐文。

一位数学家的约会大作战

2012年六月的某天,在洛杉矶 UCLA 数学系的一个35岁的年轻人Chris McKinlay,在为他的博士毕业论文而苦苦挣扎的同时,心心念念的却是他的 OkCupid(美国知名婚介交友网站)收件箱里,是否有新的消息。在OkCupid 里,每个注册用户需要回答 350 道左右的问题,这些问题是随机选取的,包含了政治、宗教、家庭观、爱情观、性、喜欢的书籍电影甚至智能手机等等。系统会根据问题的答案自动计算用户间的匹配程度,匹配度高的,系统会优先推荐给你。在这样的算法下,McKinlay 发现自己吃了大亏。他被分配到的那些问题明显比较冷门,所以跟他配对的女性的数量也少的可怜。只有不到 100 个勉强达到 90% 的 match。而要知道,全洛杉矶,至少有 8 万个女性在用 OkCupid。他可是华丽丽的被无视了呢。

面对着满屏的代码与空空如也的约会日程表,他决定了,既然他是个数学家,那么就要拿出专业一点的办法来搞定约会这个难题。McKinlay 想到他可以通过抽样与统计,知道那些他喜欢的女人们都会在意哪些问题。然后他可以根据这些问题,建立一个新的档案。这样就可以保证,全洛杉矶适合他的女人,都能到他的碗里来了。

Round 1:爱情就是数据分析?

为了获取资料,McKinlay申请了 12 个 OkCupid 账户,胡乱填写了资料,而后编了一个基于 Python 的脚本。利用这 12 个账户,该脚本自动搜索 25 至 45 岁之间的异性恋和双性恋女性,访问她们的主页,搜集她们的种种信息包括:种族,身高,是否吸烟,星座等等。可在收集了一千个左右的样本之后,McKinlay 的程序被OkCupid 的防御系统屏蔽了。为让他的系统像人一样的干活,他找到了他的好朋友 Sam。Sam 也活跃在 OkCupid 上,McKinlay 在他的电脑上安装一个软件,监视他使用该网站的情况。于是 McKinlay 就写了个程序模拟 Sam 的点击率和打字速度来应对OkCupid的屏蔽。仅三周,他收集到了 600 多个问题的答案,数据来自全美的数万个女性。现在,他已经顾不上自己的毕业论文了,全身心投入到了这些数据的分析中去。

通过比较,McKinlay选择了贝尔实验室的 K-Modes 算法来给这些女人分类。于是2 万个来自洛杉矶的待选女性被自动分成了七组。综合考虑了下,两队人马脱颖而出。一是二十出头,特立独行,爱音乐爱艺术的年轻姑娘们,他把她们叫做 A 组。二是年龄稍长,主要从事设计类工作的事业女性,他把她们叫做 B 组。他确信,这里头一定有最适合他的那一个。

Round 2:姑娘,我们很相配!

同样在计算机的帮助下 McKinlay 了解了这两拨姑娘的喜好,对此精挑细选了 500 个最让她们关心的问题,如实填写了自己的答案。就这样,他创建了两份最终档案,针对性的附上不同的照片:给 A 组年轻姑娘们看的是他正在攀岩的照片,而给 B 组秀的是他演奏吉他的样子。当这一切都完成的时候,他运行了 OkCupid 的配对搜索,结果很惊人:99% match 的女人就有好多页,滚也滚不完,一直拉到了第一万个,都还有 90% 的匹配度。

有了匹配度,还得让那些姑娘们注意到自己。他又写了个程序,自动在对方的主页上踩下痕迹。这样姑娘们登陆 OkCupid 之后就会发现,有个超速配的帅哥关注过自己。之后,他的收件箱自然就被塞满了。每天不停的有美女主动来跟他问候,要求见面。

Round 3:约会

在 6 月 30 日,McKinlay 达成了他的首次约会。对象是个年轻的网页设计师,来自 A 组,他们在咖啡馆共进午餐,结果却叫人沮丧,这简直成了一次学术交流会。第二次约会是和一个网站编辑,来自 B 组。在他的构想中两人会在公园湖畔浪漫的散步,可现实完全走样。接下来一次次的约会中,McKinlay 觉得自己必须调整战略方向,他注意到 A 组的女人的一些共性,比如纹身,毅然决定放弃掉她们,集中火力攻占 B 组。就这样,到夏季结束时,他约会了近百次,但有的姑娘约会了几次,就没有下文了。

Final:爱神光顾

McKinlay大受打击,他开始怀疑自己的人品以及程序。可就在这时,一个叫 Christine Tien Wang 的28 岁姑娘,主动在网站上跟他 say hi。她也在 UCLA,一个美术专业的硕士生。他们在学校的花园碰了头,谈论了书籍,艺术和音乐,互相留下了深刻的印象。McKinlay 告诉她自己是如何利用 OkCupid 获得约会机会的事,而姑娘也坦白说,在短消息他之前,她也稍微改了下自己的档案。

一年后,McKinlay拿到了他的博士学位,在大学里做授课讲师。而 Tien Wang在卡塔尔学习艺术。他们每天用 Skype 联系。直到有一天,McKinlay 在视频聊天时,拿出一只钻戒,然后,她点头了,说好的。接下来,他可能需要再编个程序,让计算机帮他们挑个黄道吉日来举行婚礼了。

摘自:EMC,wired

本文分享自微信公众号 - 大数据文摘(BigDataDigest)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2014-01-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 真正懂大数据的公司不说大数据

    大数据文摘
  • 数据说希拉里会赢,它错在哪里?

    大数据文摘
  • 又是以色列!英特尔9亿美元收购交通数据AI公司,加速无人驾驶布局

    本周一,英特尔宣布,计划斥资9亿美元收购以色列城市交通数据初创公司Moovit,从而进一步进军智能移动和自动驾驶领域。

    大数据文摘
  • 光棍极客告诉你:如何用大数据找到女朋友?

    今天是520,你是否还在迷茫如何向喜欢的女生表白?是否还在百度有趣的撩妹技巧?生活在一个充满“数据”的世界,找个女朋友真的很难么?回答是否定的,有了大数据,找女...

    钱塘数据
  • 只需五步!哈佛学霸教你用Python分析相亲网站数据,在两万异性中找到真爱

    如果身在美国,就像其余四千万单身男人一样,注册一下Match.com, J-Date和OkCupid等相亲网站,坐等真爱上门不就可以了。

    统计学家
  • 屌丝必看案例:加州大学光棍极客通过大数据搞定女朋友

    在加州大学洛杉矶分校数学楼5层的一个阁楼里,显示器上闪烁着微弱的灯光。Chris McKinlay正在使用罗拉多州超算为他博士论文(大规模数据处...

    小莹莹
  • 只需五步!哈佛学霸教你用Python分析相亲网站数据,在两万异性中找到真爱

    如果身在美国,就像其余四千万单身男人一样,注册一下Match.com, J-Date和OkCupid等相亲网站,坐等真爱上门不就可以了。

    CDA数据分析师
  • 学霸用 Python 分析相亲网站数据,在两万异性中找到真爱!

    如果身在美国,就像其余四千万单身男人一样,注册一下 Match.com, J-Date 和 OkCupid 等相亲网站,坐等真爱上门不就可以了。

    GitHubDaily
  • “忽悠”智能机器人,竟然改改物品纹理就成功了!北航新研究:时空融合对抗攻击算法

    通过对抗攻击修改3D物体的外表纹理属性,就可以使得智能机器人在动态场景中,执行任何攻击者预先设计好的错误行为或错误地回答问题。

    量子位
  • 【RT-Thread笔记】内核对象模型

    RT-Thread包括了很多不同类型的对象,如线程,信号量,互斥量等。在代码中,这些对象被汇总到一个枚举中(在rtdef.h中):

    正念君

扫码关注云+社区

领取腾讯云代金券