大数据小说 | 如何用一小时看透一个初识的姑娘

本文系投稿作品 投稿邮箱tougao@bigdatadigest.cn

作者|曾笑寒 编辑|何及,魏子敏

我叫陈艾丰,今年二十四岁。

职业是大数据算命师。

“科学算命”

“同学,你的背包拉链没拉好。这个社会越来越险恶,像你这么可爱的女孩子一定要当心。”

小姑娘左手端着一杯焦糖玛奇朵,右手拿着iPhone,闻言瞟了我一眼,顺手摸了摸背包,露出了T恤背后的艾薇儿。当她的手指触到贴着射手座符号的MacBook Air时,我趁机向她抛出一个善意而知性的微笑:“有兴趣看看最近的运势吗?”

她顺着我的手势望去,只见“科学算命”四个挺拔刚遒的大字映入眼帘,眉毛刷地一下挑起,眼神顿时亮了三个流明。

有戏!我在心中大喊,然后默默地拿出手机,打开我的算命App,在“基本资料”一栏里输入“性别:女;职业:学生;家庭收入:中等偏上;爱好:星相学、苹果产品、流行摇滚/流行朋克”。App瞬间返回了一些朴素贝叶斯模型计算出来的信息,我扫了一眼,虽然粗略但与我的直觉判断一致。很好。

小姑娘兴奋地拉开凳子一屁股坐了上去:“大叔,你这个‘科学算命’,有啥厉害的地方啊?”

“这个嘛,”我低头迅速扫了一眼我的手机,“就凭你我说的这几句话,我倒是能大概看出一些表层的东西。比方说,你的iTune里一定有一两首Christina Perri的歌,但绝对不会特别多,比方说《平凡的世界》《致青春》《挪威的森林》这三本书你起码看过两本,比方说你对Justin Bieber谈不上喜欢甚至很可能相当讨厌。此外,你应该喜欢吃德芙巧克力,但不太喜欢吃纯黑的。”

小姑娘瞪大眼睛:“你都是怎么知道的!”

我故作潇洒地笑笑,并不急于回答她的问题,而是反问道:“你大概不知道艾萨克-阿西莫夫吧?”

“不知道……”小姑娘摇了摇头,又点了点头,结结巴巴道,“好像听说过……但是不太熟……”

我知道你不知道,我在心里对自己说。事实上,我知道你不知道的概率是76.3%加减9.2%,9.2%是置信水平为95%时的置信区间大小。也就是说,一个听艾薇儿用Mac Air喝星巴克的中国女大学生没听过阿西莫夫的概率在九成五的情形下至少为67.1%也就是三分之二,而至多为85.5%。所以我说“大概不知道”是相当准确的。最起码我的数据是这样告诉我的。

我又接着道:“阿西莫夫是个科幻作家,在他的代表作《基地》系列里,他虚构了一个叫做心理史学的学科,通过对大量人类随机行为的数学描述,来预测人类社会的发展走向。在这个过程中,个体行为的随机涨落会被统计规律所淹没,正如同统计热力学中描述粒子无规则的热运动那样,虽然单个粒子的行为是无法预测的,但作为一个整体,却是有规可循的。心理史学虽然是虚构的,但大致贴近‘科学算命’的意思。”

小姑娘的表情看起来像是刚被黑衣人用激光笔闪过。

“Anyway,大数据时代的来临,使得我们有可能真正实现人类这一永恒梦想。在计算技术的储备以及数据的原始积累均已初步完成的今天,我们提出一个宏伟的目标:以科学的手段,通过大量采集人类活动的数据,建立精密的数学模型,来预测个人的行为模式以及发展趋势;通俗一点来说,就是——大数据算命。”

知己知彼

我见时机成熟,便展开计划关键性的一步。我把手机放在桌上,和颜悦色地说道:“在我们开始之前,我想对你有个大致的了解。这里有个手机App,你可以登录一下,填写一些个人信息,这样方便快捷,省得我一项一项问。你平时上社交网站挺多的吧?微信,微博,豆瓣都行,方便的话一块儿填了吧,信息全一些。”

“好呀。”小姑娘一口答应。显然,她对接下来将要发生的一切懵懂无知。

如同92%的用户一样,她在《用户协议及须知》一页只花了不到两秒的时间,在“同意”一栏中匆匆打上了勾便进入了App。当她手指触到“进入”的那一刹那,潘多拉魔盒已经悄然打开。只是从中汹涌而出的,并不是可怕的魔鬼,而是GB级的个人信息。

“嗯……这样就好了吧?”小姑娘把手机递给我,“对了,还不知道大叔怎么称呼呢。”

“哦,我叫陈艾丰。艾草的艾,丰富的丰。”我接过手机,职业性地微笑道。模型计算的进度条很快就走完了。

我扶了扶眼镜,镜片上是柯南即将揭晓凶手身份时标志性的白光。在刚才瞎扯淡时,位于大洋彼端服务器内的CPU阵列已经完成了海量的查找与计算,并将结果通过太平洋底的光缆返回到了客户端。这一切都是在短短一分半钟之内发生的。

我的手指像艺术家般拨弄着App,一串串数字在我的眼中便如同蒙太奇般对我诉说着她的兴趣爱好,她的喜怒哀乐,她的一切的一切。

“余苗?好名字。”我习惯性地夸奖了下。“谢谢!”小姑娘冲我笑了笑。我看着小姑娘,正色道:“那么余苗,从你的星座本命盘上,还是能够看出你为人的一些特点。”

我手指轻弹,打开了她“用户特征”下的“浏览及搜索”一栏,略一思索,说道:“你的性格开放,对于新鲜事物有着强烈的好奇心与求知欲。”

换句话说,你点击“猜你也喜欢……”之类的推荐链接的概率是79.6%,平均连续点击次数为47次,比你所在用户组别的平均值分别高出8.3个及6.5个标准差。

“有好奇心是件好事,这让你更加迅速地了解很多东西。但若好奇心过于强大,则不免流于表面,浅尝辄止。这样的人,往往徒有一腔热情,最终却一事无成。”你在每个页面停留的平均时间为13秒,也就是说不会读超过两个自然段的信息。

小姑娘脸一红,张开嘴来,却说不出话。看来是说到了点上。

“同时,我认为你不是个意志坚定的人,容易受他人影响及左右,多数情况下会犹豫不定。”你搜索iPhone和Galaxy Note的频率几乎旗鼓相当,并且经常会在关注其中一个之后,突然转而搜索另外一款。两个关键词的搜索频率因此呈现交替领先的形势。同时扩展数据库显示,你曾两次下订单购买Galaxy Note,却最终取消,转而购买了iPhone。同样的情形也发生在Mac Air和Lenovo Yoga 13身上。

小姑娘有些坐立不安,小嘴撅了起来。看得出她似乎并不喜欢我指出她性格上的缺陷,却又因为我句句属实而无可奈何。

“这些都将成为你实现人生目标最要命的障碍。希望你好好考虑一下。”我摆出一副人生导师的态度。

为情所困

“下面我们来看看你的感情”。我迅速翻了翻余苗的“好友互动”一栏,一个名为“欧阳墨”的用户毫无争议地雄踞她浏览、留言、看照片等各大榜单的榜首。看来一准是他没错了。我又查看了她与这个欧阳墨之间的互动统计数据,算上查看、评论及转发,九十天内她浏览他的页面次数为1121次,平均每天十多次。而他浏览她的页面次数……为五次。

单相思。

“按照射手座的运势,去年全年都属于低潮期,尤其是下半年,应该有一次较大的挫折。”

小姑娘轻轻“嗯”了一声,“我喜欢的男生有了女朋友。”

我点了点头,假装问了问两人的名字。

“男生叫欧阳墨,水墨的墨。女生叫贾璐。玉字旁一个道路的路。对了大叔,你怎么老看手机呀?”小姑娘看我在桌子下查个没完,有些疑惑地问道。

“发短信呗。作为一名命理咨询师,我业务可是很繁忙的。”我若无其事地解释道。当然其实我是在查看各类数据。太棒了,服务器已经完成了对两人数据的抓取,开始根据二人之间的互动计算一些特征统计量。例如,页面访问频率,上传照片查看概率,平均浏览时间长度等等。

在接下来的一分半钟里,我做了如下事情。

首先,我取出了储存于服务器端几十万对情侣的资料,对于每一对情侣,计算出他们之间的互动信息统计数据。然后把这些数据放到一个高维空间里面,每一个维度都是一个统计量。几十万对情侣最终的结果——分手还是在一起——被标记在了代表他们的数据点上。之后——最关键的一步——我用了支持向量机(Support Vector Machine,SVM)这个方法,将那几十万个数据点用高维空间里的一个超平面分割开来。这个超平面,等于是宣判书:超平面的一面,意味着有情人终成眷属,而另一端,则预示劳燕分飞的结局。接着,我将欧阳墨和贾璐两人的数据同样放到这个空间里面,区别在于,事先我并不知道他们的结局如何。

当欧阳墨和贾璐的数据被放置在那星星点点浩如烟海的数据点中时,我在心里笑了。那个数据点明明白白清清楚楚地落在了分手的那一侧,并且离那决定命运的超平面相当地远。也就是说,按照支持向量机的结果,欧阳墨和贾璐的恋爱关系,已经病入膏肓,无力回天了!

如果要用通俗的语言解释方才发生的一切,可以打个比方。我手边有一堆刚晒干的香喷喷的新鲜花生,又有一堆已经被虫子蛀坏了的烂花生。我拿来一个碗,撒了一把新鲜花生在里面,又撒了一把烂花生在里面。然后,我往碗里倒了一杯水。鲜花生因为密度比水大,沉在了碗底,而烂花生因为被虫子蛀空了,从而飘在了水面上。于是我们知道,但凡沉在碗底的都是好的,但凡漂起来的都是坏的。这时候,我拿来了一颗不知是好是坏的花生,pia叽一声扔到了碗里——发现它漂在了水面上。因而我们断定,这是一颗烂花生。

服务器中成千上万对情侣,就是那一颗颗的花生,那一杯水,便是那区分好坏的超平面,而欧阳墨和贾璐二人的关系,则是那颗被揪了出来的烂花生。

不过,为了谨慎起见,我还是多做了几步计算,考虑了数据的噪音,对几个变量做了控制,尝试加入和剔除了一些维度,又换了几个稍微不同的Kernel function。除了有少许变化,基本上结论是一致的。而这如此大规模的计算得以在短短一分半钟内完成,完全得益于我所使用的服务器上企业级的并行计算架构。

“我有个好消息和一个坏消息。”

“好消息是,据我测算,你的意中人和他女朋友的姻缘,似乎正笼罩在一片阴云之中;坏消息是,你和欧阳墨之间的默契程度太低,即便他和贾璐分手,你和他在一起的概率也不大。”

小姑娘脸上刚刚出现的笑容戛然而止。“为什么?!”

事实上是因为我把余苗和欧阳墨的用户资料做了一个比对,把二人的数据映射为两个高维空间中的向量,然后计算向量之间的夹角。夹角越小代表向量越相似,越大则越相异。而余苗和欧阳墨两人向量的夹角是……173度。

这两人根本就是南辕北辙好吗!

我摇了摇头,面色凝重地说道:“你跟欧阳墨之间,有着无法逾越的鸿沟。你看,你想谈哲学,他跟你谈科技。你想谈科技,他跟你谈投资。你想谈投资,他跟你谈人脉。你想谈人脉,他说,这是个哲学问题。你们先天气场不合,合盘上刑冲太多,这是无法改变的事实。”

“小姑娘的心情像正弦曲线一样,又跌到了谷底。我不忍心她心情大起大落太难受,也为了增大我这笔交易收益的期望,安慰她道:“不过,后天补救的方法,也不是说没有。首先,你要努力尝试增加你们之间的契合度,加强二人相互的感应。例如,他对科学技术自然格外关注。那么相应的,你就要多了解这方面的知识。其次,你可以多发挥自己的特长,让他也感受到你的强大,巧妙地引入他感兴趣的话题,来一个请君入瓮。比如,作为国际关系专业的学生,不妨谈一谈气候决定论和技术决定论,讨论小冰期的到来对于罗马帝国衰亡的加速作用,分析一下航海技术对今日世界格局的深刻影响。”

小姑娘一下子茅塞顿开,“这个我可以的!”

“孺子可教!”我称赞道, 建立你自己的气场,让他进入你的领域,相信他行星的运行轨迹,一定会受到你引力场的扰动的。”

“嗯!”小姑娘粉拳一握,做出个坚定的表情。

事业和远方

“好了,感情方面我就说到这。希望你自己好好把握。现在让我花一点时间来谈一谈你的事业。想好毕业去哪个公司了吗?”

她摇摇头……

我伸出一根指头晃了晃,“我看,你还是应该锁定一两家公司,有针对性地进行准备。其实找工作呢,很多时候靠的也是缘分。比如可能面试官刚好很喜欢你,或者你有一项技能是他们特别想要的。这样吧,既然说到缘分,我索性为你占上一挂。”

小姑娘一听算卦,眼睛又亮了。

我在App中输入了关键词“金融公司”,启动了针对用户余苗的社交网络搜索功能。四五秒后,手机上出现了我期望的结果。我在手机上写下几个字,给她看了看。“你若是同这个公司接触接触,说不定会有所转机。”

“摩根斯坦利?”小姑娘诧异地念道,“为什么是这家公司?”

之所以是摩根斯坦利而不是花旗、不是高盛、是因为我刚才把余苗的LinkedIn档案翻了个底朝天,从中发现了摩根斯坦利的一名现任主管——她妈的大学同学的小姨子。根据小世界现象,世界上任何两人之间,最多只需通过五个人就能认识。考虑到仅有中国人的情况下,这个数字恐怕还要更小。余苗的父母看样子都受过高等教育,一个在金融行业的联系人都找不到,那才是怪事。明白这一点,要替她指一条明路便不是什么难事。我刚才只是用App对她的社交网络做了个广度优先搜索,同时在联系人档案里搜索“金融”关键字,问题便引刃而解了。

“缘分这种东西,说不清、道不明,可遇而不可求。”我摇头晃脑道,“不过,我模模糊糊感受到一些方向,你不妨参考一下。例如,你可以去寻找那些在你生活中不太经常出现,但却能在关键时刻推你一把的人。例如,有没有毕业的学长学姐最近去了那里工作?或者有没有什么父母的朋友在你希望去的企业任职?缘分也是一种资源……”

“最后,向往自由的你,近期应该非常渴望去一个遥远的地方。”“是的!”小姑娘笑了笑,一副已经很习惯我知道她在想些什么的样子。

“我看,你最适合去大洋的彼岸,一个温润潮湿的所在,一座翡翠之城。” 余苗在过去的六十天里搜索频率最高的词汇是“机票”,67次;“美国签证”,35次;“西雅图”,29次;“旧金山”,23次,“星巴克总部”,19次;“太空针塔”,17次;“金门大桥”,13次。

“对,我正计划去西雅图。我最想去星巴克的总部看看!”“航空博物馆也不错,正好可以补充些理工科知识。”我和她相视一笑。

“好了,我该说的都说完了。时候也不早了,抱歉耽误了你一个小时,希望我说的对你有所助益。”我站起身来,礼貌地伸出一只手。

就这样,我用一小时看透了一个刚刚认识的姑娘。我知道,我跟她一定还会再见面。

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2017-02-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

今年最好的数据可视化作品,看了就赚了!

今年,评委们重新设计了作品分类方式——根据作品的表现主题进行分类,大体上分为艺术、时政、环境、人文、科学、体育等。下面,让我们一同目睹这些美轮美奂的数据可视化作...

18220
来自专栏ATYUN订阅号

Taranis为AI平台筹集了2000万美元,用于作物研究

到2050年,将有超过90亿人口,预测表明全球产量将会翻一番以满足需求。但这说起来容易做起来难。目前,世界上约有45%的作物热量被用于饲养牲畜或转化为生物燃料和...

13630
来自专栏Python中文社区

Python分析《羞羞的铁拳》电影观众评论

專 欄 ❈ 伟楠,Python中文社区专栏作者,数据分析师,知乎专栏:数据故事会。 https://www.zhihu.com/people/hao-wei-...

33470
来自专栏AI科技大本营的专栏

全网首发|如何不费吹灰之力就搞懂大脑的运行原理?这是有史以来最深入浅出的一篇科普文章了(《Neuralink》编译系列二)

昨天,我们全网首发了Tim Urban所撰写的,关于马斯克新公司Neuralink的科普文章的第一部分。 不过,那仅仅是个开胃汤,真正的热菜还没端上桌。 今...

457120
来自专栏计算机视觉与深度学习基础

2014ACM-ICPC牡丹江赛区参赛总结

         回来之后就被没写的作业和入党的事情搞得一团糟(出门在外还是带两本书比较好),但还是抽空在下个赛区开赛之前把这篇参赛总结赶出来了。 据一开始的分...

19690
来自专栏机器之心

纽约客特稿 | 把癌症诊断交给机器,医疗服务会更好吗?

选自Newyorker 作者:Siddhartha Mukherjee 机器之心编译 参与:侯韵楚、Rick R、微胖、吴攀、蒋思源 深度学习系统变得越强大,它...

345150
来自专栏PPV课数据科学社区

教你用大数据做年终总结,提升逼格

一份好的年终总结可以回忆过往,继往开来,痛改前非;可以减轻没有完成前年设立之目标的内疚感;更可以成为给予自己新的一年可以重新做人的假象。可谓是居家旅行、自我麻痹...

31040
来自专栏AI科技大本营的专栏

连黄牛党都开始玩AI了,春节抢票不加钱是回不去了

采写 | Donna 编辑 | 波波,鸽子 最近,中国铁路总公司发布消息,暂不开放今年12月25日之后的火车票预售。若想购买12月25日之后的车票,最早要等到1...

31850
来自专栏CDA数据分析师

数据科学家修炼指南

Software engineer’s guide to getting started with data science 数据科学家修炼指南 Decem...

23360
来自专栏JAVA高级架构

1024程序员节,向改变世界的程序员致敬!

写在前面 正值1024程序员节日来临之际,今天心血来潮,想写篇文章来为我们这些猿猿致敬,也算了却一个心愿,让我们这些猿猿们以自己从事的职业为豪为荣。 可能我们的...

36560

扫码关注云+社区

领取腾讯云代金券