“爱情”可以预测吗?

如何获取数据

作者从Facebook中获得了一个随机的用户数据库,数据库包含了130万名在个人资料中标识出伴侣姓名以及恋爱状态的成年人,共含有了86亿个关系的连接,并基于此构建出一个庞大的网络结构,下图展示了其中一个用户的网络结构:

图1 个人的网络结构(图的上侧和右上侧有两个密度较高,其余网络则较为稀疏,可见个体的网络结构是异质性的。作者认为这些跨群的个体作为连接点,对于理解网络中的关系非常重要。)

那么在这么庞大的网络中,

该如何去识别伴侣关系呢?

作者在文章Romantic Partnerships and the Dispersion of Social Ties: A Network Analysis of Relationship Status on Facebook中提出了两个“有趣”的测度:

Embeddedness(嵌入性)

这一测度描述了两人有多少共同好友,在网络结构中表示为同时与两节点相连的节点数量,作者用emb(u,v) 加以表述:

图2 网络结构的重合,图中E和C节点的嵌入性的值为3

但仅通过单一的嵌入性是不足以描述伴侣关系的,两个人网络结构的高度重合只能证明两人是熟识的关系,但并不能证明他们是伴侣关系,所以作者提出离散性测度作为替代方案。

Dispersion(离散性)

什么是离散性?

通常来说,每一个人都生活在不同的社交群体之中,如“同学”群体、“同事”群体等,在这些群体之中,即使两人不是伴侣关系,两人的网络结构也具有较高的嵌入性。

所以为了剔除这一类情况,作者提出可以通过研究重合节点的结构,即共同好友之间的关系来描述并推测伴侣关系:

你妈的小学同学认识你爸所有的单位同事吗?

几乎不可能

(除非你爸和你妈的小学同学在一个单位工作)

正如上述例子所提到的,伴侣的重合节点之间往往是具有较低的嵌入性的,即:伴侣中一方的同学、好友、同事等群体往往都只是依靠他本人(她),来与另一方建立联系。映射在网络结构之中,是指网络节点之间没有高度地相互连接,只是通过网络结构中的少数个体节点连接在一起。

也就是说,如果共同好友(重合节点)之间的离散程度越高,两人是伴侣关系的可能性也就越高。

图4 高分散性,分散性值为3

图5 低分散性,分散性值为0

分散性的表达式构建如下:

图6 分散性的表达式,其中dv表示伴侣u和v之间的距离,s和t分别表示在u和v两者的网络中没有直接联系的个体。当s和t没有直接连接且在u的个人网络中没有共同邻居时,dv(s,t)等于1,否则就等于0。

作者分析发现,要预测u与v是否是伴侣关系,disp(u,v)/emb(u,v) 效果最好,以 norm(u,v) 表示,命名为标准分散性(normalized dispersion)。在此基础上,作者又推导出另一个分散性,命名为递归分散性(recursive dispersion),以rec(u,v)表示,公式如下:

图7 递归分散性的表达式

下表显示了根据嵌入性以及递归分散性得出的结果,无论是结婚、订婚还是恋爱关系的预测,递归分散性明显比嵌入性具有更高的准确度。

表1 不同测度预测不同伴侣状态的准确度

那么如何确定“伴侣关系”的

分散性阈值呢?

作者对比了不同阈值下分散性、标准分散性及递归分散性的预测效果。其中标准分散性和递归分散性在阈值为3时预测效果达到了最高的准确率。而分散性则是随着阈值的增大,拥有更高的预测效果。

其他测度

除了从网络结构中获取的测度之外,作者还结合了其他测度,分为结构性测度和交互性测度:结构性测度中除了上述所说的测度外,还包括个人的网络结构的大小和伴侣关系自公布起的时间长度;交互性测度包括浏览好友主页的次数、好友双方共同出现在一张照片的频次等等。

我想研究结果你应该可以预测到…..

作者结合机器学习的方法,利用上述提到的所有测度预测伴侣关系,准确率提升到70.5%。其中,预测夫妻关系的准确率更是高达71.6%。

除此之外,作者通过个体每日的社交网络结构,计算并预测出了个体进入结婚状态的概率,如下图:

图8 根据不同测度识别结婚状态的精确度。(横坐标中0表示公布结婚状态的日期,由图可知,当两人快要结婚时,嵌入性、标准分散性以及递归分散性都会突然上涨,来宣布两者的结婚状态。)

从图中也可以看出分散性的预测能力远高于嵌入性。

作者还发现,如果一个恋人或配偶的分散性测度的值比较低,他们在两个月后分手的概率至少大于50%(预估达到60%)。

恩….有点神奇….

虽然两位作者通过大数据验证了分散性对于预测伴侣关系的效力,但是依旧没能给出分散性能更加准确地识别出伴侣关系的背后的原因。

所以小伙伴们你们知道是为什么吗?

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181114G1JAZ900?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券