文本挖掘分析《欢乐颂》到底谁和谁堪称好闺蜜、谁和谁又最为般配?

听说最近大家都在看《欢乐颂》,这部热剧里,女性可谓是绝对的主角,22楼5个女房客的互动好像把男性角色们的风头都抢光了;但是热门剧中又总是不能缺了言情戏的点缀。所以,《欢乐颂》到底谁和谁堪称好闺蜜、谁和谁又最为般配呢?还是让文本挖掘为你揭晓吧……

方法

要判断两个人的关系的密切程度,可以从他们接触的频率、交流的次数入手;反映到小说上,就是两个人出现在同一场景或同一事件里的次数很多。因此在实际分析时,我们假设一个段落是一个场景,出现在这个段落里的人物,彼此之间都是有关系的。基于这个假设,我们先对原著小说进行文本分词,再将每个段落里出现的人物抓取出来,然后统计每组人物关系出现的频数,以得到我们关注的人物之间的关系网络。

上述分析思路中蕴含的最关键的技术点就是文本分词。在本次分析中,我们使用R软件中的segmentCN函数来实现。R是一个开源软件,用于数据处理、统计分析和制图,因为可以免费下载和使用,以及包含了实现各种分析功能的程序包,被广泛认可和使用。(要调用segmentCN函数需要加载Rwordseg程序包和rJava程序包,其中Rwordseg程序包已经不能直接在R中通过install.packages直接安装,而是需要先下载到本地再在R中加载)。从加载程序包,到进行中文分词,再到初步抓取人物的程序如下图所示:

我们这次主要分析的人物包括欢乐颂22层的5位女生——安迪、曲筱绡、樊胜美、邱莹莹和关雎尔,以及在电视剧中与5位女生有密切情感纠葛,且在广大女性观众“换老公清单”里的5位男士——赵启平、魏渭、王柏川、谭宗明和包奕凡。

对于这10个人物,至多应该有45种(两两)人物关系,当然也许也有人生压根没有交集的。为了更准确更完整地抓取每一个场景中的人物,我们考虑到加上这是个人物的昵称,比如魏渭的昵称是“奇点”,如果不抓取这个名字,可能最后分析出来的结果就是安迪和魏渭从来没有爱过。

分析结果

最终我们按照关系密切程度排序,排在前三名,即关系最密切的3组人物关系如下图所示:

安迪和曲筱绡在666个场景中同时出现,站到“安迪x曲筱绡”cp的你们真是太6了!樊胜美和邱莹莹在611个场景中同时出现,料想二人大概是一直处于一个挖坑一个填的模式中吧。安迪和小包总同时出现在602个场景中,算是出现频次最高的异性cp了,而安迪和奇点(安迪的第一任男朋友魏渭)在小说原著中,共同出现的场次为443次。所以安迪最后还是和小包总在一起了?从我们的分析结果来看是这样的……为奇点点蜡1秒钟。

另外我们还将人物关系网络用更直观的网络关系图的形式展现出来,如下图所示:

从图上来看,安迪俨然是人生赢家啊,左拥右抱不说,还霸占着辣么多小姑娘,简直羡煞旁人。反观奇点,人艰不拆,您老还是早觅出路的好。似乎第二女主非樊胜美莫属了,她既与各姐妹关系都十分密切,也与王柏川关系稳定,也是让大家十分欣慰。最值得关注的是,暗恋赵医生的关关,他俩的线呢?再仔仔细细端详一番,还是没找到,真考验眼神。

看到这里,大家可能会提出一个疑问,我们之前假设一个段落代表一个场景,但实际小说可能需要几个段落才能把一个场景讲完;按照之前的假设,我们会重复统计一些人物关系,也会遗漏一些人物关系。因此我们对方法进行改进,加入一个段落跨度的参数,用于定义一个场景。在我们的分析中,设定这个参数等于3,即在第i段出现的某个人物,除了和本段的其他人物有关系外,也和i+1段和i+2段出现的人物有关系。举个简单的例子,第i段抓取出的人物是曲筱绡和赵医生, 在第i+1段抓取的人物是安迪和奇点,在第i+2段没有抓取到这10个人物中的任何一位,于是计曲筱绡和赵医生、曲筱绡和安迪、曲筱绡和奇点、赵医生和安迪、赵医生和奇点的人物关系出现一次。

按照这种做法,最终我们得到关系密切程度排在前三名的3组人物关系如下:

安迪x樊胜美cp击败了安迪和小包总的官配,笔者不禁感叹,百合大法好!

画出的人物关系网络如下图所示:

不管怎么看,安迪都是人生赢家啊,其他人可以洗洗睡了。奇点,把你跟安迪放得再近,似乎也没多大用,哎。。。终于!换了一种算法,可以看到关关和赵医生了,不过和奇点一样,然并卵。果然本剧还是一部弘扬姐妹情的主旋律作品。

后续改进方向

本文在对人物关系的紧密程度进行分析时,认为出现在几个段落内的人物,彼此之间都是有关系的,但关系的紧密程度会被认为是一致的;然而现实中在一个场景里,会有事件主要人物和次要人物,他们之间的关系的紧密程度显然是不同的。于是在未来的分析中,可以考虑识别人物在小说中出现的位置,计算人物之间的距离,识别场景/事件里的主要人物和次要人物,以及他们之间的亲疏程度,赋予差异化的权重,从而更准确地反映人物关系的紧密程度。

此外,以我们现在的分析结果,曲筱绡和樊胜美这对人物关系在小说中出现的频次还略多于曲筱绡和赵医生,但我不能下结论说曲筱绡跟“樊大姐”的关系比跟她的“唐僧”还亲密。这是由于我们没有分析人物之间的情感关系造成的,因此在未来的分析中,还可以考虑引入情感分析。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2016-06-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能快报

美俄科学家联合运用神经网络研制抗癌药物

据俄罗斯物理技术研究所报道,莫斯科物理技术学院(MOSCOW INSTITUTE OF PHYSICS AND TECHNOLOGY,MIPT)、InSilic...

3276
来自专栏申龙斌的程序人生

从勾股定理,到费马大定理,再到椭圆曲线,一部辉煌壮丽的数学史诗

5115
来自专栏PPV课数据科学社区

【学习】关于数据挖掘算法的反思

 写这篇文章,缘自于前几天部门内部成员们进行了一次部门内部现有涉及的一些算法的review以及整理。不过比较囧的就是,由于boss不在,我们讨论讨论着就成了吐槽...

3005
来自专栏大数据挖掘DT机器学习

难以解释的数据异常

在分析数据的时候,总有那些一些数据异常无法找到适当的理由进行合理解释,也许可以换个角度来看待这些异常。为什么明明数据发生较大的起伏波动,我们绞尽脑汁还是无法...

3316
来自专栏大数据文摘

AI = 神经网络?这8个技术就不是!

772
来自专栏数据结构与算法

模拟退火算法

爬山算法的思想就是一个劲的找最优解,如果接下来的任何状态都比当前状态差,那么就停止

54415
来自专栏量子位

AI何时能懂环境会沟通?别急,这个“你说我画”小游戏开了个好头 | 论文

安妮 夏乙 编译整理 量子位 出品 | 公众号 QbitAI 晚上9点,一下午开了3个会的你终于回到家,换了衣服瘫倒在沙发里。放空了三分钟之后,你缓过神来,喊了...

2435
来自专栏WeTest质量开放平台团队的专栏

揭密微信跳一跳小游戏那些外挂

本着钻研技术的学习态度,我对目前几款比较火的外挂进行了源码分析,总结出了它们的一些破解思路。

1.2K12
来自专栏AI研习社

2018 机器阅读理解技术竞赛冠军 Naturali 分享问答系统新思路

AI 研习社按:7 月 28 日,由中国中文信息学会和中国计算机学会联合举办的第三届语言与智能高峰论坛于北京语言大学举办,Naturali 奇点机智团队作为 2...

491
来自专栏疯狂的小程序

微信跳一跳小游戏外挂分析

张小龙:这个游戏发布以后,其实它的效果有点超出我们的预期,我们自己开玩笑说,这个游戏突然变成了有史以来可能用户规模最大的一个游戏,因为它的DAU大概到了1点几亿...

1997

扫描关注云+社区