文本挖掘分析《欢乐颂》到底谁和谁堪称好闺蜜、谁和谁又最为般配?

听说最近大家都在看《欢乐颂》,这部热剧里,女性可谓是绝对的主角,22楼5个女房客的互动好像把男性角色们的风头都抢光了;但是热门剧中又总是不能缺了言情戏的点缀。所以,《欢乐颂》到底谁和谁堪称好闺蜜、谁和谁又最为般配呢?还是让文本挖掘为你揭晓吧……

方法

要判断两个人的关系的密切程度,可以从他们接触的频率、交流的次数入手;反映到小说上,就是两个人出现在同一场景或同一事件里的次数很多。因此在实际分析时,我们假设一个段落是一个场景,出现在这个段落里的人物,彼此之间都是有关系的。基于这个假设,我们先对原著小说进行文本分词,再将每个段落里出现的人物抓取出来,然后统计每组人物关系出现的频数,以得到我们关注的人物之间的关系网络。

上述分析思路中蕴含的最关键的技术点就是文本分词。在本次分析中,我们使用R软件中的segmentCN函数来实现。R是一个开源软件,用于数据处理、统计分析和制图,因为可以免费下载和使用,以及包含了实现各种分析功能的程序包,被广泛认可和使用。(要调用segmentCN函数需要加载Rwordseg程序包和rJava程序包,其中Rwordseg程序包已经不能直接在R中通过install.packages直接安装,而是需要先下载到本地再在R中加载)。从加载程序包,到进行中文分词,再到初步抓取人物的程序如下图所示:

我们这次主要分析的人物包括欢乐颂22层的5位女生——安迪、曲筱绡、樊胜美、邱莹莹和关雎尔,以及在电视剧中与5位女生有密切情感纠葛,且在广大女性观众“换老公清单”里的5位男士——赵启平、魏渭、王柏川、谭宗明和包奕凡。

对于这10个人物,至多应该有45种(两两)人物关系,当然也许也有人生压根没有交集的。为了更准确更完整地抓取每一个场景中的人物,我们考虑到加上这是个人物的昵称,比如魏渭的昵称是“奇点”,如果不抓取这个名字,可能最后分析出来的结果就是安迪和魏渭从来没有爱过。

分析结果

最终我们按照关系密切程度排序,排在前三名,即关系最密切的3组人物关系如下图所示:

安迪和曲筱绡在666个场景中同时出现,站到“安迪x曲筱绡”cp的你们真是太6了!樊胜美和邱莹莹在611个场景中同时出现,料想二人大概是一直处于一个挖坑一个填的模式中吧。安迪和小包总同时出现在602个场景中,算是出现频次最高的异性cp了,而安迪和奇点(安迪的第一任男朋友魏渭)在小说原著中,共同出现的场次为443次。所以安迪最后还是和小包总在一起了?从我们的分析结果来看是这样的……为奇点点蜡1秒钟。

另外我们还将人物关系网络用更直观的网络关系图的形式展现出来,如下图所示:

从图上来看,安迪俨然是人生赢家啊,左拥右抱不说,还霸占着辣么多小姑娘,简直羡煞旁人。反观奇点,人艰不拆,您老还是早觅出路的好。似乎第二女主非樊胜美莫属了,她既与各姐妹关系都十分密切,也与王柏川关系稳定,也是让大家十分欣慰。最值得关注的是,暗恋赵医生的关关,他俩的线呢?再仔仔细细端详一番,还是没找到,真考验眼神。

看到这里,大家可能会提出一个疑问,我们之前假设一个段落代表一个场景,但实际小说可能需要几个段落才能把一个场景讲完;按照之前的假设,我们会重复统计一些人物关系,也会遗漏一些人物关系。因此我们对方法进行改进,加入一个段落跨度的参数,用于定义一个场景。在我们的分析中,设定这个参数等于3,即在第i段出现的某个人物,除了和本段的其他人物有关系外,也和i+1段和i+2段出现的人物有关系。举个简单的例子,第i段抓取出的人物是曲筱绡和赵医生, 在第i+1段抓取的人物是安迪和奇点,在第i+2段没有抓取到这10个人物中的任何一位,于是计曲筱绡和赵医生、曲筱绡和安迪、曲筱绡和奇点、赵医生和安迪、赵医生和奇点的人物关系出现一次。

按照这种做法,最终我们得到关系密切程度排在前三名的3组人物关系如下:

安迪x樊胜美cp击败了安迪和小包总的官配,笔者不禁感叹,百合大法好!

画出的人物关系网络如下图所示:

不管怎么看,安迪都是人生赢家啊,其他人可以洗洗睡了。奇点,把你跟安迪放得再近,似乎也没多大用,哎。。。终于!换了一种算法,可以看到关关和赵医生了,不过和奇点一样,然并卵。果然本剧还是一部弘扬姐妹情的主旋律作品。

后续改进方向

本文在对人物关系的紧密程度进行分析时,认为出现在几个段落内的人物,彼此之间都是有关系的,但关系的紧密程度会被认为是一致的;然而现实中在一个场景里,会有事件主要人物和次要人物,他们之间的关系的紧密程度显然是不同的。于是在未来的分析中,可以考虑识别人物在小说中出现的位置,计算人物之间的距离,识别场景/事件里的主要人物和次要人物,以及他们之间的亲疏程度,赋予差异化的权重,从而更准确地反映人物关系的紧密程度。

此外,以我们现在的分析结果,曲筱绡和樊胜美这对人物关系在小说中出现的频次还略多于曲筱绡和赵医生,但我不能下结论说曲筱绡跟“樊大姐”的关系比跟她的“唐僧”还亲密。这是由于我们没有分析人物之间的情感关系造成的,因此在未来的分析中,还可以考虑引入情感分析。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2016-06-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI传送门

斯坦福大学《机器学习》课程-中文版内容(11.1)

该课程采用英文授课的方式,为了降低大家的学习门槛,aiportal团队将课程的核心内容整理成一套中文笔记,不定期在公众号内发布。

592
来自专栏YoungGy

MMD_5b_ComputationalAdvertising

OnlineAlgorithms 与Offline算法的对比 BipartiteMatching 例子 问题描述 一般用于Online场合 贪心算法 描述 算法...

1999
来自专栏企鹅号快讯

机器学习人工学2017/12/31

这周国外过节比较清净。注意下面很多链接需要开学上网,无奈国情如此 1. Facebook AML团队发文,从应用的角度披露了很多FB内部用的机器学习系统,其中S...

1907
来自专栏牛客网

算法工程师:双非渣硕是如何获得百度、京东双SP

本人本科硕士皆双非,和牛客大佬们没得比,目前拿到的还可以的offer就是百度SP和京东SP,都是做的推荐算法,其他的不说了。 先说一下个人经历吧,学校比较水,实...

6138
来自专栏AI传送门

斯坦福大学《机器学习》课程-中文版笔记(2.4)

985
来自专栏绿巨人专栏

读书笔记: 博弈论导论 - 18 - 不完整信息的动态博弈 信息传递和廉价谈判

3537
来自专栏量子位

人工智能技术入门该读哪些书?StackOverflow上最推荐这些

王小新 编译整理 量子位 出品 | 公众号 QbitAI 学习人工智能相关技术该读什么书?这是量子位各个微信群中出现频率极高的问题。 今天,我们就从Dev-bo...

3504
来自专栏机器学习人工学weekly

机器学习人工学2017/12/31

这周国外过节比较清净。注意下面很多链接需要开学上网,无奈国情如此 1. Facebook AML团队发文,从应用的角度披露了很多FB内部用的机器学习系统,其...

2626
来自专栏大学生计算机视觉学习DeepLearning

手指静脉识别质量评估预处理,手指静脉识别前预处理尺寸归一化切割图像部分大概过程浅析

3718
来自专栏AI传送门

斯坦福大学《机器学习》课程-中文版笔记(2.3)

1143

扫码关注云+社区