R语言分析 老九门 到底谁是主角

作者:张聪

https://ask.hellobi.com/blog/Zason/4444

最近看了老九门,两大男主角都是颜值担当,我的朋友中有喜欢佛爷(陈伟霆),有的喜欢二爷(张艺兴)。从我的朋友中发现更多人倾向于张艺兴扮演的二爷,他们认为二爷(张艺兴)是男1号。

但是从出场次数和演员表排名佛爷(陈伟霆)都在二爷(张艺兴)之前。我一直认为佛爷(陈伟霆)是主演,也让我对这二位谁是主角产生的好奇。

于是决定用R语言进行文本统计一下,证明谁是男1,谁是男2。

目前关于R文本挖掘的方法已经有很多了,这里再简单介绍一下。进而论述结果。代码如下:

#####首先,加载所需要的工具包

######注意rJava需要jdk环境

library(rJava) 
library(Rwordseg) 
library("RColorBrewer") 
library("wordcloud")

##########接下来要自定义加载词,因为二月红并不是传统意义的词语,如果不单独加载会被分成二月,红。两个词。

##########加载方法有很多,本人选择最简单的加载单个词语方法insertWords,deleteWords为删除该词

####insertWords("二月红")

###deleteWords("二月红")

#接下来就是正常的统计词频

myfile<-read.csv(file.choose(),header=FALSE)
myfile.res <- myfile[myfile!=" "] 
myfile.words <- unlist(lapply(X = myfile.res,FUN = segmentCN))
myfile.words <- gsub(pattern="http:[a-zA-Z\\/\\.0-9]+","",myfile.words)
myfile.words <- gsub("\n","",myfile.words) 
myfile.words <- gsub(" ","",myfile.words)
myfile.words<-subset(myfile.words,nchar(as.character(myfile.words))>1)
myfile.freq <- table(unlist(myfile.words)) 
myfile.freq <- rev(sort(myfile.freq)) 
myfile.freq <- data.frame(word=names(myfile.freq), freq=myfile.freq);   
myfile.freq2=subset(myfile.freq, myfile.freq$freq>=2) 

#####从统计结果,可以看出佛爷出现的次数的确大于二月红

##将统计结果在画出词云展现一下,目前词云的形状可视化多种多样,本人用最简单的方式进行展现

#画图

mycolors <- brewer.pal(8,"Dark2") 
windowsFonts(myFont=windowsFont("华文彩云")) 
wordcloud(myfile.freq$word,myfile.freq$freq,min.freq=3,random.order=FALSE,random.color=FALSE,colors=mycolors,family="myFont")

从可视化展现看出佛爷字体大小大于二月红。

因此,从原著来讲,佛爷为男1,二月红为男2。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2016-07-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏生信宝典

高通量数据分析必备|基因组浏览器使用介绍 - 3

前面两篇文章(高通量数据分析必备|基因组浏览器使用介绍 - 1和高通量数据分析必备|基因组浏览器使用介绍 - 2)介绍了EPGG的基本使用、各部分特征、Trac...

895
来自专栏牛客网

37互娱现场java一面

总结:做抽象过程的时候,当时没有理解清楚他的意思,我想的是怎么去设计邮件快递发送的系统,他想的是抽象类出来。gg。其实我也挺重视这次面试的,昨晚睡不着,推演了...

381
来自专栏Android群英传

贝塞尔曲线开发的艺术

932
来自专栏Python中文社区

基于TF-IDF算法抽取文章关键词

專 欄 ❈yonggege,Python中文社区专栏作者 博客:https://www.zhihu.com/people/yonggege ❈ 0. 写在前面...

3019
来自专栏生信技能树

为什么要学习编程?

帮同学处理一下他从公司拿到的差异分析结果,当然,给我的是Excel表格,老规矩,导出csv然后读入R,然后准备顺手画个火山图,做个GO/KEGG富集分析。下意识...

3318
来自专栏coding

写下这行代码时,只有我和上帝知道是怎么回事01.烂代码的路径依赖02.对于烂代码应采取零容忍03.代码规范的重要性04.文档的重要性

"算了,这里的代码有说不清的玄机,重构相当于在给自己挖更大的坑,还是按照原来的写法吧..."

503
来自专栏BestSDK

勾引程序员的11个方法,第4招百试不爽

一、写纯文本格式的邮件 ? 程序员通常不喜欢你那些花里胡哨的邮件——比如粉红的标题、粗体的HTML格式的邮件内容、并且还内嵌图片。他们喜欢的是简洁命令的纯文字表...

30210
来自专栏PPV课数据科学社区

【学习】笨办法学R编程(一)

在倚天屠龙记中,有一人唤作火工头陀。此人练功不靠心法,只靠模仿他人招式,由外而内,自成一家。练习编程也有如此的法门,不看文字描述,只观察和模仿别人...

3045
来自专栏IT派

讲解 Vision 图像识别框架 API详解

本篇文章主要简单介绍下其中的 Vision API 的使用(Vision更强大的地方是可以结合Core ML模型实现更强大的功能,本篇文章就不详细展开了) Vi...

3376
来自专栏IT派

程序员那些牛逼闪闪的禁术,看到第二条我就忍不住哈哈哈哈哈哈哈哈

在和产品经理进行需求对峙时,一本正经地把不好/不想实现的功能通过玄学等方式口述出来,让产品经理当场懵逼,知难而退。

1260

扫描关注云+社区