R语言分析 老九门 到底谁是主角

作者:张聪

https://ask.hellobi.com/blog/Zason/4444

最近看了老九门,两大男主角都是颜值担当,我的朋友中有喜欢佛爷(陈伟霆),有的喜欢二爷(张艺兴)。从我的朋友中发现更多人倾向于张艺兴扮演的二爷,他们认为二爷(张艺兴)是男1号。

但是从出场次数和演员表排名佛爷(陈伟霆)都在二爷(张艺兴)之前。我一直认为佛爷(陈伟霆)是主演,也让我对这二位谁是主角产生的好奇。

于是决定用R语言进行文本统计一下,证明谁是男1,谁是男2。

目前关于R文本挖掘的方法已经有很多了,这里再简单介绍一下。进而论述结果。代码如下:

#####首先,加载所需要的工具包

######注意rJava需要jdk环境

library(rJava) 
library(Rwordseg) 
library("RColorBrewer") 
library("wordcloud")

##########接下来要自定义加载词,因为二月红并不是传统意义的词语,如果不单独加载会被分成二月,红。两个词。

##########加载方法有很多,本人选择最简单的加载单个词语方法insertWords,deleteWords为删除该词

####insertWords("二月红")

###deleteWords("二月红")

#接下来就是正常的统计词频

myfile<-read.csv(file.choose(),header=FALSE)
myfile.res <- myfile[myfile!=" "] 
myfile.words <- unlist(lapply(X = myfile.res,FUN = segmentCN))
myfile.words <- gsub(pattern="http:[a-zA-Z\\/\\.0-9]+","",myfile.words)
myfile.words <- gsub("\n","",myfile.words) 
myfile.words <- gsub(" ","",myfile.words)
myfile.words<-subset(myfile.words,nchar(as.character(myfile.words))>1)
myfile.freq <- table(unlist(myfile.words)) 
myfile.freq <- rev(sort(myfile.freq)) 
myfile.freq <- data.frame(word=names(myfile.freq), freq=myfile.freq);   
myfile.freq2=subset(myfile.freq, myfile.freq$freq>=2) 

#####从统计结果,可以看出佛爷出现的次数的确大于二月红

##将统计结果在画出词云展现一下,目前词云的形状可视化多种多样,本人用最简单的方式进行展现

#画图

mycolors <- brewer.pal(8,"Dark2") 
windowsFonts(myFont=windowsFont("华文彩云")) 
wordcloud(myfile.freq$word,myfile.freq$freq,min.freq=3,random.order=FALSE,random.color=FALSE,colors=mycolors,family="myFont")

从可视化展现看出佛爷字体大小大于二月红。

因此,从原著来讲,佛爷为男1,二月红为男2。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2016-07-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

如何利用机器学习和分布式计算来对用户事件进行聚类

1856
来自专栏吉浦迅科技

让NVIDIA Jetson AGX Xavier火力全开的秘密

之前我们写过让Jetson TX2火力全开的秘密,让大家知道命令行工具nvpmodel能够定义一组参数,从而有效地定义给定功率的性能。

2.4K3
来自专栏PPV课数据科学社区

diRblo|中文文本分析方便工具包chinese.misc简介(附文本样例)

现在NLP技术那么发达了,各种工具那么NB了,可是用R做文本分析的人居然还得为如何读文件不乱码、如何分词、如何统计词频这样的事犯难,也是醉了。如果老停留在这个水...

3188
来自专栏小樱的经验随笔

2018年高教社杯全国大学生数学建模竞赛B题解题思路

图1是一个智能加工系统的示意图,由8台计算机数控机床(Computer Number Controller,CNC)、1辆轨道式自动引导车(Rail Guide...

6924
来自专栏AI科技评论

开发 | 使用 Rodeo 分析总统候选人的推特内容

AI 科技评论按 :本文作者Datartisan,载于其知乎专栏——Datartisan数据工匠。AI 科技评论转载已获得原作者授权。 介绍 选举季已经到来,对...

37710
来自专栏take time, save time

桌面山寨版2048—逻辑篇之缓缓出现的细节像枫叶

      既然最终目的是能够让博客成为我的主平台,那么必然要采用一些方式方法,所以,如果想看第三部分--优化篇,请猛戳我的博客吧。 二、桌面山寨版2048—逻...

3526
来自专栏深度学习自然语言处理

详解中文维基百科数据处理流程及脚本代码

最近在做词向量相关工作,词向量的训练数据采用中文维基百科数据,训练之前,要对维基百科数据进行处理,这篇文章记录了一些处理过程及相关的脚本。

1942
来自专栏深度学习入门与实践

【原】Spark之机器学习(Python版)(二)——分类

  写这个系列是因为最近公司在搞技术分享,学习Spark,我的任务是讲PySpark的应用,因为我主要用Python,结合Spark,就讲PySpark了。然而...

2396
来自专栏编程

UG数控编程“新手必看”

1.坐标详解 1. 绝对坐标系:是模型空中的概念性位置和方向,将绝对坐标系为X=0,Y=0,Z=0.不可见不能移动。 2. 视图三重轴:是在建模最左下角有个正方...

21910
来自专栏人工智能头条

深度 | 图计算系统进展和展望

4254

扫码关注云+社区