R语言分析 老九门 到底谁是主角

作者:张聪

https://ask.hellobi.com/blog/Zason/4444

最近看了老九门,两大男主角都是颜值担当,我的朋友中有喜欢佛爷(陈伟霆),有的喜欢二爷(张艺兴)。从我的朋友中发现更多人倾向于张艺兴扮演的二爷,他们认为二爷(张艺兴)是男1号。

但是从出场次数和演员表排名佛爷(陈伟霆)都在二爷(张艺兴)之前。我一直认为佛爷(陈伟霆)是主演,也让我对这二位谁是主角产生的好奇。

于是决定用R语言进行文本统计一下,证明谁是男1,谁是男2。

目前关于R文本挖掘的方法已经有很多了,这里再简单介绍一下。进而论述结果。代码如下:

#####首先,加载所需要的工具包

######注意rJava需要jdk环境

library(rJava) 
library(Rwordseg) 
library("RColorBrewer") 
library("wordcloud")

##########接下来要自定义加载词,因为二月红并不是传统意义的词语,如果不单独加载会被分成二月,红。两个词。

##########加载方法有很多,本人选择最简单的加载单个词语方法insertWords,deleteWords为删除该词

####insertWords("二月红")

###deleteWords("二月红")

#接下来就是正常的统计词频

myfile<-read.csv(file.choose(),header=FALSE)
myfile.res <- myfile[myfile!=" "] 
myfile.words <- unlist(lapply(X = myfile.res,FUN = segmentCN))
myfile.words <- gsub(pattern="http:[a-zA-Z\\/\\.0-9]+","",myfile.words)
myfile.words <- gsub("\n","",myfile.words) 
myfile.words <- gsub(" ","",myfile.words)
myfile.words<-subset(myfile.words,nchar(as.character(myfile.words))>1)
myfile.freq <- table(unlist(myfile.words)) 
myfile.freq <- rev(sort(myfile.freq)) 
myfile.freq <- data.frame(word=names(myfile.freq), freq=myfile.freq);   
myfile.freq2=subset(myfile.freq, myfile.freq$freq>=2) 

#####从统计结果,可以看出佛爷出现的次数的确大于二月红

##将统计结果在画出词云展现一下,目前词云的形状可视化多种多样,本人用最简单的方式进行展现

#画图

mycolors <- brewer.pal(8,"Dark2") 
windowsFonts(myFont=windowsFont("华文彩云")) 
wordcloud(myfile.freq$word,myfile.freq$freq,min.freq=3,random.order=FALSE,random.color=FALSE,colors=mycolors,family="myFont")

从可视化展现看出佛爷字体大小大于二月红。

因此,从原著来讲,佛爷为男1,二月红为男2。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2016-07-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏生信技能树

TCGA的28篇教程- 使用R语言的RTCGAToolbox包获取TCGA数据

前些天被TCGA的终结新闻刷屏,但是一直比较忙,还没来得及仔细研读,但是笔记本躺着的一些TCGA教程快发霉了,借此契机好好整理一下吧,预计28篇教程!

1863
来自专栏新工科课程建设探讨——以能源与动力工程专业为例

3.1.3 绘制三维Contour图的思路

2007年秋,开始接触数值计算,看到Contour图形,我觉得很神奇,很好看。强烈的好奇心驱使下,零零碎碎看了相关文献,都看不懂。大约2009年深秋,我读到的最...

800
来自专栏FreeBuf

DIY天线自动追踪系统OpenATS

* 本文原创作者:OpenATS,本文属FreeBuf原创奖励计划,未经许可禁止转载 ? 一、说在前面 SDR的出现让我们穷人用上了高大上的东西,可...

24910
来自专栏Android 技术栈

Macbook Pro键帽拆解安装图文教程

前段时间把可乐洒在电脑上了,大概有1/5的罐装可乐,紧急之下把电脑翻转过来,万幸的是电脑没出问题。就是过了两天之后,键盘黏黏的,特别是空格键。 送修的话,这属...

5961
来自专栏钱塘大数据

数据挖掘的数据集资源

UCI数据集是一个常用的标准测试数据集,下载地址在 http://www.ics.uci.edu/~mlearn/MLRepository.html 整理好...

4126
来自专栏应兆康的专栏

计算机网络笔记 —— 物理层 2

让多个用户共享同一根信道,复用技术是干线上的技术,主要问题在于干线起点如何共用,干线终点如何分离的。

571
来自专栏生信技能树

【直播】我的基因组52:X和Y染色体的同源区域探索

很久以前,我其实就遇到过通过NGS测序数据来判定性别的难题(搜索我博客即可查看详情),本次探究自己的基因组得到的统计结果与常识不符,所以我可以肯定是我们的常识太...

28811
来自专栏大数据文摘

学会了玩街霸Ⅱ的AI,你怕不怕?

1545
来自专栏生信技能树

一篇文章学会ChIP-seq分析(上)

写在前面:《一篇文章学会ChIP-seq分析(上)》《一篇文章学会ChIP-seq分析(下)》为生信菜鸟团博客相关文章合集,共九讲内容。带领你从相关文献解读、资...

1.1K6
来自专栏PPV课数据科学社区

用R进行文本挖掘与分析:分词、画词云

要分析文本内容,最常见的分析方法是提取文本中的词语,并统计频率。频率能反映词语在文本中的重要性,一般越重要的词语,在文本中出现的次数就会越多。词语提取后,还可以...

3274

扫码关注云+社区