前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >文本挖掘| 某作者文章的词频统计排序

文本挖掘| 某作者文章的词频统计排序

作者头像
黑妹的小屋
发布2020-08-06 15:09:29
7770
发布2020-08-06 15:09:29
举报

R语言之文本挖掘

其实,现在的互联网数据大多数是非结构化的,比如谷歌,雅虎,搜狐等网站的文本数据已经泛滥成灾。文本挖掘有很多的用处,比如了解患者对罕见癌症的关注度,统计政府演讲报告词频高低,情感分析,作家常用词等等,接下来了解一下喜欢的作者列夫·托尔斯泰的代表作品中的常用词有哪些?

01

下载Graf Leo Tolstoy作品

#下载Graf Leo Tolstoy(伯爵列夫·托尔斯泰)的代表作

《War and Peace》战争与和平

《Anna Karenina》安娜·卡列尼娜

《The Awakening》复活

《Best Russian Short Stories》俄国短篇小说

进入官网http://www.gutenberg.org查找相应书籍的ebooks的编号。利用gutenberg_download()函数下载。

>tolstoy<gutenberg_download(c(2600,1399,17352,13437))
>tolstoy

02

分词

> library(tidytext)
> tidy_tolstoy<-tolstoy%>%unnest_tokens(word,text)
> tidy_tolstoy

3

删除停用词

#首先查看一下停用词

> data(stop_words)
> View(stop_words)

#删除停用词

>tidy_tolstoy_stop<-tidy_tolstoy%>%anti_join(stop_words)

04

统计词个数并降序

> tidy_tolstoy_stop%>%count(word,sort=TRUE)

#可以对比一下删除停用词前后的结果

>tidy_tolstoy%>%count(word,sort=TRUE)

05

#绘图

#把word出现次数n>1000的进行绘图

>library(ggplot2)
> tidy_tolstoy_stop%>%count(word,sort=TRUE)%>%filter(n>1000)
%>%mutate(word=reorder(word,n))%>%ggplot(aes(word,n))
+geom_col(color="grey20",fill="#336A97")+ylab("Number")
+labs(title="Leo Tolstoy's masterpiece",caption="Origin:http://www.gutenberg.ory
+ Desigener:LXL")+coord_flip()+theme(plot.title = element_text(face = "bold",
hjust = 0.5,size=20,color = "black"),plot.caption = element_text(face = "bold",size = 10),
panel.grid=element_blank(),panel.background=element_rect(fill='grey90'),
axis.text.x=element_blank())

小结

通过比较,可知列夫·托尔斯泰的代表作品《War and Peace》战争与和平、《Anna Karenina》安娜·卡列尼娜、《The Awakening》复活、《Best Russian Short Stories》俄国短篇小说中出现频率最高的是prince,其次是time.....此外,利用文本挖掘工具,我们还可以了解历年英语考研真题/专业考研题目中出现频率最高的有哪些?为考研顺利上岸设计有针对性的复习重点。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-07-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 菜鸟学数据分析之R语言 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档