前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >R语言挖掘二十大报告关键词

R语言挖掘二十大报告关键词

作者头像
Listenlii-生物信息知识分享
发布2022-12-07 18:43:22
6020
发布2022-12-07 18:43:22
举报

万众瞩目的二十大正在如火如荼的召开,哪些方面是国家建设的重点是每个人都非常关心的话题。

本文在R语言中通过Rwordseg包将二十大报告内容进行分词,然后用wordcloud2包对关键词进行词云展示。 二十大报告全文在网上一搜就能找到,下载存为txt格式。

代码语言:javascript
复制
library(Rwordseg)
library(wordcloud2)

#读入文件
report <- readLines("二十大报告.txt",encoding = 'UTF-8')
head(report,20)

读进来的格式如下,一段是一个字符:

代码语言:javascript
复制
#通过Rwordseg包的segmentCN函数分词
words <- segmentCN(strwords = report,analyzer = "hmm",returnType = "vector")

#将列表转化为向量
words <- unlist(words)

分完词的结果如下,还是非常智能的:

结果中会存在一些空字符和一个字的字符,把这部分去掉:

代码语言:javascript
复制
#去掉空的字符和一个字的字符
words <- words[nchar(words)>1]

#得到出现次数最高的200个词。个数可以自己定。
key <- sort(table(words),decreasing = TRUE)[1:200]
key

#wordcloud2包进行词云展示:
wordcloud2(key,shape = "star",size=.7,
           color = rep_len(c("#d80000","#be0000","#a50000","#8b0000","#720000"),
                            length(key)))

从词云中可以看出,中国、人民、社会、发展、坚持、主义等等词出现频率很高。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-10-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Listenlii 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档