前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >十九大讲话文本分析(R语言)

十九大讲话文本分析(R语言)

作者头像
三猫
发布2018-04-10 11:21:07
9960
发布2018-04-10 11:21:07
举报

18日观看了十九大的开幕直播,聆听了习大大的重要讲话,如此重要的讲话,怎能不结合我们的文本挖掘技术来深刻学习一下呢!这次的文章就让我们用R里面的jiebaR包和wordcloud2包,对习大大的讲话内容进行分词与统计,看看这次讲话都提到了什么?有哪些关键词?


  • jiebaR简介

1,worker( ):加载分词引擎。里面的type参数用来选择引擎类型,可选的有:混合模型‘mix’,最大概率法‘mp’,隐马尔科夫‘hmm’,关键词‘keywords’等。还有其他参数可以设置停用词,关键词数等,具体在加载了jiebaR包后,可以用help("worker")进行查看。

2,segment():在调用了分词引擎后,可以通过调用segment函数来进行分词。

  • wordcloud2简介

wordcloud2可以用来画词云,主要的函数为wordcloud2(),函数中的主要参数如下:

1,data:词云生成数据,包含具体词语以及频率

2,size:字体大小,一般来说该值越小,生成的形状轮廓越明显

3,fontFamily:字体,如‘微软雅黑’

4,fontWeight:字体粗细,包含‘normal’,‘bold’以及‘600’

5,color:字体颜色,可以选择‘random-dark’以及‘random-light’

6,backgroundColor:背景颜色

7,minRontatinmaxRontatin:字体旋转角度范围的最小值以及最大值

8,rotationRation:字体旋转比例,如设定为1,则全部词语都会发生旋转

9,shape:词云形状,‘cardioid’(苹果形),‘star’(星形),‘diamond’(钻石),‘triangle-forward’(三角形),‘triangle’(三角形),‘pentagon’(五边形)。也可以通过figPath参数导入图片地址,自定义词云形状

  • 讲话内容分析

将txt文件导入到R中,并载入相应的包。

wenben<-scan('D:\\十九大报告文本分析\\在中国共产党第十九次全国代表大会上的报告.txt',what='') library(jiebaR) library(wordcloud2)

接下来,调用分析引擎,进行分词,分词过程中,自定义了要除掉的停用词。分词后,统计词频,并根据频数由大到小排序,取前100个。

cut1<-worker(type="mix",stop_word='D:\\parttime\\公众号\\十九大报告文本分析\\rep.txt') seg<-segment(wenben,cut1) segfreq<-table(seg) segfreq <- sort(segfreq, decreasing = TRUE)[1:100] head(segfreq)

分词部分结果如下:

seg 发展 人民 社会主义 党 全面 实现 212 157 146 104 88 83

在进行了分词并统计了词频后,就可以绘制词云。我们首先通过自定义设置了词云的颜色,然后进行绘制。

js_color_fun = "function (word, weight) { return (weight > 140) ? '#D02090' : '#CDB5CD'; }" wordcloud2(segfreq,size=0.8,color = htmlwidgets::JS(js_color_fun),backgroundColor = "black",shape = "diamond", minRotation = -pi/2, maxRotation = -pi/2)

词云的结果充分印证了那句话“发展才是硬道理”啊,并且,我们的习大大一直把广大人民挂在心中,有木有!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-10-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习养成记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云直播
云直播(Cloud Streaming Services,CSS)为您提供极速、稳定、专业的云端直播处理服务,根据业务的不同直播场景需求,云直播提供了标准直播、快直播、云导播台三种服务,分别针对大规模实时观看、超低延时直播、便捷云端导播的场景,配合腾讯云视立方·直播 SDK,为您提供一站式的音视频直播解决方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档