十九大讲话文本分析(R语言)

18日观看了十九大的开幕直播,聆听了习大大的重要讲话,如此重要的讲话,怎能不结合我们的文本挖掘技术来深刻学习一下呢!这次的文章就让我们用R里面的jiebaR包和wordcloud2包,对习大大的讲话内容进行分词与统计,看看这次讲话都提到了什么?有哪些关键词?


  • jiebaR简介

1,worker( ):加载分词引擎。里面的type参数用来选择引擎类型,可选的有:混合模型‘mix’,最大概率法‘mp’,隐马尔科夫‘hmm’,关键词‘keywords’等。还有其他参数可以设置停用词,关键词数等,具体在加载了jiebaR包后,可以用help("worker")进行查看。

2,segment():在调用了分词引擎后,可以通过调用segment函数来进行分词。

  • wordcloud2简介

wordcloud2可以用来画词云,主要的函数为wordcloud2(),函数中的主要参数如下:

1,data:词云生成数据,包含具体词语以及频率

2,size:字体大小,一般来说该值越小,生成的形状轮廓越明显

3,fontFamily:字体,如‘微软雅黑’

4,fontWeight:字体粗细,包含‘normal’,‘bold’以及‘600’

5,color:字体颜色,可以选择‘random-dark’以及‘random-light’

6,backgroundColor:背景颜色

7,minRontatinmaxRontatin:字体旋转角度范围的最小值以及最大值

8,rotationRation:字体旋转比例,如设定为1,则全部词语都会发生旋转

9,shape:词云形状,‘cardioid’(苹果形),‘star’(星形),‘diamond’(钻石),‘triangle-forward’(三角形),‘triangle’(三角形),‘pentagon’(五边形)。也可以通过figPath参数导入图片地址,自定义词云形状

  • 讲话内容分析

将txt文件导入到R中,并载入相应的包。

wenben<-scan('D:\\十九大报告文本分析\\在中国共产党第十九次全国代表大会上的报告.txt',what='') library(jiebaR) library(wordcloud2)

接下来,调用分析引擎,进行分词,分词过程中,自定义了要除掉的停用词。分词后,统计词频,并根据频数由大到小排序,取前100个。

cut1<-worker(type="mix",stop_word='D:\\parttime\\公众号\\十九大报告文本分析\\rep.txt') seg<-segment(wenben,cut1) segfreq<-table(seg) segfreq <- sort(segfreq, decreasing = TRUE)[1:100] head(segfreq)

分词部分结果如下:

seg 发展 人民 社会主义 党 全面 实现 212 157 146 104 88 83

在进行了分词并统计了词频后,就可以绘制词云。我们首先通过自定义设置了词云的颜色,然后进行绘制。

js_color_fun = "function (word, weight) { return (weight > 140) ? '#D02090' : '#CDB5CD'; }" wordcloud2(segfreq,size=0.8,color = htmlwidgets::JS(js_color_fun),backgroundColor = "black",shape = "diamond", minRotation = -pi/2, maxRotation = -pi/2)

词云的结果充分印证了那句话“发展才是硬道理”啊,并且,我们的习大大一直把广大人民挂在心中,有木有!

原文发布于微信公众号 - 机器学习养成记(chenchenwings)

原文发表时间:2017-10-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据小魔方

竟然是一个升级版的数据透视表,Tableau真的没有那么神秘~

前一篇跟大家详述了关于Excel在作图理念上的诸多细节,今天让我们把聚焦于多分类维度的数据呈现问题。 当然今天这篇我会把视角从Excel切换到Tableau,没...

9827
来自专栏思影科技

《大话脑成像》系列之七 —— 模板(mask)

前言:时光飞逝,岁月匆匆,不知不觉我们大话脑成像系列已经走过六期,在这六期里我们与读者共同渡过了一段美好的时光,相信你如果完全理解了我写的内容的话,你们...

46210
来自专栏MixLab科技+设计实验室

用代码生成Glitch Art风格的抖音字体

最近看到不少文章教大家用 photoshop 实现抖音的 logo 跟字体,我也非常喜欢这种风格的字体,于是趁着晚上的时间,动手用代码实现了下此类风格的字体特效...

8966
来自专栏数据小魔方

创意玫瑰图(Rose chart)

今天跟大家分享的图表是创意玫瑰图! ▽▼▽ 这种图表形似玫瑰,故而得名,其效果与我们常用的饼图,圆环图及雷达图类似。 ? 可以反映数据结构的比例、大小,但因其形...

41410
来自专栏WOLFRAM

用Wolfram语言玩转&我的世界&(Minecraft)

不久前,我分享了一个软件包,用于从安装在 Raspberry Pi或另一台计算机上的 Mathematica 控制 Pi 版的 Minecraft。 您可以使用...

2072
来自专栏小白课代表

有了它,图片放大100倍不是梦

1794
来自专栏小詹同学

20秒画完小猪佩奇“社会人”,程序猿的手法是你想不到的独特

今年社交平台上最火的带货女王是谁?范冰冰?杨幂?Angelababy?不,是猪猪女孩小猪佩奇。

1481
来自专栏拂晓风起

Flash:利用Bitmapdata,ColorTransform,DrawPath,制造绚丽效果

1032
来自专栏大数据文摘

学交互 | 使用Tableau制作的可参考交互图

2787
来自专栏前端儿

小明的调查作业

小明的老师布置了一份调查作业,小明想在学校中请一些同学一起做一项问卷调查,聪明的小明为了实验的客观性,想利用自己的计算机知识帮助自己。他先用计算机生成了N个1到...

1101

扫码关注云+社区