十九大讲话文本分析(R语言)

18日观看了十九大的开幕直播,聆听了习大大的重要讲话,如此重要的讲话,怎能不结合我们的文本挖掘技术来深刻学习一下呢!这次的文章就让我们用R里面的jiebaR包和wordcloud2包,对习大大的讲话内容进行分词与统计,看看这次讲话都提到了什么?有哪些关键词?


  • jiebaR简介

1,worker( ):加载分词引擎。里面的type参数用来选择引擎类型,可选的有:混合模型‘mix’,最大概率法‘mp’,隐马尔科夫‘hmm’,关键词‘keywords’等。还有其他参数可以设置停用词,关键词数等,具体在加载了jiebaR包后,可以用help("worker")进行查看。

2,segment():在调用了分词引擎后,可以通过调用segment函数来进行分词。

  • wordcloud2简介

wordcloud2可以用来画词云,主要的函数为wordcloud2(),函数中的主要参数如下:

1,data:词云生成数据,包含具体词语以及频率

2,size:字体大小,一般来说该值越小,生成的形状轮廓越明显

3,fontFamily:字体,如‘微软雅黑’

4,fontWeight:字体粗细,包含‘normal’,‘bold’以及‘600’

5,color:字体颜色,可以选择‘random-dark’以及‘random-light’

6,backgroundColor:背景颜色

7,minRontatinmaxRontatin:字体旋转角度范围的最小值以及最大值

8,rotationRation:字体旋转比例,如设定为1,则全部词语都会发生旋转

9,shape:词云形状,‘cardioid’(苹果形),‘star’(星形),‘diamond’(钻石),‘triangle-forward’(三角形),‘triangle’(三角形),‘pentagon’(五边形)。也可以通过figPath参数导入图片地址,自定义词云形状

  • 讲话内容分析

将txt文件导入到R中,并载入相应的包。

wenben<-scan('D:\\十九大报告文本分析\\在中国共产党第十九次全国代表大会上的报告.txt',what='') library(jiebaR) library(wordcloud2)

接下来,调用分析引擎,进行分词,分词过程中,自定义了要除掉的停用词。分词后,统计词频,并根据频数由大到小排序,取前100个。

cut1<-worker(type="mix",stop_word='D:\\parttime\\公众号\\十九大报告文本分析\\rep.txt') seg<-segment(wenben,cut1) segfreq<-table(seg) segfreq <- sort(segfreq, decreasing = TRUE)[1:100] head(segfreq)

分词部分结果如下:

seg 发展 人民 社会主义 党 全面 实现 212 157 146 104 88 83

在进行了分词并统计了词频后,就可以绘制词云。我们首先通过自定义设置了词云的颜色,然后进行绘制。

js_color_fun = "function (word, weight) { return (weight > 140) ? '#D02090' : '#CDB5CD'; }" wordcloud2(segfreq,size=0.8,color = htmlwidgets::JS(js_color_fun),backgroundColor = "black",shape = "diamond", minRotation = -pi/2, maxRotation = -pi/2)

词云的结果充分印证了那句话“发展才是硬道理”啊,并且,我们的习大大一直把广大人民挂在心中,有木有!

原文发布于微信公众号 - 机器学习养成记(chenchenwings)

原文发表时间:2017-10-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏BestSDK

最实用的6个设计排版准则

作为一个设计师的最重要技能之一就是你要学习如何去选择排版。这是因为文本是设计师与用户沟通的主要方式之一。排版能成就你的设计,也能毁灭你的设计。 一个美观又复杂的...

32040
来自专栏数据小魔方

竟然是一个升级版的数据透视表,Tableau真的没有那么神秘~

前一篇跟大家详述了关于Excel在作图理念上的诸多细节,今天让我们把聚焦于多分类维度的数据呈现问题。 当然今天这篇我会把视角从Excel切换到Tableau,没...

1.2K70
来自专栏数据小魔方

交叉柱形图

今天继续跟大家分享一组交叉柱形图的制作技巧! 该图表是从一本图表书中看到的,可以在同一幅图表中以两种视角展示同一组年度数据指标,步骤相对比较复杂,甚至有点炫技之...

42270
来自专栏量子位

三分钟训练眼球追踪术,AI就知道你在盯着哪个妹子 | TensorFlow.js代码

如果有个眼球追踪AI,加上人脸识别,或许就能在被老板盯上的瞬间,进入奋力工作模式。

1K30
来自专栏hightopo

原 透过WebGL 3D看动画Easing

10510
来自专栏MixLab科技+设计实验室

用代码生成Glitch Art风格的抖音字体

最近看到不少文章教大家用 photoshop 实现抖音的 logo 跟字体,我也非常喜欢这种风格的字体,于是趁着晚上的时间,动手用代码实现了下此类风格的字体特效...

1.1K60
来自专栏WOLFRAM

用Wolfram语言玩转&我的世界&(Minecraft)

不久前,我分享了一个软件包,用于从安装在 Raspberry Pi或另一台计算机上的 Mathematica 控制 Pi 版的 Minecraft。 您可以使用...

44820
来自专栏思影科技

《大话脑成像》系列之七 —— 模板(mask)

前言:时光飞逝,岁月匆匆,不知不觉我们大话脑成像系列已经走过六期,在这六期里我们与读者共同渡过了一段美好的时光,相信你如果完全理解了我写的内容的话,你们...

532100
来自专栏宋凯伦的技术小栈

Android - 开发页面需了解的dip,sp,px知识,以及它们的转换

工作中,时常会有任务要求开发新页面,这时一般的流程是产品经理确定要开发的页面和功能,然后设计师提供设计稿,之后由我们开发人员完成开发工作。 通常,设计师提供的设...

21980
来自专栏逍遥剑客的游戏开发

GDC2016: Animating With Math

30480

扫码关注云+社区

领取腾讯云代金券