首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

R语言分词

本文挖掘是数据挖掘中一个非常重要的部分,我们可以对新闻事件进行分析,了解国家大事;也可以对微博信息进行分析,通过社交舆情看看大家的关注点。通过文本挖掘找到文章中的隐藏信息,对文章的结构进行分析,判断是不是同一个作者写文章等等。

本文挖掘的第一步,就是要进行分词,分词将直接影响文本挖掘的效果。R语言在分词方面有很好的支持,接下来就介绍一个R语言中文分词包jiebaR。

本文通过对17年和18年2年的年终总结文本分析和可视化,来说明jiebaR的使用方法。

#通过 CRAN 安装

install.packages("jiebaR")

【三种分词语句的写法】

使用默认参数,虽然写法不一样,但是分词的结果都是一样的。

【对txt文本分词】

like.txt文件在当前目录下面,utf-8的格式

运行分词程序,会在当前目录生成一个新的分词结果的文件。

【保留符号】

【自定义词】

添加用户自定义词到已经新建的分词器中,把“我的”和“桌位上”定义成两个词,默认是分开的。

【停止词】

停止词就是分词过程中,我们不需要作为结果的词,我们通常都会将这些词进行过滤。把"苏征涯"设置成不显示的词。

【词频统计】

【关键词统计】

【案例-2017年年终总结】

2017年总结关键词:"学习","计划","R","2018","时间" 。

【案例-2018年年终总结】

2018年总结关键词:"学习","完成","数据","可视化","R" 。

可见,学习和R语言在2017和2018年都是很重要。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190213G192PU00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券