前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >R语言怎么给中文分词?

R语言怎么给中文分词?

作者头像
IT阅读排行榜
发布2018-08-16 15:36:04
8820
发布2018-08-16 15:36:04
举报
文章被收录于专栏:华章科技
准备包

①rJava包

② Rwordseg包

③java环境

④搜狗词库(此为扩展词库)

Rwordseg包依赖于rJava包。由于Rwordseg包并没有托管在CRAN上面,而是在R-Forge上面,因此在在R软件上面直接输入install.packages("Rwordseg")会提示错误。

因此,我们需要在软件菜单栏点击“程序包”

选择软件库 在选择R-Forge 即可,然后输入install.packages("Rwordseg")应该就OK了。或者输入下面代码:

一切准备工作做好了我们就可以进行分词了。首先加载我们所需要的包。然后对“ 我非常喜欢《跟着菜鸟一起学R语言》这个微信公众号 ”这句话进行分词。

分词结果为:

"我" "非常" "喜欢" "跟" "着" "菜" "鸟" "一起" "学" "R语言" "这个" "微信" "公众" "号"

我们可以发现这个分词有问题,比如说 “菜鸟”和“公众号”是一个词,但这里却分开了。我们该怎么处理呢?Rwordseg包里面提供了一个insertWords函数,具体如下:

这就是insertWords函数,其中save参数是指“是否把这个词保存到词典里面”。

这样的话,“菜鸟”和 “公众号”就成两个词了。再次运行

结果为:

"我" "非常" "喜欢" "跟" "着" "菜鸟" "一起" "学" "R语言" "这个" "微信" "公众号"

但是如果我们不需要“菜鸟”这个分词了怎么办,这个时候我们就可以使用deleteWords()函数来从词典中删除这个分词。

这次我们在看看结果。

"我" "非常" "喜欢" "跟" "着" "菜" "鸟" "一起" "学" "R语言" "这个" "微信" "公众" "号"

接下来我们使用一下搜狗的扩展词库,由于电影跟新速度较快,我这里下载了搜狗的热门电影大全词库,如何加载使用搜狗词库,点击可以我的另外一条推送。

59391 words were loaded! ... New dictionary 'movie' was installed!

我把下载的词库放在了当前的工作目录下面了,所以直接输入词典名,没有添加地址。加载了该词典。如果出现上面的句子则表示这个词典加载成功了,我们命名为movie。

现在我们来测试一下面这个句子: 你喜欢看最后的巫师猎人吗

"你" "喜欢" "看" "最后的巫师猎人" "吗"

可以看到“最后的巫师猎人”是一个词,如何我们把movie这个词典删除点会怎么样呢?

"你" "喜欢" "看" "最后" "的" "巫师" "猎人" "吗"

其实加载搜狗词典的话我们就不用自己定义词典,就比如前面我们往词典里面插入“菜鸟”和“微信公众号”一样。这样可以很方便的分词,也省去了自己新建词典的时间。

END

版权声明:

转载文章均来自公开网络,仅供学习使用,不会用于任何商业用途,如果出处有误或侵犯到原作者权益,请与我们联系删除或授权事宜,联系邮箱:holly0801@163.com。转载大数据公众号文章请注明原文链接和作者,否则产生的任何版权纠纷与大数据无关。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-06-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据DT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档