require(Rwordseg)分析案例展示(未去冠词以及无意义的词)

看网络上很多朋友都在用“Rwordseg”程序包进行分词练习。我也忍不住进行了一次实验。 首先,肯定是装程序包了,个人感觉是废话,纯凑字数。 如下是我进行的联系,在网上找了一篇关于范爷的专访,看看能看出来什么吧。 =========================================================================== #第一步,文本分词 require(Rwordseg) test<- readLines("E:\\FBB1.txt",encoding='UTF-8')    #读取数据 res = test[test != " "]   #读取test,且剔除test=“ ” words = unlist(lapply(X = res,FUN = segmentCN))   #分词,并调整表结构,将有相同词频的词归类 word = lapply(X = words,FUN = strsplit," ")    #给每个词根据顺序赋个顺序指 v = table(unlist(word))    #重建表 v = sort(v,deceasing=T)    #降序排列 v[1:100] head(v)    #给每列字段赋标题 d = data.frame(word = names(v),freq = v)    #更改标题 write.csv(d,"E:\\学习.csv",header = T)   #导出数据,为下一步做准备 #第二部,做文本云图 require(wordcloud) dd = tail(d,150)    #取数据框的最后150行数据 op = par(bg = "lightyellow")   #背景为亮黄色 #rainbowLevels = rainbow((dd$freq)/(max(dd$freq) - 10))   #不知道什么意义,删除后图形无太大变化 wordcloud(dd$word, dd$freq, col = rainbow(length(d$freq))) par(op) ===================================================================================== 成图

=========================================================================== 因为没有提出冠词等无意义的词语,所以可能也看不出来什么有意义的地方。大家权当一看。日后会有更深入的分析的。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏落影的专栏

基于视锥体(平截体)的OpenGL ES性能优化

教程 OpenGLES入门教程1-Tutorial01-GLKit OpenGLES入门教程2-Tutorial02-shader入门 OpenGLES入门...

36770
来自专栏数据结构与算法

ZR#317.【18 提高 2】A(计算几何 二分)

到不是说有多难,关键是细节太多了,我和wcz口胡了一下我的思路,然后他写了一晚上没调出来qwq

7920
来自专栏数据小魔方

R语言数据地图——全球填色地图

今天这篇是昨天美国地图的续篇,同样的方法技巧,不同的对象。 整个过程以及代码并没有太大差别,只要拿到世界地图素材,根据之前的代码,自己修改参数和指标名称以及引用...

1.7K70
来自专栏自然语言处理

结巴中文分词原理分析4

本机是win10 64位,已经安装了pip工具,关于pip下载安装(here),然后win+R,输入pip install jieba,效果如下:

13620
来自专栏华仔的技术笔记

SceneKitScene Kit 概要节点 (Nodes)光照动画开始用 Scene Kit 写游戏扩展默认渲染流程延时着色

38780
来自专栏人工智能LeadAI

拼图游戏和它的AI算法

写了个拼图游戏,探讨一下相关的AI算法。拼图游戏的复原问题也叫做N数码问题。 拼图游戏 N数码问题 广度优先搜索 双向广度优先搜索 A*搜索 游戏设定 实现一个...

662110
来自专栏Crossin的编程教室

【编程课堂】jieba-中文分词利器

0、前言 在之前的文章【编程课堂】词云 wordcloud 中,我们曾使用过 jieba 库,当时并没有深入讲解,所以本次将其单独列出来详细讲解。 jieba库...

395110
来自专栏Crossin的编程教室

【Pygame 第12课】 屡败屡战

打飞机游戏,我们已经做得差不多了。今天要再加上两个功能,让它看上去更完整:显示分数、重新开始。这样,玩家才能一次接一次地玩下去。 要显示分数,首先得有一个变量记...

31750
来自专栏逍遥剑客的游戏开发

Direct3D学习(七):DirectX下天空盒子的实现

25650
来自专栏PPV课数据科学社区

从0到1掌握R语言网络爬虫

引言 网上的数据和信息无穷无尽,如今人人都用百度谷歌来作为获取知识,了解新鲜事物的首要信息源。所有的这些网上的信息都是直接可得的,而为了满足日益增长的数据需求,...

52640

扫码关注云+社区

领取腾讯云代金券