数据饕餮-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

数据饕餮

专栏成员

227

文章

221420

阅读量

60

订阅数

R语言之中文分词：实例

数据分析大数据处理套件 TBDS 数据处理

#调入分词的库 library("rJava") library("Rwordseg") #调入绘制词云的库 library("RColorBrewer") library("wordcloud") #读入数据(特别注意，read.csv竟然可以读取txt的文本) myfile<-read.csv(file.choose(),header=FALSE) #预处理，这步可以将读入的文本转换为可以分词的字符，没有这步不能分词 myfile.res <- myfile[myfile!=" "] #分词，并将分词结果转换为向量 myfile.words <- unlist(lapply(X = myfile.res,FUN = segmentCN)) #剔除URL等各种不需要的字符，还需要删除什么特殊的字符可以依样画葫芦在下面增加gsub的语句 myfile.words <- gsub(pattern="http:[a-zA-Z\\/\\.0-9]+","",myfile.words) myfile.words <- gsub("\n","",myfile.words) myfile.words <- gsub("　","",myfile.words) #去掉停用词 data_stw=read.table(file=file.choose(),colClasses="character") stopwords_CN=c(NULL) for(i in 1:dim(data_stw)[1]){ stopwords_CN=c(stopwords_CN,data_stw[i,1]) } for(j in 1:length(stopwords_CN)){ myfile.words <- subset(myfile.words,myfile.words!=stopwords_CN[j]) } #过滤掉1个字的词 myfile.words <- subset(myfile.words, nchar(as.character(myfile.words))>1) #统计词频 myfile.freq <- table(unlist(myfile.words)) myfile.freq <- rev(sort(myfile.freq)) #myfile.freq <- data.frame(word=names(myfile.freq),freq=myfile.freq); #按词频过滤词，过滤掉只出现过一次的词，这里可以根据需要调整过滤的词频数 #特别提示：此处注意myfile.freq$Freq大小写 myfile.freq2=subset(myfile.freq, myfile.freq$Freq>=10) #绘制词云 #设置一个颜色系： mycolors <- brewer.pal(8,"Dark2") #设置字体 windowsFonts(myFont=windowsFont("微软雅黑")) #画图 wordcloud(myfile.freq2$word,myfile.freq2$Freq,min.freq=10,max.words=Inf,random.order=FALSE, random.color=FALSE,colors=mycolors,family="myFont")

2019-01-14

8070

Redis内存数据库操作命令详解

大数据处理套件 TBDS 数据处理

rename(oldname, newname)：将key由oldname重命名为newname，若newname存在则删除newname表示的key

2019-01-14

5260

大数据应用日志采集之Scribe 安装配置指南

大数据处理套件 TBDS 大数据

Scribe是Facebook开源的日志收集系统，在Facebook内部已经得到大量的应用。它能从各种日志源收集日志，存储到一个中央存储系统上，便于进行集中统计分析处理。它为日志的”分布式收集，统一处理”提供了一个可扩展的，高容错的方案。scribe代码很简单，但是安装配置却很复杂，本文记录了作者实际的一次安装的过程，感觉真是不一般的琐碎，另外Scribe开源社区的版本已经是几年前的版本了，最新的维护信息一致没有看到，HDFS和Thrift的版本使用的都是比较旧的版本，考虑另开一个分支，升级一下Scribe，看到时候有没有时间了。

2019-01-14

7160

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态