腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
数据饕餮
专栏成员
举报
227
文章
221420
阅读量
60
订阅数
订阅专栏
申请加入专栏
全部文章(227)
大数据(28)
数据库(27)
存储(19)
python(17)
hadoop(17)
数据分析(17)
知识图谱(12)
编程算法(12)
hbase(11)
http(10)
模型(10)
linux(9)
开源(9)
ide(8)
部署(8)
人工智能(7)
企业(7)
机器人(7)
aigc(7)
深度学习(6)
爬虫(6)
数据处理(6)
windows(6)
人脸识别(5)
数据挖掘(5)
java(5)
xml(5)
内核(5)
入门(5)
node.js(4)
eclipse(4)
github(4)
mapreduce(4)
分布式(4)
架构设计(4)
产品设计(4)
配置(4)
数据仓库(4)
NLP 服务(3)
机器学习(3)
html(3)
git(3)
api(3)
中文分词(3)
unix(3)
文件存储(3)
大数据处理套件 TBDS(3)
电商(3)
数据安全(3)
jvm(3)
hive(3)
数据可视化(3)
https(3)
系统架构(3)
prompt(3)
sudo(3)
视频(3)
音频(3)
其他(2)
c++(2)
.net(2)
云数据库 Redis(2)
打包(2)
神经网络(2)
TDSQL MySQL 版(2)
网络安全(2)
jdk(2)
zookeeper(2)
uml(2)
安全(2)
chatgpt(2)
etl(2)
笔记(2)
编码(2)
博客(2)
产品(2)
产品经理(2)
程序员(2)
工具(2)
工作流(2)
函数(2)
互联网(2)
基础(2)
开源框架(2)
数据采集(2)
网络(2)
异常(2)
费用中心(1)
官方文档(1)
腾讯云学堂(1)
php(1)
bootstrap(1)
json(1)
android(1)
云数据库 SQL Server(1)
oracle(1)
nosql(1)
flask(1)
tomcat(1)
搜索引擎(1)
lucene/solr(1)
apache(1)
bash 指令(1)
tornado(1)
云函数(1)
存储网关(1)
云直播(1)
访问管理(1)
云数据库 MongoDB(1)
人脸核身(1)
弹性 MapReduce(1)
云推荐引擎(1)
mongodb(1)
图像处理(1)
人脸支付(1)
网站(1)
数据备份(1)
混合云存储(1)
金融(1)
渲染(1)
url 安全(1)
yarn(1)
互联网金融(1)
shell(1)
正则表达式(1)
面向对象编程(1)
opencv(1)
unity(1)
ftp(1)
keras(1)
tcp/ip(1)
scrapy(1)
rpc(1)
kernel(1)
socket编程(1)
anaconda(1)
微信(1)
物联网(1)
数据结构(1)
信息流(1)
云计算(1)
sdk(1)
es(1)
项目管理(1)
app(1)
apt(1)
audio(1)
bi(1)
block(1)
colors(1)
conda(1)
data(1)
db(1)
diagram(1)
dimensions(1)
documentation(1)
ffmpeg(1)
gan(1)
it(1)
lifecycle(1)
matrix(1)
max(1)
min(1)
model(1)
monitor(1)
na(1)
openai(1)
package(1)
patch(1)
path(1)
pip(1)
process(1)
pypi(1)
random(1)
reference(1)
return(1)
root(1)
server(1)
status(1)
sum(1)
table(1)
word(1)
编译(1)
测试(1)
代理(1)
翻译(1)
服务器(1)
管理(1)
规范化(1)
解决方案(1)
接口(1)
镜像(1)
开发(1)
客户端(1)
框架(1)
流量(1)
前端(1)
权限(1)
日志(1)
软件(1)
实践(1)
实时计算(1)
数据(1)
算法(1)
系统(1)
系统设计(1)
线程(1)
隐私(1)
源码(1)
终端(1)
主机(1)
字符串(1)
搜索文章
搜索
搜索
关闭
R语言之中文分词:实例
数据分析
大数据处理套件 TBDS
数据处理
#调入分词的库 library("rJava") library("Rwordseg") #调入绘制词云的库 library("RColorBrewer") library("wordcloud") #读入数据(特别注意,read.csv竟然可以读取txt的文本) myfile<-read.csv(file.choose(),header=FALSE) #预处理,这步可以将读入的文本转换为可以分词的字符,没有这步不能分词 myfile.res <- myfile[myfile!=" "] #分词,并将分词结果转换为向量 myfile.words <- unlist(lapply(X = myfile.res,FUN = segmentCN)) #剔除URL等各种不需要的字符,还需要删除什么特殊的字符可以依样画葫芦在下面增加gsub的语句 myfile.words <- gsub(pattern="http:[a-zA-Z\\/\\.0-9]+","",myfile.words) myfile.words <- gsub("\n","",myfile.words) myfile.words <- gsub(" ","",myfile.words) #去掉停用词 data_stw=read.table(file=file.choose(),colClasses="character") stopwords_CN=c(NULL) for(i in 1:dim(data_stw)[1]){ stopwords_CN=c(stopwords_CN,data_stw[i,1]) } for(j in 1:length(stopwords_CN)){ myfile.words <- subset(myfile.words,myfile.words!=stopwords_CN[j]) } #过滤掉1个字的词 myfile.words <- subset(myfile.words, nchar(as.character(myfile.words))>1) #统计词频 myfile.freq <- table(unlist(myfile.words)) myfile.freq <- rev(sort(myfile.freq)) #myfile.freq <- data.frame(word=names(myfile.freq),freq=myfile.freq); #按词频过滤词,过滤掉只出现过一次的词,这里可以根据需要调整过滤的词频数 #特别提示:此处注意myfile.freq$Freq大小写 myfile.freq2=subset(myfile.freq, myfile.freq$Freq>=10) #绘制词云 #设置一个颜色系: mycolors <- brewer.pal(8,"Dark2") #设置字体 windowsFonts(myFont=windowsFont("微软雅黑")) #画图 wordcloud(myfile.freq2$word,myfile.freq2$Freq,min.freq=10,max.words=Inf,random.order=FALSE, random.color=FALSE,colors=mycolors,family="myFont")
数据饕餮
2019-01-14
807
0
Redis内存数据库操作命令详解
大数据处理套件 TBDS
数据处理
rename(oldname, newname):将key由oldname重命名为newname,若newname存在则删除newname表示的key
数据饕餮
2019-01-14
526
0
大数据应用日志采集之Scribe 安装配置指南
大数据处理套件 TBDS
大数据
Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用。它能从各种日志源收集日志,存储到一个中央存储系统上,便于进行集中统计分析处理。它为日志的”分布式收集,统一处理”提供了一个可扩展的,高容错的方案。scribe代码很简单,但是安装配置却很复杂,本文记录了作者实际的一次安装的过程,感觉真是不一般的琐碎,另外Scribe开源社区的版本已经是几年前的版本了,最新的维护信息一致没有看到,HDFS和Thrift的版本使用的都是比较旧的版本,考虑另开一个分支,升级一下Scribe,看到时候有没有时间了。
数据饕餮
2019-01-14
716
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档