腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
数据饕餮
专栏作者
举报
217
文章
199276
阅读量
60
订阅数
订阅专栏
申请加入专栏
全部文章(217)
大数据(28)
数据库(27)
存储(19)
hadoop(17)
数据分析(17)
python(14)
知识图谱(12)
编程算法(12)
hbase(11)
http(10)
模型(10)
开源(9)
ide(8)
linux(8)
人工智能(7)
企业(7)
机器人(7)
aigc(7)
深度学习(6)
爬虫(6)
数据处理(6)
windows(6)
人脸识别(5)
数据挖掘(5)
java(5)
xml(5)
入门(5)
node.js(4)
eclipse(4)
github(4)
mapreduce(4)
分布式(4)
架构设计(4)
产品设计(4)
数据仓库(4)
NLP 服务(3)
机器学习(3)
html(3)
git(3)
api(3)
中文分词(3)
unix(3)
文件存储(3)
大数据处理套件 TBDS(3)
电商(3)
数据安全(3)
jvm(3)
hive(3)
数据可视化(3)
系统架构(3)
prompt(3)
部署(3)
其他(2)
c++(2)
.net(2)
云数据库 Redis(2)
打包(2)
神经网络(2)
TDSQL MySQL 版(2)
网络安全(2)
jdk(2)
zookeeper(2)
uml(2)
安全(2)
https(2)
chatgpt(2)
etl(2)
编码(2)
产品(2)
产品经理(2)
程序员(2)
工具(2)
工作流(2)
函数(2)
互联网(2)
基础(2)
开源框架(2)
配置(2)
数据采集(2)
费用中心(1)
腾讯云学堂(1)
php(1)
bootstrap(1)
json(1)
android(1)
云数据库 SQL Server(1)
oracle(1)
nosql(1)
flask(1)
tomcat(1)
搜索引擎(1)
lucene/solr(1)
apache(1)
bash 指令(1)
tornado(1)
云函数(1)
存储网关(1)
云直播(1)
访问管理(1)
云数据库 MongoDB(1)
人脸核身(1)
弹性 MapReduce(1)
云推荐引擎(1)
mongodb(1)
图像处理(1)
人脸支付(1)
网站(1)
数据备份(1)
混合云存储(1)
金融(1)
渲染(1)
url 安全(1)
yarn(1)
互联网金融(1)
shell(1)
正则表达式(1)
面向对象编程(1)
opencv(1)
unity(1)
ftp(1)
keras(1)
tcp/ip(1)
scrapy(1)
rpc(1)
kernel(1)
socket编程(1)
微信(1)
物联网(1)
数据结构(1)
信息流(1)
云计算(1)
sdk(1)
es(1)
项目管理(1)
app(1)
bi(1)
block(1)
colors(1)
data(1)
db(1)
diagram(1)
dimensions(1)
gan(1)
it(1)
lifecycle(1)
matrix(1)
max(1)
min(1)
model(1)
monitor(1)
na(1)
openai(1)
patch(1)
process(1)
random(1)
reference(1)
return(1)
server(1)
status(1)
sudo(1)
sum(1)
table(1)
word(1)
笔记(1)
编译(1)
测试(1)
代理(1)
翻译(1)
管理(1)
规范化(1)
解决方案(1)
开发(1)
客户端(1)
框架(1)
流量(1)
前端(1)
权限(1)
软件(1)
实践(1)
实时计算(1)
数据(1)
算法(1)
网络(1)
系统设计(1)
异常(1)
隐私(1)
源码(1)
终端(1)
主机(1)
搜索文章
搜索
搜索
关闭
R语言之中文分词:实例
数据分析
大数据处理套件 TBDS
数据处理
#调入分词的库 library("rJava") library("Rwordseg") #调入绘制词云的库 library("RColorBrewer") library("wordcloud") #读入数据(特别注意,read.csv竟然可以读取txt的文本) myfile<-read.csv(file.choose(),header=FALSE) #预处理,这步可以将读入的文本转换为可以分词的字符,没有这步不能分词 myfile.res <- myfile[myfile!=" "] #分词,并将分词结果转换为向量 myfile.words <- unlist(lapply(X = myfile.res,FUN = segmentCN)) #剔除URL等各种不需要的字符,还需要删除什么特殊的字符可以依样画葫芦在下面增加gsub的语句 myfile.words <- gsub(pattern="http:[a-zA-Z\\/\\.0-9]+","",myfile.words) myfile.words <- gsub("\n","",myfile.words) myfile.words <- gsub(" ","",myfile.words) #去掉停用词 data_stw=read.table(file=file.choose(),colClasses="character") stopwords_CN=c(NULL) for(i in 1:dim(data_stw)[1]){ stopwords_CN=c(stopwords_CN,data_stw[i,1]) } for(j in 1:length(stopwords_CN)){ myfile.words <- subset(myfile.words,myfile.words!=stopwords_CN[j]) } #过滤掉1个字的词 myfile.words <- subset(myfile.words, nchar(as.character(myfile.words))>1) #统计词频 myfile.freq <- table(unlist(myfile.words)) myfile.freq <- rev(sort(myfile.freq)) #myfile.freq <- data.frame(word=names(myfile.freq),freq=myfile.freq); #按词频过滤词,过滤掉只出现过一次的词,这里可以根据需要调整过滤的词频数 #特别提示:此处注意myfile.freq$Freq大小写 myfile.freq2=subset(myfile.freq, myfile.freq$Freq>=10) #绘制词云 #设置一个颜色系: mycolors <- brewer.pal(8,"Dark2") #设置字体 windowsFonts(myFont=windowsFont("微软雅黑")) #画图 wordcloud(myfile.freq2$word,myfile.freq2$Freq,min.freq=10,max.words=Inf,random.order=FALSE, random.color=FALSE,colors=mycolors,family="myFont")
数据饕餮
2019-01-14
785
0
胖子哥的大数据之路(三)- 数据仓库的需求分析该怎么做
大数据
数据处理
数据可视化
基于大数据技术构建数据仓库平台,源于大数据技术本身的不成熟和普及度问题,以及辅助工具的缺失,注定了其实施过程与传统数据仓库的差异性,和更大的实施难度。本文针对大数据技术应用与数据仓库类项目需求分析阶段,需要完成的主要工作基于用户需求分析说明书的文档结构进行目录式展现。如需了解更深层的细节,可以做专项技术交流和咨询服务。
数据饕餮
2019-01-14
763
0
胖子哥的大数据之路(三)- 大数据仓库的需求分析该怎么做
大数据
数据处理
数据可视化
基于大数据技术构建数据仓库平台,源于大数据技术本身的不成熟和普及度问题,以及辅助工具的缺失,注定了其实施过程与传统数据仓库的差异性,和更大的实施难度。本文针对大数据技术应用与数据仓库类项目需求分析阶段,需要完成的主要工作基于用户需求分析说明书的文档结构进行目录式展现。如需了解更深层的细节,可以做专项技术交流和咨询服务。
数据饕餮
2019-01-14
538
0
Redis内存数据库操作命令详解
大数据处理套件 TBDS
数据处理
rename(oldname, newname):将key由oldname重命名为newname,若newname存在则删除newname表示的key
数据饕餮
2019-01-14
510
0
Hadoop专业解决方案之构建Hadoop企业级应用
存储
hadoop
大数据
数据处理
大数据面对挑战是你必须重新思考构建数据分析应用的方式。传统方式的应用构建是基于数据存储在不支持大数据处理的基础之上。这主要是因为一下原因:
数据饕餮
2019-01-14
473
0
大数据应用之双色球算奖平台总体设计大纲篇一
编程算法
数据分析
数据处理
开源
存储
福利彩票走进百姓生活,每期的500w大奖吸引了千万彩民的眼球和关注,备受争议的双色球延期开奖也成了争议的焦点,成为继12306之后,又一个站在风口浪尖的悲催儿。黑幕说,红会说,各种说甚嚣尘上。IT人只做技术事,至于类似美美卡里究竟几个零,一套内衣值几多银子的问题,还是交给干爹们去撕扯吧。当然福彩中心是不是红会,还是交给时间来证明吧。
数据饕餮
2019-01-14
1.1K
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档