数据饕餮-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

数据饕餮

专栏成员

227

文章

220958

阅读量

60

订阅数

R语言之中文分词：实例

数据分析大数据处理套件 TBDS 数据处理

#调入分词的库 library("rJava") library("Rwordseg") #调入绘制词云的库 library("RColorBrewer") library("wordcloud") #读入数据(特别注意，read.csv竟然可以读取txt的文本) myfile<-read.csv(file.choose(),header=FALSE) #预处理，这步可以将读入的文本转换为可以分词的字符，没有这步不能分词 myfile.res <- myfile[myfile!=" "] #分词，并将分词结果转换为向量 myfile.words <- unlist(lapply(X = myfile.res,FUN = segmentCN)) #剔除URL等各种不需要的字符，还需要删除什么特殊的字符可以依样画葫芦在下面增加gsub的语句 myfile.words <- gsub(pattern="http:[a-zA-Z\\/\\.0-9]+","",myfile.words) myfile.words <- gsub("\n","",myfile.words) myfile.words <- gsub("　","",myfile.words) #去掉停用词 data_stw=read.table(file=file.choose(),colClasses="character") stopwords_CN=c(NULL) for(i in 1:dim(data_stw)[1]){ stopwords_CN=c(stopwords_CN,data_stw[i,1]) } for(j in 1:length(stopwords_CN)){ myfile.words <- subset(myfile.words,myfile.words!=stopwords_CN[j]) } #过滤掉1个字的词 myfile.words <- subset(myfile.words, nchar(as.character(myfile.words))>1) #统计词频 myfile.freq <- table(unlist(myfile.words)) myfile.freq <- rev(sort(myfile.freq)) #myfile.freq <- data.frame(word=names(myfile.freq),freq=myfile.freq); #按词频过滤词，过滤掉只出现过一次的词，这里可以根据需要调整过滤的词频数 #特别提示：此处注意myfile.freq$Freq大小写 myfile.freq2=subset(myfile.freq, myfile.freq$Freq>=10) #绘制词云 #设置一个颜色系： mycolors <- brewer.pal(8,"Dark2") #设置字体 windowsFonts(myFont=windowsFont("微软雅黑")) #画图 wordcloud(myfile.freq2$word,myfile.freq2$Freq,min.freq=10,max.words=Inf,random.order=FALSE, random.color=FALSE,colors=mycolors,family="myFont")

2019-01-14

8070

数据产品设计专题（4）- 程序化交易业务架构模型

数据分析客户端流量

一、程序化交易业务领域模型二、核心业务内容解读（1）一个核心业务流程：流量交易流程；（2）二类用户服务客户端；媒体主服务客户端+广告主服务客户端；（3）三类业务平台；需求方平台+流量交易平台+供应方平台；（4）四类参与者角色：用户+媒体主+运营商+广告主；三、数据运营体系（1）数据治理服务平台：数据整合+数据价值链打通；（2）数据服务：数据分析服务+运营决策支持；

2019-01-14

5380

数据仓库专题（9）-缓慢变化维处理技术

　　在一个零售业数据仓库中，事实表保存着各销售人员的销售记录，某天一个销售人员从北京分公司调到上海分公司了，那么如何来保存这个变化呢？也就是说销售人员维度要怎么恰当的处理这一变化。

2019-01-14

6240

数据仓库专题（9）-基本概念和定义（整理自互联网）

一个星型模型对应一个分析主题，它由一个事实表和一组维表组成。其中事实表是星型模型的核心，由分析变量和分析维度代理键组成，分析变量存放分析事实数据，分析维度代理键用于连接维表。维表是星型模型的外围，存放分析维度数据，由维的代理键、维的层次属性、维的描述信息组成。

2019-01-14

6240

R语言学习路线图-转帖

数据挖掘编程算法金融数据分析

本文分为6个部分，分别介绍初级入门，高级入门，绘图与可视化，计量经济学，时间序列分析，金融等。

2019-01-14

5610

胖子哥的大数据之路（16）：数据采集标准-我们到底需要什么样的数据？

刚刚有一个好友向我咨询数据相关的问题，朋友目前是IT设备生产厂商的人。从好友的描述中，提到对用户特征获取的需求。包括：人的兴趣爱好、关注焦点等，在用户的描述中其实只是直觉性的列决出了几点，然后基于此作相应的后续产品或服务推荐。朋友要表达的内容，在我理解，其实是想获取用户的完整的画像信息，只是她并不清楚，完整的用户标签体系应该是个什么样子而已，数据标签体系作为下一个系列，我们单独探讨。在此，我们讨论的问题聚焦到，要想实现业务目标，我们到底需要什么采集（此处不区分自有，还是外部采买）什么样的用户数据，才能支撑我们的业务目标，即数据采集标准的问题。

2019-01-14

3830

数据挖掘标准规范之CRISP-DM基础

编程算法数据挖掘数据分析

　　每每提到数据挖掘，总有些人上来就是ETL、是算法、是数学模型，作为搞工程实施的我而言，很是头疼。其实作为数据挖掘的而言，算法只是其实现手段、是工具和实现手段而已，我们不是在创造算法（国外职业搞研究的除外），我们是在使用算法而已，换句话说我们是算法的工程化实践者。数据挖掘非今日之物，大数据挖掘也不是一个孤立的概念，其实质还是采用传统的数据挖掘的方法，只是其实现工具发生了变化而已，本质的东西还在。引入发布近20年前的CRISP-DM数据挖掘标准规范模型，供大家共享，希望能有人喜欢。

2019-01-14

5390

数据仓库专题（8）-维度属性选择之维护历史是否应该保留

　　数据仓库建模过程中，针对事务型事实表设计，经常会遇到维度属性选择的问题，比如客户维度，在操作型系统中，为了跟踪客户状态的变化，往往会附加客户记录的四个属性：

2019-01-14

5260

胖子哥的大数据之路（一）-数据仓库也需要大数据

存储大数据数据库数据分析

　　大数据传统企业实施，其路漫漫，绝不会如昙花一现，探索大数据在传统行业的实施之路，寻找一条适合传统行业的企业大数据实施方法体系，是我执着坚守的信念，大数据是一种信仰，吾将上下而求索。记下项目中的点滴，算是日志，自勉。

2019-01-14

6680

断篇-金融大数据最佳实践总结篇

大数据数据挖掘数据分析企业

版权声明：版权所有，作者：张子良，转载请注明出处。 https://blog.csdn.net/zhangziliang09/article/details/79282807

2019-01-14

5160

NBA篮球图文直播室之数据排行榜设计

球员数据排行榜，实时显示两队各项技术参数最高的球员信息，技术参数包括得分、篮板、助攻、抢断、盖帽、出场时间、失误和犯规次数。如下图所示：

2019-01-14

9250

胖子哥的大数据之路（14）：数据价值链模型

Knowledge is also defined using taxonomy, with levels describing data, information, knowledge and wisdom. Briefly, data is defined as a fact. Information is a fact with some context. Knowledge is an understanding gained from a pattern that exists with related information. Wisdom combines an understanding of all of the above with some additional exploration to derive a cause and effect relationship.

2019-01-14

7150

胖子哥的大数据之路（13）破题，从数据整合开始

大数据微信数据分析

这是关于互联网上一篇文章的读后感，原文标题《大数据成变量，BAT入口生态或生变局》。读这篇文章既有醍醐灌顶之顿悟，亦有如履薄冰之恐惧，阿里好强，动作好快。其实，最近一直在思考当代企业信息化架构EA框架的调整，基本的一个思路是数据上提，与业务架构平齐，不再只是作为业务系统的功能支撑，而是自成一片天地，独立运营。至于数据化运营与现有业务的关系，则可一分为二：其一、可进，进可开疆辟土，基于数据衍生新的业务形态；其二、可退，退而求其次，辅助优化现有业务，从简单粗暴，到整合营销。变现空间，天高地阔。其文有一言，直戮我心：“破题，或从数据整合开始”。故改之，原文转发如下：

2019-01-14

5640

数据仓库专题（7）-维度建模11大基本原则

数据仓库存储逻辑模型设计，需要遵循一定的设计原则。遵循这些原则进行维度建模可以保证数据粒度合理，模型灵活，能够适应未来的信息资源，违反这些原则你将会把用户弄糊涂，并且会遇到数据仓库障碍。本文适用于多维建模，不使用于3NF建模。

2019-01-14

1.8K0

大数据应用电子商务之精准推广

大数据数据分析

　　经常网购的朋友最近是否注意到，上一次京东，浏览过什么产品，当你打开其他的有京东推荐链接的网页时，总是能够看到来自京东的推荐呢？而推荐的产品恰恰是你最近在关注的。我前一段时间在京东看过移动硬盘，这不当我浏览开源社区的时候，推荐信息就来了：

2019-01-14

7620

断篇-大数据金融行业企业应用几点思考

大数据数据挖掘数据分析企业

　　任何数据分析或者挖掘的项目都不会直接产生经济价值和意义，分析出的数据结果既不能给企业直接带来一个客户，也不能帮助企业卖出一件产品。数据分析的价值体现在于业务部门根据分析结果制定相关的经营策略并贯彻执行。

2019-01-14

4370

大数据应用之双色球算奖平台总体设计大纲篇一

编程算法数据分析数据处理开源存储

　　福利彩票走进百姓生活，每期的500w大奖吸引了千万彩民的眼球和关注，备受争议的双色球延期开奖也成了争议的焦点，成为继12306之后，又一个站在风口浪尖的悲催儿。黑幕说，红会说，各种说甚嚣尘上。IT人只做技术事，至于类似美美卡里究竟几个零，一套内衣值几多银子的问题，还是交给干爹们去撕扯吧。当然福彩中心是不是红会，还是交给时间来证明吧。

2019-01-14

1.2K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态