首页
学习
活动
专区
工具
TVP
发布

大数据风控

专栏作者
57
文章
129865
阅读量
60
订阅数
R中如何用ifelse进行数据分组
数据分组,根据数据分析对象的特征,按照一定的数值指标,把数据分析对象划分为不同的区间部分来研究,以揭示内在的联系和规律性; 在R中,我们常用ifelse函数来进行数据的分组,跟excel中的if函数是同一种用法。 ifelse(condition,TRUE,FALSE) > data <- read.table('1.csv', sep='|', header=TRUE); > > level <- ifelse( + data$cost<=20, "(0,20]", + ifelse( +
Erin
2018-01-09
2.8K0
R中数据的标准化0-1标准化
数据标准化,是将数据按比例缩放,使之落入到特定区间,一般我们使用0-1标准化; x=(x-min)/(max-min) >data <- read.csv('1.csv', fileEncoding='utf-8') > data class name score 1 一班 朱志斌 120 2 一班 朱凤 122 3 一班 郑丽萍 140 4 一班 郭杰明 131 5 一班 许杰 122 6 二班 郑芬 119 7 二班 林龙
Erin
2018-01-09
3.4K0
R中重复值、缺失值及空格值的处理
1、R中重复值的处理 unique函数作用:把数据结构中,行相同的数据去除。 #导入CSV数据 data <- read.csv('1.csv', fileEncoding = "UTF-8", stringsAsFactors = FALSE); #对重复数据去重 new_data <- unique(data) 重复值处理函数:unique,用于清洗数据中的重复值。 “dplyr”包中的distinct() 函数更强大: distinct(df,V1,V2) 根据V1和V2两个条件来进行去重 uniq
Erin
2018-01-09
7.9K0
R中的向量化运算
1、R中的向量化运算-seq seq(1, 10, by=1) seq(1, 10, by=0.1) seq(1.9, 10, by=0.1) #注意,不能这样子递减 seq(10, 1, by=0.1) #注意,你可以这样子递减 seq(10, 1, by=-0.1) #除了设置步长,还可以设置均分的步数 seq(10, 1, length.out=10) seq(10, 1, length.out=100) seq(10, 1, length.out=91) #数清楚里面的个数 2、R中
Erin
2018-01-09
1.9K0
R中的数据导入与导出
1、数据的导入 导入文本文件 使用read.table函数导入普通文本文件 read.table(file,header=FALSE,sep="",...) #导入csv文件 data1 <- rea
Erin
2018-01-09
2.3K0
R中字段抽取、字段合并、字段匹配
1、字段抽取 字段抽取,是根据已知列数据的开始和结束位置,抽取出新的列 字段截取函数:substr(x,start,stop) tel <- '18922254812'; #运营商 band <- substr(tel, 1, 3) #地区 area <- substr(tel, 4, 7) #号码段 num <- substr(tel, 8, 11) tels <- read.csv('1.csv'); #运营商 bands <- substr(tels[,1], 1, 3) #地区 areas <-
Erin
2018-01-09
5.2K0
R中的自定义函数function
函数语法 函数名<-function(parameters){ statemens return(expression)} printLine <- function () { print("--------------------------------------------"); } #函数的调用 printLine(); #错误:无参函数,有参调用 printLine("parameter"); printNLines <- function (n) { for(i in 1:n) {
Erin
2018-01-09
2.4K0
R中的数据结构(Array,Factor,List,DataFrame)
1、R中的数据结构-Array #一维数组 x1 <- 1:5; x2 <- c(1,3,5,7,9) x3 <- array(c(2, 4, 6, 8, 10)) #多维数组 xs <- array(1:24, dim=c(3,4,2)) #访问 x1[3] x2[c(1,3,5)] x3[3:5] xs[2, 2, 2] xs[2, 2, 1] #增加 x1[6] <- 6 x2[c(7, 9, 11)] <- c(11, 13, 15) #动态增加 x1[length(x1) + 1] <
Erin
2018-01-09
2.3K0
R中的程序结构(for,while,repeat)
1、程序结构-for循环 1:5 for(i in 1:5) print(i) ss <- seq(from=1, to=10, by=0.1) for(s in ss) { print(s) } df = data.frame( age=c(21, 22, 23), name=c('KEN', 'John', 'JIMI'), stringsAsFactors = FALSE ); #如果用in进行遍历data.frame,那么默认按列遍历 for(l in df) { pr
Erin
2018-01-09
7740
R中五种常用的统计分析方法
本文介绍了五种常用的统计分析方法,包括分组分析、分布分析、交叉分析和结构分析,以及相关分析。这些方法可以用于研究数据的不同方面,以了解数据的构成、分布特征和变量间的关系。
Erin
2018-01-09
3.3K0
R中的线性回归分析
本文介绍了线性回归分析在R语言中的实现,以及如何使用回归分析函数进行预测。首先介绍了简单线性回归模型,然后讲解了回归分析函数lm的使用,以及预测函数predic的使用。最后通过一个实际案例展示了如何使用这些函数进行预测。
Erin
2018-01-09
1.5K0
疑难杂症-R中的Rwordseg包安装
摘要总结:通过install.packages()函数安装Rwordseg包,利用R中的Java环境以及Rwordseg包进行文本分析。如果无法通过在线方式安装,可以直接下载Rwordseg的zip包,在R中加载zip包进行离线安装,只需几秒钟即可。
Erin
2018-01-09
1.2K0
R文本挖掘-中文分词Rwordseg
本文主要介绍了如何使用 R 语言对中文文本进行分词和词频统计。首先介绍了 R 语言中的 tm 包和 Rwordseg 包,然后通过一个示例展示了如何使用这两个包进行中文分词和词频统计。最后,介绍了一些常用的分词方法,并给出了一个使用 wordcloud 包进行词云展示的示例。
Erin
2018-01-09
1.6K0
如何在R中绘制热力地图
本文介绍了如何利用R语言中的maps包和mapdata包绘制地图,并通过热力地图展示数据分布情况。首先,通过map()函数创建地图对象,并获取每个区域的名字以及顺序。然后,在每个区域的名字和顺序后面,加上需要展示的数据以及经纬度。接着,根据数据的大小设置每个区域的颜色深浅,以区分不同的区域。最后,给地图加上地名标记,并添加热力地图元素。
Erin
2018-01-09
3.1K0
如何在R中绘制树图(TreeMap)
本文介绍了如何利用R语言中的Treemap函数绘制树图,并给出了一个实例,包括使用安装包、设定颜色范围、边框颜色、节点大小、填充颜色等参数。同时还介绍了两种方法,一是通过aggregate函数对数据进行分组,二是通过手动设置index和vSize、vColor、type等参数来绘制树图。
Erin
2018-01-09
5K0
R文本挖掘-文章关键词提取
本文介绍了如何利用R语言进行文本挖掘,包括文本预处理、关键词提取、文档相似度计算以及主题建模等方面的内容。
Erin
2018-01-09
1.8K0
R中如何利用余弦算法实现相似文章的推荐
本文介绍了推荐系统中的相似度计算方法和相似推荐算法,主要包括余弦相似度、Jaccard相似度、欧氏距离等相似度度量方法,以及基于用户行为的协同过滤、基于物品的协同过滤等推荐算法。同时,还介绍了一种基于矩阵分解的推荐算法,利用用户的行为构建用户-物品矩阵,通过计算相似度为用户推荐感兴趣物品。
Erin
2018-01-09
2K0
R中如何利用余弦算法实现文章的自动摘要
本文探讨了利用余弦相似度算法实现文章自动摘要的方法,该方法通过对文章分句并计算余弦相似度,从而找出与目标文章最相似的句子作为摘要。首先介绍了余弦相似度的计算原理和实现方法,然后通过具体的示例展示了如何对给定的文章进行分句和计算余弦相似度,最后对实现过程进行了总结和展望。
Erin
2018-01-09
1.1K0
R分类算法-KNN算法
本文介绍了K近邻分类算法,包括其原理、实现和应用场景。同时,还介绍了KNN算法在Iris数据集上的应用,并通过实例演示了如何通过调整K值来进行模型的调优。
Erin
2018-01-09
1.6K0
R分类算法-决策树算法
本文介绍了R语言中的决策树分类算法,包括决策树的基本原理、优点和缺点、实现方法和代码示例。同时,还通过一个数据集,演示了如何使用决策树算法进行分类预测。最后,还讨论了如何使用交叉验证来评估决策树模型的性能。
Erin
2018-01-09
1.4K0
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档