首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

R In Action |基本数据管理

1)leadership$age[leadership$age == 99] <- NA within()可以认为是数据框版本with(),将每一行都设置缺失值,然后条件赋值(字符型变量,还不是有序因子...4.5 缺失值 R字符型缺失值与数值型数据使用缺失值符号是相同。缺失值以符号NA(Not Available,不可用)表示。...(leadership$date, "%m/%d/%y") 4.6.1 使用format来输出指定格式日期值,并且提取日期某些部分: format(Sys.Date(),"%B %d %Y")...按照gender正序,其中年龄倒序 leadership[order(gender, -age),] 4.9 数据合并 使用merge()函数对两个数据框进行联结(内联结),例: total <-...(A,B) 如果两个数据框拥有相同变量,则可以在行上进行合并,使用rbind(): total <- rbind(dataframeA,dataframeB) 4.10 数据集取子集 4.10.1 选入

1.1K10

R语言从入门到精通:Day5

3.R缺失值标记、重编码和排除 几乎所有项目中,都存在缺失值,在R缺失值用NA代替(前面我们已经见过了)。R语言提供了一个简单而重要函数is.na()来监测数据集中缺失值。...我们在前面已经实验过了重编码某些缺失值用法,就是将age99值标记为缺失值步骤(如图3)。这一步虽然很简单,但在一些项目中如果遗漏了这个步骤,会对结果产生巨大影响!...图13:函数order()用法。 ? 6.数据行、合并 有时候数据并不是一个整体,需要自己整合一下。R语言中常用合并数据函数有merge()、cbind()、rbind()。...其中函数cbind()是将两个矩阵或者数据框直接横向合并,要求被合并两个对象有同样行数。...如果要在数据添加行(或者理解两个数据框纵向合并),使用函数rbind(),要求两个数据框有相同变量,不过顺序不必要相同。一般用于向数据添加新观测。

1.6K30
您找到你想要的搜索结果了吗?
是的
没有找到

Python pandas十分钟教程

也就是说,500意味着在调用数据最多可以显示500列。 默认值仅为50。此外,如果想要扩展输显示行数。...如果读取文件没有列名,需要在程序设置header,举例如下: pd.read_csv("Soils.csv",header=None) 如果碰巧数据集中有日期时间类型列,那么就需要在括号内设置参数...Pandas中提供以下几种方式对数据进行分组。 下面的示例“Contour”列对数据进行分组,并计算“Ca”列记录平均值,总和或计数。...df.groupby(by=['Contour', 'Gp'])['Ca'].mean() 合并多个DataFrame 将两个数据合并在一起有两种方法,即concat和merge。...列连接数据 pd.concat([df, df2], axis=1) 行连接数据 pd.concat([df, df2], axis=0) 数据之间有公共列合并适用于组合数据

9.8K50

R常用基本 函数汇总整理

将当前环境内容写入 .RData,q命令退出保存时调用此命令 dput() ascii格式将指定对象输出到文件,保留某些数据结构 dget() 从ascii格式文件读取对象...() 合并 merge() 列或行合并dataframe dim() 对象维数,返回值一个list dimnames() 返回或设置对象每一维名字 row.names...两个向量差,结果与次序有关 setequal() 两个向量是否相等 which() 返回一个逻辑向量中值真的元素下标 with() 对一个envioronment变量执行某函数...outer() or %o% 计算两个矩阵外积 %in% 返回一个逻辑向量,左边向量元素出现在右边对象真 solve() 求解方程a %*% x = b....b单位阵x即为a逆矩阵 >,<,==,!

1.9K30

玩转数据处理120题|R语言版本

大家好,本文R语言数据处理120题系列完整版本。作者精心挑选120道数据处理相关操作以习题形式发布,一共涵盖了数据处理、计算、可视化等常用操作,并对部分题目给出了多种解法与注解。...salary列合并为新一列 难度:⭐⭐⭐ 备注:salaryint类型,操作与35题有所不同 R解法 df % mutate(test1 = paste0...R解法 rownames(df) <- NULL # 如果是tibble则索引始终是顺序 备注 有时我们修改数据会导致索引混乱 65 异常值处理 题目:删除所有换手率非数字行 难度:⭐⭐⭐...= 'green',size = 1.2) 73 数据重采样 题目:采样规则,取一周收盘价最大值 难度:⭐⭐⭐ R解法 library(plyr) res <- dlply(df,....:⭐⭐ 备注 从数据2读取数据并在读取数据将薪资大于10000改为高 R语言解法 library(readr) df2 % mutate

8.7K10

【学习】《R实战》读书笔记(第四章)

读书会是一种在于拓展视野、宏观思维、知识交流、提升生活活动。PPV课R语言读书会以“学习、分享、进步”宗旨,通过成员协作完成R语言专业书籍精读和分享,达到学习和研究R语言目的。...数据集(数值5、4、3、2和1分别表示强烈反对、反对、中立、支持、强烈支持)如图1所示。 图1:不同性别的领导行为 如何把图1数据导入R,对这些数据,我们有什么发现呢?...图3:R逻辑运算符号 基于逻辑运算符号关系来改变变量内容,逻辑值真,则可以修改。 拓展可以了解within()函数和car包recode()函数。 重命名变量 重命名变量名,可以采用方法。...方法二:包reshaperename()函数。 方法三:names()函数。 缺失值 数据集往往是不完整,因为各种缘由存有缺失值。 使用is.na()函数检查缺失值。...> rm(list=ls()) > x <- c(1,2,NA,3) > is.na(x) [1] FALSE FALSE TRUE FALSE 数据集中某些变量值 设置NA数据 集中移除缺失值

84950

一行代码对日期插值

在分析,我们为了获得完整时间序列就需要“插入”那些丢失日期。 举一个例子: ? 这个数据集中有5行观测,2组分类(id等于1和2)。...(id, date), nomatch = NA] 结果: ? 我们看到,原数据集存在观测那些日期,val值都被保留,而被插入那些日期,val是NA。...例如,在我们样例数据集sample,id=1观测对应日期最小值01-08,最大值01-14,而我们希望填充这两个日期“之间”所有值。...当然没问题,以上文提到第二种情况例,我们可以把两行合并为一行: # 把两行代码合并成一行 dt[dt[, ....处女座无数次为了给数据集取一个合适名字心力交瘁…… 下 期预告 根据官网公告,Microsoft R Open 3.4版本将会“coming soon in May”,大猫会在第一间给大家发布号外~

1.4K30

玩转数据处理120题|Pandas&R

::read.xlsxdetectDates参数只能识别纯日期 #as.Data转换该列后时间数据丢失,只有日期 #故先把excel文件转存为csv后用readr包读取 # 该方法不理想 library...(drop=True) R解法 rownames(df) <- NULL # 如果是tibble则索引始终是顺序 备注 有时我们修改数据会导致索引混乱 65 异常值处理 题目:删除所有换手率非数字行...69 数据处理 题目:设置日期索引 难度:⭐ Python解法 df.set_index('日期') R解法 df %>% column_to_rownames(var='日期') 70 指标计算...= 'green',size = 1.2) 73 数据重采样 题目:采样规则,取一周收盘价最大值 难度:⭐⭐⭐ Python解法 df = df.set_index('日期') df['...:⭐⭐ 备注 从数据2读取数据并在读取数据将薪资大于10000改为高 Python解法 df2 = pd.read_csv(r'C:\Users\chenx\Documents\Data Analysis

6K41

R包reshape2,轻松实现长、宽数据表格转换

reshape2R包主要有两个主要功能:melt和cast melt:将wide-format数据“熔化”成long-format数据; cast:获取long-format数据“重铸”成wide-format...二、什么是宽表格和长表格 示例数据说明:例子使用内置于R空气质量数据集(airquality)。...,包括月份和日期,都合并在了一起,标题行置于variable列,数值置于value列。...易错点 每个单元格有多个值(比如我们想以月而不是天来查看空气指标值,而每个月有多个数据),我们可能会犯一个错。...,会返回一条提示信息: ## Aggregation function missing: defaulting to length 查看输出数据发现,每个单元格填充数据每个月记录天数,并非每个测量指标值

7.8K20

R语言入门系列之二

⑵特殊值 ①缺失值 在实际研究,缺失值是难以避免(不能将缺失值NA当做0来对待),可以使用函数is.na()来判断是否存在缺失值,该函数可以作用于向量、矩阵、数据框等对象,返回值对应逻辑值,如下所示...: 缺失值是无法进行比较运算,很多函数都有参数na.rm选项来移除缺失值,如下所示: 可以使用函数na.omit()来移除变量缺失值或矩阵、数据框含有缺失值行,如下所示: ②日期值 在R,...日期往往以数值形式存储,日期值可以运算比较,但是在读取数据往往读取字符串格式,as.Date()函数可以将字符型日期转换为数值型进行储存,如下所示: 可以看到在R日期值是以yyyy-mm-dd形式储存...在这里R可以识别yyyy-mm-dd和yyyy/mm/dd格式日期数据。...(scale):将数据取值映射到图形空间 ggplot2两个主要作图函数qplot()和ggplot()。

3.7K30

python pandas.read_csv参数整理,读取txt,csv文件

分隔符长于一个字符并且不是‘\s+’,将使用python语法分析器。并且忽略数据逗号。...usecols : array-like, default None 返回一个数据子集,该列表值必须可以对应到文件位置(数字可以对应到指定列)或者是字符传为文件列名。...If [1, 2, 3] -> 解析1,2,3列值作为独立日期列; list of lists. e.g. If [[1, 3]] -> 合并1,3列作为一个日期列使用 dict, e.g....在某些情况下会快5~10倍。 keep_date_col : boolean, default False 如果连接多列解析日期,则保持参与连接列。默认为False。...escapechar : str (length 1), default None quoting QUOTE_NONE,指定一个字符使不受分隔符限值。

3.7K20

python pandas.read_csv参数整理,读取txt,csv文件

分隔符长于一个字符并且不是‘\s+’,将使用python语法分析器。并且忽略数据逗号。...usecols : array-like, default None 返回一个数据子集,该列表值必须可以对应到文件位置(数字可以对应到指定列)或者是字符传为文件列名。...If [1, 2, 3] -> 解析1,2,3列值作为独立日期列; list of lists. e.g. If [[1, 3]] -> 合并1,3列作为一个日期列使用 dict, e.g....在某些情况下会快5~10倍。 keep_date_col : boolean, default False 如果连接多列解析日期,则保持参与连接列。默认为False。...escapechar : str (length 1), default None quoting QUOTE_NONE,指定一个字符使不受分隔符限值。

6.3K60

数据处理R

好久没有更新了,觉得不好意思 3.2 数据处理R包 @Author:By Runsen (版权所有) 内容来源自己葵花宝典 3.2.1 plyr 整理数据本质可以归纳:对数据进行分割(Split...),然后应用(Apply)某些处理函数,最后将结果重新组合(Combine)成所需格式返回,简单描述:Split - Apply - Combine。...教程,可以参考官方文档:http://plyr.had.co.nz/ 3.2.2 dplyr dplyr是一个强大R包,用于处理,清理和汇总非结构化数据,使得R数据探索和数据操作变得简单快捷,也是出于...Lubridate包可以减少在R操作时间变量,内置函数提供了很好解析日期与时间便利方法。lubridate 包是 Hadley Wickham开发用于高效处理时间数据 R 包。...(base包函数) [1] "2020-01-23" (2)日期格式转化 日期值通常以文本形式输入到R,然后转化为以数值形式存储日期变量。

4.6K20

R 语言实战第一,二章 R 语言版

这次作业主要是以对一个非常简单数据分析问题进行实践形式呈现出来,对于《R语言实战》第一二章内容已经体现在了对问题解析过程,所以就不再将学习过程贴出来了。...,有208个注册日期记录 missmap(users, main="user miss map") 去掉注册日期用户,剩下已经注册用户 users_signup <- na.omit(...users) 统计有多少注册日期行 sum(is.na(users$signup.date)) 日期格式转换 users_signup$signup.date <- as.Date(users_signup..., ] 合并注册用户和购买数据信息 in_90 <- merge(x=users_signup, y=purchases, all.y=T) in_90 <- na.omit(in_90) in_90...duplicated(in_90$user.id), ] 读取短信信息,并转换短信数据日期类型。

65420

Python数据分析数据导入和导出

前言 数据分析数据导入和导出是数据分析流程至关重要两个环节,它们直接影响到数据分析准确性和效率。在数据导入阶段,首先要确保数据来源可靠、格式统一,并且能够满足分析需求。...可以是字典(列名为键,转换函数值)或None。 dtype:指定结果数据类型。默认为None,表示推断得出数据类型。 verbose:指定是否显示详细信息。默认为False。...txt文件数据,可以使用pandas模块read_table方法。...可以设置’\r\n’、‘\n’、'\r’等 chunksize:一次性写入行数,默认为None,表示全部写入 date_format:日期格式,默认为None。...startrow:写入数据起始行位置,默认为0。 startcol:写入数据起始列位置,默认为0。 merge_cells:是否合并单元格,默认为False。

13310

评分卡上线后如何进行评分卡监测

在每个区间段上,将两个样本各自占比相除再取对数,然后乘以各自占比之差,最后将各个区间段计算值相加,得到最终PSI. ? ?...,将调整后值与建模数据做比较) #loan_query_12MA_level realdata1$loan_query_12MA_level <- cut(realdata1$loan_query...duplicated(old_score_card$申请编号),] # 从OverDueDate报表读取9个月逾期状态 Dates中日期需更新至最新一月一号 OverDueDate报表需保存成csv...某客户,其最近120天内查询次数4次,落入第四组,该组平均得分为14.36,全部5组,最低分为7.3,所以该客户这个变量对应差值7.06. 对应拒绝原因为“近期征信查询过多”。...;对于催收评分卡或某些特殊需求金融产品,需每周做一次监测。

3.5K50
领券