首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

R 数据整理(七:使用tidyr和dplyr处理数据框 2.0)

我们可以使用tidyverse 系统来操作,其中包括了magrittr 包,readr 包,dplyr 包和 tidyr 包等。...dplyr 包的 distinct() 函数可以对数据框指定若干变 量,然后筛选出所有不同值,每组不同值仅保留一行。...) rename() 这个函数可能出现在其它包中,保险起见写成 dplyr::rename()。...列号 select(test,1) select(test,c(1,5)) 列名 如果想要用向量来存放希望筛选的列名,需要使用函数 one_of 来存放该向量。...对于待分离的对象(col),不必加上引号;但对于即将创建的新列(into),需要使用引号,由于是两列,这里使用向量创建。sep参数设定读取表格信息以何符号作为分隔符。

10.7K30

「R」数据操作(七):dplyr 操作变量与汇总

使用mutate()添加新变量 除了选择已存在的列,另一个常见的操作是添加新的列。这就是mutate()函数工作了。 mutate()函数通常将新增变量放在数据集的最后面。...这些函数的一个关键属性就是向量化的:它必须使用一组向量值作为输入,然后返回相同长度的数值作为输出。我们没有办法将所有的函数都列举出来,这里选择一些被频繁使用函数。...然后,当你使用dplyr动词对分组的数据框进行操作,它会自动进行分组计算。...使用管道进行工作是属于tidyverse的一个重要标准。唯一的例外是ggplot2,它在管道开发之前就已经写好了。不幸的是,ggplot2的下一个版本ggvis会使用管道,但还没有发布。...有用的汇总函数 仅仅使用均值、计数和求和这些函数就可以帮我做很多事情,但R提供了许多其他有用的汇总函数: 位置度量 我们已经使用过mean()函数求取平均值(总和除以长度),median()函数也非常有用

2.5K20

Day07 生信马拉松-数据整理中的R

全文并非是对数据整理的实操整理,主要整理在数据整理/清洗中常用的R包介绍 library(tidyr) library(dplyr) library(stringr) library(tibble) 1...str_split(y," ",simplify = T) #"simplify"参数默认拆分取为matrix str_split(y," ",simplify = T) [,1] #只拆分提取第1列 1.3 位置提取字符串...as.matrix() %>% head(50) %>% pheatmap::pheatmap() 3.条件和循环 3.1 if(){ } 3.1.1 只有if没有else,那么条件是FALSE就什么都不做...dir() # 列出工作目录下的文件 dir(pattern = ".R$") #列出工作目录下以.R结尾的文件 file.create("douhua.txt") #用代码创建文件 file.exists...("douhua.txt") #某文件在工作目录下是否存在 file.remove("douhua.txt") #用代码删除文件 file.exists("douhua.txt") #删掉了就不存在啦

20600

玩转数据处理120题|R语言版本

expending函数计算开盘价的移动窗口均值 难度:⭐⭐ R解法 #R中没有expanding完全一致的函数 #考虑到expanding实际功能就是累积均值 #可以用cummean #但cummean...)) %>% dplyr::rename(`0` = "seq(0, 99, 5)") 84 数据创建 题目:从NumPy数组创建DataFrame 难度:⭐ 备注 使用numpy生成20个指定分布...df的每一行均值 难度:⭐⭐ R语言解法 rowMeans(df) 97 数据计算 题目:对第二列计算移动平均值 难度:⭐⭐⭐ 备注 每次移动三个位置,不可以使用自定义函数 R语言解法 library...:将第一列大于50的数字修改为'高' 难度:⭐⭐ R语言解法 df[df$col1 > 50,1] <- '高' 100 数据计算 题目:计算第一列与第二列之间的欧式距离 难度:⭐⭐⭐ 备注 不可以使用自定义函数...#如果文件特别大又不想全部再选指定列可以用如下办法 #基本思想先读取较少的数据获取列名 #给目标列以外的列打上NULL导致第二次读取文件NULL列丢失即可 res <- read.csv('数据1

8.6K10

学习小组DAY6-Creep

今天的学习内容是R包,R包是多个函数的集合,本次主要是学习dplyr包。安装和加载R包设置镜像每次下载R包,都需要重新配置镜像。...为了避免这种繁琐的操作可以使用file.edit('~/.Rprofile')建一个R的配置文件文件直接进行设置,在配置文件中运行以下代码options("repos" = c(CRAN="https:...:102),]dplyr五个基础函数mutate(),新增列select(),列筛选filter()筛选行arrange(),某1列或某几列对整个表格进行排序summarise():汇总进行汇总可以结合...其实就是以左边那个表格作为连接的依据找到对应的值,如果没有就以NA表示全连full_join半连接:返回能够与y表匹配的x表所有记录semi_join反连接:返回无法与y表匹配的x表的所记录anti_join...简单合并在相当于base包里的cbind()函数和rbind()函数;注意,bind_rows()函数需要两个表格列数相同,而bind_cols()函数则需要两个数据框有相同的行数以上就是本次的学习内容了

14180

R||R语言基础(三)_R包

今天继续学习R语言基础的R包使用,以R包:dplyr为例 数据准备 01 R包的安装 install.packages(“dplyr”) 或BiocManager::install(“dplyr”)...dplyr五个基础函数 1. mutate() 增加列 mutate(test, new = Sepal.Length * Sepal.Width) #增加名为“new”的一列 2.select...() 列筛选 1)列号筛选 select(test,1) select(test,c(1,5)) #提取第一列和第五列 由上图可以看出直接提取也是可以的 2)列名筛选 select(test...其核心包有ggplot、readr、tibble、purrr、 tidyr 、dplyr、ggplot、forcats 和stringr8个. 我们这里用的是dplyr包,因此可以使用管道。...anti_join 反连接:返回无法与y表匹配的x表的所记录(semi_join的anti版本) anti_join(x = test1, y = test2, by = 'x') 6.bind_rows

3.3K50
领券