首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

R︱高效数据操作——data.table包(实战心得、dplyr对比、key灵活用法、数据合并)

data.table,还有一个比较特立独行函数: 使用:=引用来添加或更新一列(参考:R语言data.table速查手册) DT[, c("V1","V2") := list(round(exp(V1...2、按条件行筛选 从前用subset方式进行筛选比较多, new=14,select=a:f) (1)单变量 现在data.table与dplyr from_dplyr =...DT数据集按照x分组,然后计算v变量和、最小值、最大值。 (2)dplyr函数利用%>%(链式操作)来改进: 链式操作是啥意思呢?...SD只能在位置j中使用。 .SDcols常于.SD用在一起,他可以指定.SD中所包含列,也就是.SD取子集。...—————————————————————— 实战一:在data.table如何选中列,如何循环提取、操作data.table列?

7.4K43

R数据科学-1(dplyr

两个软件包命令都可以与管道函数(%>%)很好地配合使用,这可以使代码更具可读性。详细内容可参考Cheatsheet手册。...image.png image.png 1.数据框格式(DataFrame) 一般,我们excel包括行(col)与列(row),在R语言中,经常excel操作对象称之为Dataframe,那么在进行数据查看时候...# … with 22 more rows 3.数据-变量条件筛选 dplyr::filter()函数对上述新产生变量数据df,进行筛选。...new=mpg*cyl) df %>% dplyr::filter(am==1) df %>% dplyr::filter(am==1 & gear==4) 5.数据分组计算 有时候,需要分组计算均值标准差...譬如,不同gear计算mpg均值及标准差。或者根据am及gear分组计算mpg均值标注差。

1.6K20
您找到你想要的搜索结果了吗?
是的
没有找到

R语言之数值型描述分析

除了上面提到函数 summary( ),R 还有很多用于计算特定统计量函数(见第二章)。...例如,计算数据框 cont.vars 各个变量样本标准差: sapply(cont.vars, sd) 基本包没有提供计算偏度和峰度函数,我们可以根据公式自己计算,也可以调用其他包里函数计算,...这些包提供了种类繁多计算统计量函数,这几个包在首次使用前需要先安装。下面 psych 包为例进行说明。psych 包被广泛应用于计量心理学。...psych 包里函数 describe( )可以计算变量忽略缺失值后样本量、均值、标准差、中位数、截尾均值、绝对位差、最小值、最大值、全距、偏度、峰度和均值标准误等。...如果直接使用 list(birthwt$smoke),则上面分组名称将会是“Group.1”而不是“smoke”。

18120

Day6 呦呦鹿鸣—学习R

)dplyr包为例 官方包文档dplyr示例数据test <- iris[c(1:2,51:52,101:102),]取R自带iris数据第1,2,51,52,101,103行?...group_by使用实用性强\ 将多个值减少到单个值summarise(test, mean(Sepal.Length), sd(Sepal.Length)) # 计算Sepal.Length平均值和标准差...(Sepal.Length), sd(Sepal.Length))R管道操作符2:count统计某列unique值count(test,Species)分类变量每个变量频数dplyr处理关系数据将...2个表进行连接1.內连inner_join,取交集inner_join(test1, test2, by = "x")满足两个条件:有相同变量名,相同变量列里有相同元素;2.左连left_join列表书写顺序决定了最终合成列表顺序...,每列数值类型必须相同;"by"列为标准,补齐列表,空值为"NA"4.半连接:返回能够与y表匹配x表所有记录semi_join交集表test1部分列semi_join(x = test1,

14110

DAY6-学习R

install.packages(“包”)或BiocManager::install(“包”)install.packages("dplyr") 加载 library和require 使用一个R包需先安装再加载...library(dplyrdplyr五个基础函数mutate(),新增列——mutate(test, new = Sepal.Length*Sepal.Width)要修改数据框名称将创建变量名称将分配给新变量值...test名为Sepal.Length一列按列名筛选select(test, Petal.Length, Petal.Width)选择字符向量列,select不能直接使用字符向量筛选,需要使用one_of...%in% c("setosa","versicolor"))#筛选test中有"setosa","versicolor"行arrange(),按某1列或某几列整个表格进行排序arrange(test...))#按照Species分组,计算每组Sepal.Length平均值和标准差并汇总dplyr两个实用技能管道操作 %>% —— 相当于将左边作为右边函数第一个参数,快捷键: ctrl+shift+

17930

学习R

本次dplyr为例安装和加载R包镜像设置运行这两行代码options("repos"=c(CRAN="http://mirrors.tuna.tsinghua.edu.cn/CRAN/"))options...使用一个R包:先安装,再加载,最后使用实操代码(依旧dplyr为例)options("repos"=c(CRAN="http://mirrors.tuna.tsinghua.edu.cn/CRAN/"...R内置数据,test <- irisc(1:2,51:52,101:102),dplyr包不仅可以对单个表格进行操作,也可以对双表格进行操作。...dplyr包有很多函数,为了防止dplyr函数名与其他函数产生冲突,使用时前面加上“包名::”dplyr五个基础函数mutate(),新增列select(),按列筛选按列号筛选注意筛选内容与表格内容统一...sd(Sepal.Length))# 计算Sepal.Length平均值和标准差eg:先按照Species分组,计算每组Sepal.Length平均值和标准差group_by(test, Species

10510

生信星球Day4 学习R

今日学习内容:如何安装R包?.../p/861224f4251aoptions() 设置R运行过程一些选项设置options()$repos 查看使用install.packages安装时默认镜像options()$BioC_mirror...查看使用bioconductor默认镜像R最重要两个配置文件: 一是.Renviron,能够设置R环境变量; 二是.Rprofile,如果启动时找到这个文件,那么就替我们先运行一遍(这个过程就是在启动...安装和加载需要联网,dplyr为例:options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) options(BioC_mirror...() 按某1列或某几列整个表格进行排序,默认从小到大,用desc()可从大到小summarise() 汇总,配合group_by()分组,可以mean()求平均值,sd()求标准差test <-

18540

生信学习-Day6-学习R

") library(dplyr) 测试数据框: test <- irisc(1:2,51:52,101:102), 在R语言中,这行代码是对数据集 iris 进行子集选择操作。...在dplyrfilter()函数中使用时,它可以用于筛选数据框匹配给定集合任一值行。这行代码作用如下: filter(test, ...): 在test数据框筛选行。...Sepal.Length平均值和标准差 先按照Species分组,计算每组Sepal.Length平均值和标准差 group_by(test, Species) summarise(group_by...数据框是R语言中类似于表格二维数组结构,每一列包含了一个变量值,每一行包含了每个变量一个值集。...2.inner_join(test1, test2, by = "x")內连inner_join,取交集 在R,inner_join(test1, test2, by = "x") 是一个使用 dplyr

16610

R tips:使用!!来增加dplyr可操作性

这种易用性是有代价,假如想要对分析工作稍微增加一些编程属性时,就会发现dplyr异常情况,比如将分组变量赋值给一个变量使用变量进行分组: ### 分组变量group_var无法完成工作 group_var...R代码运行过程 在介绍!!运算符之前,有必要先了解一下R代码如何运行。 在R console输入一个代码R就会返回代码结果。...一个代码R console是直接运行到结束,如果想要获得其中间态:语句,可以使用expr函数来捕获它。...为了可以让它执行,我们可以需要告诉dplyr,先group_var求值,获得真正分组名:gear,使用gear进行后续操作,这个先求值操作可以通过!!运算符来完成。...在mutate完成新变量编程 假如想要在mutate中使用变量变量进行设置,其结果并不会如愿,比如,将新变量名var_name赋值为“gear_new",使用var_name进行mutate操作

2.2K31

R||R语言基础(三)_R

今天继续学习R语言基础R使用R包:dplyr为例 数据准备 01 R安装 install.packages(“dplyr”) 或BiocManager::install(“dplyr”)...#务必要打引号 02 R调用/加载 library(dplyr) 或require(dplyr) #这里不用引号 部分人可能会因为镜像问题失败,解决方法https://mp.weixin.qq.com...setosa"&Sepal.Length > 5 ) filter(test, Species %in% c("setosa","versicolor")) 4.arrange() 按某1列或某几列整个表格进行排序...group_by(test, Species) #按照Species分组 # 先按照Species分组,计算每组Sepal.Length平均值和标准差 summarise(group_by(...其核心包有ggplot、readr、tibble、purrr、 tidyr 、dplyr、ggplot、forcats 和stringr8个. 我们这里用dplyr包,因此可以使用管道。

3.3K50

R语言之 dplyr

这个包一种统一规范更高效地处理数据框。dplyr 包里处理数据框所有函数第一个参数都是数据框名。 下面 MASS 包里 birthwt 数据集为例,介绍 dplyr 包里常用函数用法。...slice(birthwt, 2:5) 2.使用 arrange( ) 排列行 有时候我们想要将数据框记录按照某个变量进行排序,函数 arrange() 可以实现这个功能。...select(birthwt, bwt, age, race, smoke) 请注意,MASS 包里有一个同名函数 select( ),如果同时加载了 dplyr 包和 MASS 包,R 会默认使用较后加载包里函数...4.使用 mutate( ) 添加新变量 函数 mutate( ) 用于在数据框创建新变量。...as_tibble(birthwt) 下面我们将会看到,把函数 group_by( ) 和 summarise( ) 联合使用能方便地变量进行分组统计。 7.

38220

Day6生信入门—R

下面dplyr为例,学习R包 安装和加载R包 初级模式 通过options()$repos检验 升级模式 为了保证可以自定义CRAN和Bioconductor下载镜像,只需要运行这两行代码即可:...Rstudio,下载Bioconductor还是会回到官方镜像,可以查询options()$BioC_mirror,如果依然是自己设置国内镜像,就不用管了;如果发现需要再重新运行一遍代码进行设置,那么使用下面的高级模式...### 高级模式 使用R配置文件.Rprofile 图片 1)首先用file.edit()来编辑文件:file.edit('~/.Rprofile') 2) 然后在左上添加两行options代码:...") library(dplyr) 示例数据直接使用内置数据集iris简化版: test <- iris[c(1:2,51:52,101:102),] dplyr五个基础函数 注意,井号开头代码运行记录...Species分组,计算每组Sepal.Length平均值和标准差: group_by(test, Species) summarise(group_by(test, Species),mean(Sepal.Length

42320

生信学习小组Day6笔记—Chocolate Ice

.Renviron,它是为了设置R环境变量(这里先不说它);而.Rprofile就是一个代码文件,如果启动时找到这个文件,那么就替我们先运行一遍(这个过程就是在启动Rstudio时完成) -----...-微信公众号:生信星球首先用file.edit('~/.Rprofile')打开.Rprofile文件;然后在.Rprofile文件内添加下列两行代码# options函数就是设置R运行过程一些选项设置...”):安装Biocductor包加载R包library(包)或者require(包)Rstudio包只需要安装一次,但每次启动都需要重新加载Rdplyr五个基础函数以R自带iris数据框为例...summarise(test, mean(Sepal.Length), sd(Sepal.Length))# 计算Sepal.Length平均值和标准差# 先按照Species分组,计算每组Sepal.Length...平均值和标准差group_by(test, Species) #test按照Species分组summarise(group_by(test, Species),mean(Sepal.Length),

72930

Day6——R

思维导图安装和加载Rdplyr函数为例options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) options(...,select不能直接使用字符向量筛选,需要使用one_of函数R语言中使用vars参数指定数据框需要分析字段索引范围在R语言中,我们经常需要对数据框进行分析和处理。...数据框是一种二维表格结构,其中包含了多个变量(字段)和观测值(行)。在进行数据分析时,有时我们只对数据框特定字段感兴趣,而不需要使用所有的字段。...这时,我们可以使用vars参数来指定需要分析字段索引范围,从而提取出感兴趣字段进行后续操作。vars参数是dply包select函数一个参数,它允许我们通过指定字段索引范围来选择需要字段。...计算Sepal.Length平均值和标准差group_by(test, Species)#先按照Species分组summarise(group_by(test, Species),mean(Sepal.Length

13810
领券