首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

R︱高效数据操作——data.table包(实战心得、dplyr对比、key灵活用法、数据合并)

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table) 同时,data.table与data.frame数据呈现方面,还有有所不同。...(x,y)分组,而且可以设定x/y两种分组求new_car平均值。 (1)data.table多种方式混合输出: mydata[,....DT数据集按照x分组,然后计算v变量和、最小值、最大值。 (2)dplyr函数利用%>%(链式操作)改进: 链式操作是啥意思呢?...data.table行操作跟data.frame很像,可以data[1,]就可以获得第一行数据,同时也可以用,data[1]获得行信息,这个是data.table特有的。...(get(names(data)[i]))] } 这个是我目前遍历时候用到代码,不知道观众有没有更好呢?

7.5K43

一行代码搞定分组回归

写 在前面 目前为止所有小伙伴们向大猫请教过R问题中,大猫总结了最常遇见同时也是比较难三个问题,分别是(1)事件研究法;(2)分组回归;(3)滚动回归。...事件研究法第一期已经讲述,本期我们就来瞧瞧如何做分组回归~ PS:由于微信限制,给大猫留言小伙伴超过48小后大猫就不能回复你们了。所以如果想联系大猫,可以按照文章最后微信号加大猫微信哦。...keyby语句为data.table包分组语句,它能够对keyby每一个不同值(这里为abcde)都分别跑一次回归。...as.list作用就在于,它把原来“竖着”系数给“拉平”了,无论最终结果会出现几个系数,统统放到一行显示。...拓 展 这时有的小伙伴可能想问,有没有可能同时计算两个不同回归方程?比如还是上面这个数据集,我想同时输出带系数回归结果和不带系数回归结果,应该怎么做?

3.4K40
您找到你想要的搜索结果了吗?
是的
没有找到

pheatmap|暴雨暂歇,“热图”来袭!!!

热图可以聚合大量数据,并可以用一种渐进色优雅地表现,可以很直观地展现数据疏密程度或频率高低。 本文利用R语言 pheatmap 包从头开始绘制各种漂亮热图。...参数像积木,拼凑出你最喜欢热图即可,如下图: 基因和样本都可以单独聚类,排序,聚类再分组,行列注释,配色调整,调整聚类线以及单元格宽度和高度均可实现。 ?...设定 text 热图中展示数值 # display_numbers = TRUE参数设定在每个热图格子显示相应数值,#number_color参数设置数值字体颜色 pheatmap(test,...data.frame(test[order_row,order_col]) # 将行名加到表格数据 result = data.frame(rownames(result),result,check.names...R的当前工作目录下即可查看热图结果。

1.2K10

单细胞转录组数据分析||Seurat并行策略

作者 | 周运 随着单细胞技术成熟,单细胞数据分析往往不再是单个组织样本,这有时候计算(资源与时间)上是一个挑战。为此,Seurat也提供了可以探索并行策略。...在数据分析过程,比如我们计算差异基因,其实是单个基因计算,一般是算完一个再算下一个,并行意思就是同时计算,以节约时间。 Seurat,我们选择使用future并行化框架。...要访问Seurat函数并行版本,需要加载future包并设置plan。该plan将指定如何执行该函数。默认行为是以非并行方式(顺序地)计算。...FAQ 我进度条去哪了? 不幸是,当以任何并行计划模式运行这些函数,您将丢失进度条。这是由于一些技术限制未来框架和R一般。...特别地,当我们R计算中途突然发现某个任务报错说超出内存了,怎么办呢?

3.3K31

不再纠结,一文详解pandasmap、apply、applymap、groupby、agg...

、多列数据进行批量运算或分组聚合运算,熟悉这些方法后可极大地提升数据分析效率,也会使得你代码更加地优雅简洁。...譬如这里我们编写一个使用到多列数据函数用于拼成对于每一行描述性的话,并在apply()用lambda函数传递多个值进编写好函数(当调用DataFrame.apply(),apply()串行过程实际处理是每一行数据...,apply()同时输出多列实际上返回是一个Series,这个Series每个元素是与apply()传入函数返回值顺序对应元组。...我们知道apply()在运算实际上仍然是一行一行遍历方式,因此计算量很大如果有一个进度条监视运行进度就很舒服。...三、聚合类方法 有些时候我们需要像SQL里聚合操作那样将原始数据按照某个或某些离散型列进行分组再求和、平均数等聚合之后值,pandas中分组运算是一件非常优雅事。

4K30

不再纠结,一文详解pandasmap、apply、applymap、groupby、agg...

map()还有一个参数na_action,类似Rna.action,取值为None或ingore,用于控制遇到缺失值处理方式,设置为ingore串行运算过程中将忽略Nan值原样返回。...输出多列数据 有些时候我们利用apply()会遇到希望同时输出多列数据情况,apply()同时输出多列实际上返回是一个Series,这个Series每个元素是与apply()传入函数返回值顺序对应元组...结合tqdm给apply()过程添加进度条 我们知道apply()在运算实际上仍然是一行一行遍历方式,因此计算量很大如果有一个进度条监视运行进度就很舒服。...可以看到jupyter lab运行程序过程,下方出现了监视过程进度条,这样就可以实时了解apply过程跑到什么地方了。...三、聚合类方法 有些时候我们需要像SQL里聚合操作那样将原始数据按照某个或某些离散型列进行分组再求和、平均数等聚合之后值,pandas中分组运算是一件非常优雅事。

4.9K10

生信代码:“热图”来袭(pheatmap)

热图可以聚合大量数据,并可以用一种渐进色优雅地表现,可以很直观地展现数据疏密程度或频率高低。 本文利用R语言 pheatmap 包从头开始绘制各种漂亮热图。...参数像积木,拼凑出你最喜欢热图即可,如下图: 基因和样本都可以单独聚类,排序,聚类再分组,行列注释,配色调整,调整聚类线以及单元格宽度和高度均可实现。 ?...设定 text 热图中展示数值 # display_numbers = TRUE参数设定在每个热图格子显示相应数值,#number_color参数设置数值字体颜色 pheatmap(test,...# 设定数值显示格式 pheatmap(test, display_numbers = TRUE, number_format = "%.1e") ?...data.frame(test[order_row,order_col]) # 将行名加到表格数据 result = data.frame(rownames(result),result,check.names

5.6K31

(数据科学学习手札69)详解pandasmap、apply、applymap、groupby、agg

,用于对单列、多列数据进行批量运算或分组聚合运算,熟悉这些方法后可极大地提升数据分析效率,也会使得你代码更加地优雅简洁,本文就将针对pandasmap()、apply()、applymap()、...map()还有一个参数na_action,类似Rna.action,取值为'None'或'ingore',用于控制遇到缺失值处理方式,设置为'ingore'串行运算过程中将忽略Nan值原样返回。...● 结合tqdm给apply()过程添加进度条   我们知道apply()在运算实际上仍然是一行一行遍历方式,因此计算量很大如果有一个进度条监视运行进度就很舒服,(数据科学学习手札53)Python...可以看到jupyter lab运行程序过程,下方出现了监视过程进度条,这样就可以实时了解apply过程跑到什么地方了。...三、聚合类方法   有些时候我们需要像SQL里聚合操作那样将原始数据按照某个或某些离散型列进行分组再求和、平均数等聚合之后值,pandas中分组运算是一件非常优雅事。

4.9K60

R」apply,lapply,sapply用法探索

本文节选自张丹R极客理想》系列。 1. apply家族函数 apply函数族是R语言中数据处理一组核心函数,通过使用apply函数,我们可以实现对数据循环、分组、过滤、类型控制等操作。...但是,由于R语言中apply函数与其他语言循环体处理思路是完全不一样,所以apply函数族一直是使用者玩不转一类核心函数。...通过上面的测试,对同一个计算来说,优先考虑R语言内置向量计算,必须要用到循环则使用apply函数,应该尽量避免显示使用for,while等操作方法。...参数列表: X:list、data.frame数据 FUN: 自定义调用函数 …: 更多参数,可选 比如,计算list每个KEY对应该数据分位数。...,输出结果按数组进行分组 USE.NAMES: 如果X为字符串,TRUE设置字符串为数据名,FALSE不设置 我们还用上面lapply计算需求进行说明。

4.4K32

Matt Dowle 演讲节选(二)

上期回顾 上次讲到 Matt 转移到 R 阵营之后,开始思考下面那个无法 S-PLUS 上面实现命令,能否 R 实现呢?...> DF[2:3, sum(B)] 注: S-PLUS ,以上命令必须要用一种非常不直观方式写出来,如下: > sum(DF[2:3, "B"]) 2004:data.table诞生 2004...2004年第一天,Matt 离开了所罗门兄弟,也离开了 S-PLUS。他开始不断尝试,终于用自己方式重写了[.data.frame这个函数,从而让sum(B) R 也能得以运行。...这里关键在于,一种方法,每为新一行赋值,data.table就要重新复制一遍DT,也就是说,第一种方法运行过程,DF被复制了1000遍!...在这个2012年(注意dplyr最早版本2016年!)帖子,一个用户需要处理以下数据集(这里只显示前6行) ? 他想首先按照gene_id分组,然后分别计算特定变量极值和均值。

1.1K40

R语言︱机器学习模型评估方案(以随机森林算法为例)

刚刚接触机器学习时候,觉得监督学习之后,做一个混淆矩阵就已经足够,但是完整机器学习解决方案并不会如此草率。需要完整评价模型方式。...常见应用在监督学习算法计算平均绝对误差(MAE)、平均平方差(MSE)、标准平均方差(NMSE)和均值等,这些指标计算简单、容易理解;而稍微复杂情况下,更多地考虑是一些高大上指标,信息熵、...第一种方法:循环语句写验证 data <- iris pred <- data.frame() #存储预测结果 library(plyr) library(randomForest) m <- seq(...以便后续应用apply族进行运算,这样可以避免循环,浪费大多时间。 2、三大指标计算 23种树数量方式(j),每一折汇总mse指标,有5折,共215个案例。...(有点像data.tabledcast,进行分组)进行统计计算

4.4K20

R语言数据分析利器data.table包 —— 数据框结构处理精讲

将一个R对象转化为data.table,R可以矢量,列表,data.frame等,keep.rownames决定是否保留行名或者列表名,默认FALSE,如果TRUE,将行名存在"rn"行,keep.rownames...showProgress,工作台显示进程,当用file=="",自动忽略此参数 verbose,是否交互和报告时间 data.table数据框结构处理语法 data.table[ i , j ,...by]    i 决定显示行,可以是整型,可以是字符,可以是表达式,j 是对数据框进行求值,决定显示列,by对数据进行指定分组,除了by ,也可以添加其它一系列参数: keyby,with,nomatch..., by=x][order(x)] #和上面一样,采取data.table链接符合表达式 DT[v>1, sum(y), by=v] #对v列进行分组后,取各组v>1行出来,各组分别对定义...roll 当i全部行匹配只有某一行不匹配,填充该行空白,+Inf(或者TRUE)用上一行值填充,-Inf用下一行值填充,输入某数字,表示能够填充距离,near用最近行填充 rollends

5.6K20

快速掌握R语言中类SQL数据库操作技巧

在数据分析,往往会遇到各种复杂数据处理操作:分组、排序、过滤、转置、填充、移动、合并、分裂、去重、找重、填充等操作。这时候R语言就是一个很好选择:R可以高效地、优雅地解决数据处理操作。...(本章节为R语言入门第二部分总结篇:数据操作) 本章内容布局思路:思来想后,想到SQL查询查询思路可以作为本章节布局思路 1.了解表结构/数据结构 2.对表一些数据做出修改、替换、甚至生成新字段...对于NA值操作,主要都集中了过滤操作和填充操作,因此就不在单独介绍NA值处理了。...此处仅讲述aggregate数据分组计算内容,更多分组计算内容 参考→《R语言 分组计算,不止group_by》 dplyr包group_by联合summarize group_by和summarise...有时候分裂split也被用于分组计算

5.6K20

主成分(PCA)分析

主成分分析(Principal Component Analysis,PCA), 是一种降维方法,也是文章发表中常见用于显示样本与样本之间差异性计算工具。...01 R包加载、读入数据 首先我们加载需要用到R包,ggpubr和ggthemes包用于作图gmodels包用于计算PCA。 ? 读入表达谱数据并显示文件前6行,每一列为一个样本,每一行为一个基因。...02 PCA计算 使用gmodels包fast.prcomp函数计算PCA。该包计算运行所用时间比R内置prcomp函数要快很多。...另外如果样本数目比较多,比如有100个样本,我们并不想把所有的样本名称都显示图表,只想显示重要2-4个样本,有没有什么更好操作方法呢?这里就到了我们究极作图美化环节了~ ? ?...当然,我们也可以把分组边界线去掉,同时将点透明度降低,凸显两组差异和CD52关系。 ? ?

3.3K41

开源C# WPF控件库《MaterialDesignInXAML》强力推荐

导航目录: 首页 支持主题风格切换 按钮 输入验证框 标签 卡片 图标 分组进度条 对话框 抽屉 简单提示 1、首页 从首页卡片布局就觉得很爽有没有?...有相关项目界面需求,使用这种方式展示数据很直观。 首页 2、支持主题风格切换 该控件库配有数十种颜色风格,满足大部分配色要求。...各式各样按钮 4、输入验证框 表单验证,常规做法是ViewModel写业务逻辑验证代码,或者XAML写验证表达式。...Icon Pack 8、分组框 Group Boxes,组合框,类似卡片,组合框Header自定义很方便,可添加图片 Group Boxes 9、进度条 各式各样进度条,还在为调整进度条各个部分而烦恼吗...简单提示 写在文章最后的话 WPF开源控件库很多,大家可以Github上搜索,这套控件库应该是开源中最好了,站长个人认为哈,大家也可以在下方留言,大家相互讨论学习,站长在工作也常用此控件库,真的是极大方便了工作

3.5K30

(一)开源C# WPF控件库《MaterialDesignInXAML》强力推荐

导航目录: 首页 支持主题风格切换 按钮 输入验证框 标签 卡片 图标 分组进度条 对话框 抽屉 简单提示 1、首页 从首页卡片布局就觉得很爽有没有?...有相关项目界面需求,使用这种方式展示数据很直观。 ? 首页 2、支持主题风格切换 该控件库配有数十种颜色风格,满足大部分配色要求。 ?...各式各样按钮 4、输入验证框 表单验证,常规做法是ViewModel写业务逻辑验证代码,或者XAML写验证表达式。...进度条 10、对话框 遮罩式对话框,是不是很酷?支持整个窗体遮罩,也支持窗体部分用户控件对话框(这个我觉得我实用,有没有您对应应用场景?) ?...简单提示 写在文章最后的话 WPF开源控件库很多,大家可以Github上搜索,这套控件库应该是开源中最好了,站长个人认为哈,大家也可以在下方留言,大家相互讨论学习,站长在工作也常用此控件库,真的是极大方便了工作

4.1K10

R画带ErrorBar分组条形图

R画带ErrorBar分组条形图 本文介绍了如何用R画出带error bar分组条形图。 笔者近期画了一张带error bar分组条形图,将相关代码分享一下。...本文旨在给出一种利用R对生物学重复数据画带error bar分组条形图方法。 所用数据是模拟生成:分成三个组,每个组进行了若干次生物学重复;测量是3种基因表达量。...colnames(df)[1:3] <- c("gene-1", "gene-2", "gene-3") str(df) # 显示数据集内容 ## 'data.frame': 3000 obs....colnames(df)[1:3] <- c("gene-1", "gene-2", "gene-3") str(df) # 显示数据集内容 ## 'data.frame': 3000 obs....最后,两种方法完整代码如下: #################第一种实现方法:用aggregate计算数据###################### # 导入数据 setwd("E:/") df

3.3K10

交互式网络可视化—visNetwork

导语 GUIDE ╲ 通常是使用Cytoscape、igraph包等可视化网络,虽然能够创建美观网络图,但它们只是静态。...对于创建交互式网络可视化,可以使用R特定包—visNetwork,有许多参数来创建个性化网络。..., main = "Group") %>% visOptions(highlightNearest = list(enabled = T, degree = 2, hover = T)) #单击节点突出显示最近节点...= 0.05, position = "right", main = "Group") %>% visHierarchicalLayout() visIgraphLayout,可以使用igraph所有可用布局并计算坐标...优于常规网络可视化方法是交互式动态呈现,生动有趣。简单几行代码就可以满足你对网络图更“苛刻”要求,一起探索他更多功能吧!

3K61
领券