开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在R data.table中按组修剪均值

是指使用data.table包中的函数来按照指定的组对数据进行分组，并计算每个组的均值。修剪均值是一种统计方法，它可以通过去除一组数据中的最大值和最小值来减少异常值的影响，从而更准确地估计数据的中心趋势。

在data.table中，可以使用by参数指定要按照哪个列进行分组，然后使用mean()函数计算每个组的均值。为了实现修剪均值，可以使用fivenum()函数来计算每个组的五数概括（最小值、下四分位数、中位数、上四分位数、最大值），然后去除最小值和最大值，再计算剩余值的均值。

以下是一个示例代码：

library(data.table)

# 创建一个示例数据表
dt <- data.table(
  group = c("A", "A", "B", "B", "B", "C"),
  value = c(10, 15, 20, 25, 30, 35)
)

# 按组修剪均值
dt[, trimmed_mean := mean(value[fivenum(value)[2:4]]), by = group]

# 查看结果
print(dt)

输出结果如下：

   group value trimmed_mean
1:     A    10           10
2:     A    15           10
3:     B    20           25
4:     B    25           25
5:     B    30           25
6:     C    35           35

在上述示例中，我们按照"group"列进行分组，并使用fivenum()函数计算每个组的五数概括。然后，我们使用索引[2:4]选择除了最小值和最大值之外的剩余值，并使用mean()函数计算剩余值的均值。最后，我们将修剪均值存储在新的列"trimmed_mean"中。

这种按组修剪均值的方法适用于需要减少异常值影响的情况，例如在统计学、数据分析和机器学习等领域中。腾讯云提供了多个与数据处理和分析相关的产品，例如腾讯云数据仓库（TencentDB）、腾讯云数据湖（Tencent Cloud Data Lake）等，可以帮助用户进行数据的存储、管理和分析。具体产品介绍和链接地址可以参考腾讯云官方网站。

相关搜索:data.table -在R中过滤按ID分组的行 R data.table按组排序，每组底部有"other“R- ggplot气泡图按组平均值计算大小 R在ifelse中按组修改列使用dplyr按组比较R中的平均值(ANOVA)修剪在R中使用时对均值的影响在data.table中按组计算分数的有效方法在HighcharteR -R中按类组展开在Plotly R中按组汇总数据在r data.table中查找重复组

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

PRS多基因评分教程学习笔记(二）

应对对照样品进行过滤，以避免过滤因果关系的SNP（在某些情况下应选择） --geno 0.01 \ #排除了在大部分受试者中缺失的SNP。...我们将删除F系数与均值相比超过3个标准差（SD）单位的个人，可以使用以下R命令执行此操作。...在进行性别检查之前，应进行修剪（请参见此处）。...这可以通过以下步骤实现： a.将bim文件，GIANT摘要统计信息和QC SNP列表加载到R中: library(data.table) # Read in bim file bim <- fread(...Relatedness 目标数据中关系密切的个人可能会导致结果过拟合，从而限制了结果的通用性。在计算相关性之前，应进行修剪（请参见此处）。

2.2K3 0

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

R语言︱数据集分组大型数据集通常是高度结构化的，结构使得我们可以按不同的方式分组，有时候我们需要关注单个组的数据片断，有时需要聚合不同组内的信息，并相互比较。...1 2 [6,] 1 2 [7,] 1 2 [8,] 1 2 [9,] 1 2 [10,] 1 2 ##后续处理 ##计算组的长度和组内均值...data.table包的语法简洁，并且只需一行代码就可以完成很多事情。进一步地，data.table在某些情况下执行效率更高。...（参考来源：R高效数据处理包dplyr和data.table，你选哪个？） ?...在使用data.table时候，需要预先布置一下环境： data<-data.table(data) 如果不布置环境，很多内容用不了。

20.6K3 2

GWAS计算BLUE值2--LMM计算BLUE值

GWAS计算BLUE值2--LMM计算BLUE值 #2021.12.12 本节，介绍如何使用R语言的lme4包拟合混合线性模型，计算最佳线性无偏估计（blue） 1....Springer International Publishing, 2017.❞ 该数据有62个重组自交系（RIL），在4个地点进行试验，随机区组，每个地点2个重复，每个小区种植20株，随机选择5株的表型平均值作为观测值...读取数据及转换为因子 library(lme4) library(emmeans) library(data.table) library(tidyverse) library(asreml) dat...= fread("MaizeRILs.csv",data.table = F) head(dat) str(dat) col = 1:5 dat[,col] = dat %>% select(all_of...95%的同学，在计算GWAS分析表型值计算时，都是用上面的模型计算出blue值，然后直接进行计算，其实还有更好的模型。

1.2K3 0

「R」数据操作（三）：高效的data.table

接「R」数据操作（一）和「R」数据操作（二）使用data.table包操作数据 data.table包提供了一个加强版的data.frame，它运行效率极高，而且能够处理适合内存的大数据集，它使用[]...N是最常用的符号之一，它表示当前分组中，对象的数目（就不用调用nrow函数啦）。在[]使用它指提取最后一行。...的均值。...下面代码没有按组聚合数据，而是画了每年的价格图： oldpar = par(mfrow = c(1, 2)) market_data[, { plot(price ~ date, type =...举例，我们定义一个函数，计算market_data中由用户定义的列的年度均值： average = function(column){ market_data[, .

6K2 0

能不能让R按行处理数据？

这些问题都是在平日的工作中有很高可能性出现并且看似容易实则让人抓狂的问题，在Stackoverflow上他们有着很高的人气。事实上，这些问题也就是你在“看懂一本R的教材”和“成为R大神”之间的距离。...如果要自己寻找Stackoverflow上与R或是data.table相关的问题，可以在搜索栏输入[R] [data.table] Your question。提出问题好啦，开始上课！...解题思路在解决本问题的过程中我们需要用到data.table包！...我们只要把数据按照fund_name分组，然后对每组求scale的均值。唯一需要注意的有两点。首先，别忘了mean中的na.rm = T参数，它能够让函数忽略缺失值。...其次，最后计算出的结果中会有NaN（not a number）值，产生这种情况是因为在计算均值中出现了0作为除数的情况，对此我们需要用!is.finite()将其排除。

1.3K2 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

data.table中，还有一个比较特立独行的函数：使用:=引用来添加或更新一列（参考：R语言data.table速查手册） DT[, c("V1","V2") := list(round(exp(V1...在筛选列变量的数据，也可以与%in%集合运算联用（集合运算见博客：R语言︱集合运算）。...(x,y)来分组，而且可以设定x/y两种分组，来求new_car的平均值。（1）data.table多种方式混合输出： mydata[,....在dplyr分组求和的过程中，还是挺有用的。...(x)] 还有 data$x 如果有很多名字很长的指标，data.table中如果按列进行遍历呢？ data[,1]是不行的，选中列的方式是用列名。

7.7K4 3

R语言学习笔记之——数据处理神器data.table

R语言作为专业的统计计算语言，数据处理是其一大特色功能，事实上每一个处理任务在R语言中都有着不止一套解决方案（这通常也是初学者在入门R语言时，感觉内容太多无从下手的原因），当然这些不同方案确实存在着性能和效率的绝大差异...data.table 1、I/O性能： data.table的被推崇的重要原因就是他的IO吞吐性能在R语言诸多包中首屈一指，这里以一个1.6G多的2015年纽约自行车出行数据集为例来检验其性能到底如何，...DT[i,j,by] 如果这个过程是SQL中是由select …… from …… where …… groupby …… having 来完成的，在R的其他基础包中起码也是分批次完成的。...如果想要运行的同时进行输出则可以在结尾加上[] setorder(mydata,carrier,-arr_delay)[] ? 这个功能有点儿类似于基础函数中，在语句外部加上圆括号。...左手用R右手Python系列——数据合并与追加长宽转换：长宽转换仍然支持plyr中的melt/dcast函数以及tidyr中的gather/spread函数。

3.6K8 0

5个例子比较Python Pandas 和R data.table

Python和R是数据科学生态系统中的两种主要语言。它们都提供了丰富的功能选择并且能够加速和改进数据科学工作流程。...在这篇文章中，我们将比较Pandas 和data.table，这两个库是Python和R最长用的数据分析包。我们不会说那个一个更好，我们这里的重点是演示这两个库如何为数据处理提供高效和灵活的方法。...这两个库都允许在一个操作中应用多个聚合。我们还可以按升序或降序对结果进行排序。...N”可作为data.table中的count函数。默认情况下，这两个库都按升序对结果排序。排序规则在pandas中的ascending参数控制。data.table中使用减号获得降序结果。...示例5 在最后一个示例中，我们将看到如何更改列名。例如，我们可以更改类型和距离列的名称。

3K3 0

肺癌转移中的再生谱系和免疫介导的修剪

单细胞转录组数据情况数据链接是：https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?...第一层次降维聚类分群文章中使用t分布随机相邻嵌入(t-SNE)按随正常肺、原发性肿瘤和转移性LUAD进行降维聚类分析文章中给出来的分群主要是： stromal lymphoid myeloid epithelial...它们在免疫应答中起着关键作用，参与抗体产生、细胞毒性和免疫调节等过程。 Myeloid（髓系细胞）：髓系细胞包括巨噬细胞、粒细胞、单核细胞和树突状细胞等。...在肺癌转移中，上皮细胞可能参与肿瘤细胞的入侵和转移过程。 Endothelial（内皮细胞）：内皮细胞是血管壁的主要组成部分，具有调节血管功能和血液流动的作用。...在自然杀伤细胞耗竭引发的大转移中，发育阶段特异性约束的丧失表明，在转移过程中，发育可塑性和免疫介导的修剪之间存在动态相互作用。

2341 0

「R」data.table 包功能特性学习

# 3: C ## 4: A ## 5: B ## 6: C ## 7: A ## 8: B ## 9: C ## 10: A ## 11: B ## 12: C 按组对列进行计算操作...# 对V1的每一组计算V4的和 DT[, ....,V2分组，返回V3的均值 DT[, mean(V3), by=....22 ## 2: B -1.49 26 ## 3: C -1.49 30 链 # 按V1分组求V4列的和 DT2 <- DT[, ....(V4.sum=sum(V4)), by=V1] # 选择和>40的行 DT2[V4.sum>40] ## V1 V4.sum ## 1: 2 42 # 按V1分组，V1排序计算V4和

1.9K1 0

开发ETL为什么很多人用R不用Python

对比python中的datatable、pandas、dask、cuDF、modin，R中data.table以及spark、clickhouse 3....探讨R中的ETL体系 ETL在数据工作中起着至关重要的作用，主要用途有两个：（1）数据生产（2）为探索性数据分析与数据建模服务。...因此，ETL效率在整个项目中起着举足轻重的作用。而日常数据生产中，有时会牵扯到模型计算，一般以R、python为主，且1~100G左右的数据是常态。...基于此，于是想对比下R、Python中ETL的效率。...目前本人工作中负责一个项目的数据生产，大致流程如下。首先，用presto从hive中读取数据，从ADB读取数据，数据量在5G左右。

1.8K3 0

Day4-5 R语言代码

，处理A列的重复值（去重复、两行取平均值合并为一行），再设置为行名。...用三种方法都蒙一次，然后安装；R语言的工作路径设置在C盘也没关系，因为R包占用的空间不多。..."limma") install.packages('devtools') devtools::install_github("jmzeng1314/idmap1") #括号里写作者用户名加包名 2、在R...语言中，安装R包的命令中可以加update=N，ask=N，省事。...3、libraryR包时，在error中， ‘ ’ 里面的内容经常就是依赖包的名字，需要重点关注。

2222 0

将基因组数据分类并写出文件，python，awk，R data.table速度PK

由于基因组数据过大，想进一步用R语言处理担心系统内存不够，因此想着将文件按染色体拆分，发现python，awk，R 语言都能够非常简单快捷的实现，那么速度是否有差距呢，因此在跑几个50G的大文件之前...最后用R语言data.table包进行处理，data.table是data.frame的高级版，在速度上作了很大的改进，但是和awk和python相比，具有优势吗? 1 #!.../usr/bin/Rscript 2 library(data.table) 3 main <- function(filename,sep){ 4 started.at <- proc.time...sep inputfile eg: SplitChr.R '\\t' test.csv","\n") 24 } ? ...总结虽然都是逐行处理，但由上述结果猜测awk内部运行并没有python快，但awk书写一行代码搞定，书写速度快，至于python比data.table慢，猜测原因是R data.table用C语言写

1.1K4 0

【技巧】如何快速按照日期分组

问题的提出在处理数据的时候，我们常常需要按照日期对数据进行分类汇总，例如每周、每月、每年汇总等。常见的做法是建立一个用于分类的变量，然后再按照这个变量进行汇总。...本期大猫将教大家使用 data.table包的 keyby语句完成上述任务。...按照周进行分类如果我们想要每周对变量 x求均值，只要在 keyby语句中指定 week=week(date)即可： # 按照周进行分组 dt[, .(x = mean(x)), keyby = ....按照“每个三天”分类为了按照任意间隔进行分类，我们需要用到 data.table包中的 ceiling_date函数。...在下面的代码中， ceiling_date(date,"3 days")含义是每三天对 date进行一次“四舍五入”。 # 按照“每3天”进行分组 dt[, .

2.4K3 0

数据挖掘分类、聚类算法学习摘要

R是一组数据操作，计算和图形显示工具的整合包。相对于同类软件其特色在于：有效的数据处理和保存机制。拥有一整套数组和矩阵操作运算符。一系列连贯而又完整的数据分析中间工具。...选取部分受训数据建立决策树，决策树是按广度优先建立直到每个叶节点包括相同的类标记为止。第二阶段，决策树修剪阶段。...悲观修剪是Quinlan在1987年提出的，将所有的训练样本都用于决策树的生成与修剪，经验表明，该方法产生的树太大并且有时精度不高，在实际使用过程用的较多的并且效果较好的是MDL修剪。...根据每个簇中对象的均值（中心对象），计算每个对象与这些中心对象的距离，并根据最小距离重新对相应对象进行划分。 4. 重新计算每个（有变化）簇的均值。...常用的模糊聚类算法是模糊C平均值FCM(FuZZyC一MeanS)算法,该算法是在传统C均值算法中应用了模糊技术。FCM算法的步骤算法步骤如下: 输入:设定聚类数目C和参数b。

1.3K6 0

R语言：以多列标准筛选特定行

写在前面本期我们大猫二人组的村长在新的一年首先回归，为大家带来新的推送。...问题提出在data.table语句中，i是用来进行行选择的重要组成部分，很多情况下我们都需要以很多列的同一个特殊值进行行的选择，大多数情况下，我们可能会针对所有的变量逐一写出条件，例如a==1&b==...那么在这里求每一行的均值，只要出现了醛固酮，那就会至少出现一个TRUE，那么行的均值就肯定大于零，所以就将出现了醛固酮的行全都标记出来了，同理可得下面这行代码： rowMeans(clinic[, 31...这样我们把这两个条件合并在一起，然后配套上data.table的语句，就成了我们一开始出现的那条代码： clinic <- clinic[rowMeans(clinic[, 31:52] == "醛固酮...= "继发性醛固酮") == 1] 写在结尾应用好对象格式是R语言编程中的精髓之一，在这个例子中就很好的利用了对象格式里面的格式性质，做了一些适当的变通处理，让数据处理过程变得更加巧妙和方便，这点大家可以在以后的数据处理中做更多的尝试和思考

1.9K4 0

Day05 生信马拉松-文件的读写

data.frame,在R中对data.frame的修改不会同步到表格1.4 读取非工作目录下的文件read.csv("import/gene.csv") import为工作目录下的子文件夹名，不要漏了...“/”拓展内容在工作目录内创建一个文件夹dir.create("文件夹名")1.5 读取上一级文件load(...../"为上一级文件,可叠加1.6 补充内容1.6.1 数据框不允许重复的行名图片解决方案： ①先不加row.names参数读取 ②处理第1列重复值（去重、均值、合并为一行等） ③将第1列设为行名1.6.2...数据框列中数据缺失图片错误解决方式soft <- read.table("soft.txt",header = T,fill = T),会出现原有确实数据位置的错列图片正确使用:soft2 <- read.table...用于文件的读取/导出的packages图片3.1 data.table:soft = data.table::fread("soft.txt",data.table = F)每次要默认标注“data.table

1892 0

「Workshop」第一期：我理解的（生信）数据分析核心基础

我在简书和公众号上已经分享了很多之前学习的数据分析笔记和文章，覆盖了各方面的内容，数据分析方面以后不会再个人分享特别基础的东西了。接下来我会让师弟师妹们定期分享自己的学习过程。...另外，为了更好地学习和交流，我尝试在组内组织 Workshop，前几期会由我根据一些主题讲述数据分析操作、软件包开发等。后续也将通过轮流的方式组织大家一起学习编程、数据分析流程、生信流程等等。...统计基础：描述性统计量、概率分布、假设检验统计分析（基于统计的计算）：均值、方差；t检验（差异分析）、相关分析、富集分析、多重校正等专业背景：肿瘤学、免疫学、临床治疗等数据处理流程预处理数据转换和操作.../） data.table Linux shell 建模与统计分析 stats/(cars)/(caret)/(glmnet) 机器学习 mlr3 绘图（最好是先导出为 pdf，然后用其他矢量图工具任意调整...Python/Shell）、什么工具（dplyr/data.table/ggplot）解决，脑子里有一个大概解决方案尝试解决不成功思考问题出在逻辑上还是程序实现上如果逻辑有问题，返回思考并优化解决方案

1.3K4 0

MR应知应会：MungeSumstats包

该软件包还使用户能够灵活地将重新格式化的文件导出为制表符分隔的 VCF 或 R 本机对象，例如 data.table、GRanges 或 VRanges 对象。...Sum 和整数值在输出中创建 N 列，而 Giant、metal 或 ldsc 创建 Neff 或有效样本大小。如果传递多个，则会指示用于推导它的公式。...那些这样做的被删除（如果存在于 sumstats 文件中）。默认为TRUE。 N_std 需要删除高于 SNP N 平均值的标准差数。默认值为 5。...这些不存在于我们的参考文件中，因此如果该值为 TRUE，它们将被排除在检查之外。默认值为 TRUE。 dbSNP 用作参考的 dbSNP 版本 - 默认为可用的最新版本 (155)。...请注意，dbSNP 155 中的 SNP 比 144 中的 SNP 多了 9 倍，运行时间将会增加。 sort_coordinates是否按结果 sumstats 的坐标排序。

1.5K1 0

十、文件读写

一、文件读写（R语言与外部数据的沟通） 1.csv文件的读取方式： 1) excel读取 2) 读取为文本文件 3) sublime（适用于大文件） 4) R语言读取...更改方法：行名没有正确识别，修改用： row.names =1 列名改变了，修改时用：check.names =F ###为什么列名会被修改，因为在R语言中默认列名不能出现特殊字符...###小技巧：图片 # data.table 读取任何形式的文件，包括问题文件 soft = data.table::fread("soft.txt",data.table = F) #正常文件...soft = data.table::fread("abc.mp4",data.table = F) #问题文件 # rio library(rio) a = import("complete_set.txt...excel文件 export(b$Sheet1,"jimmyzhenbang.csv") ###只导出工作簿sheet1 练习5-1: 6.加载y.Rdata（已保存在工作目录）,求gene1列的平均值

1.8K4 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭