开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

使用`dplyr`或`purrr`获取共享一个字符串片段的多个列的平均值(例如年份)

使用dplyr或purrr获取共享一个字符串片段的多个列的平均值可以通过以下步骤实现：

首先，导入dplyr或purrr库。
使用mutate()函数创建一个新的列，将共享的字符串片段提取出来。可以使用str_sub()函数提取字符串的子串。
使用group_by()函数将数据按照共享的字符串片段进行分组。
使用summarise()函数对每个分组计算平均值。

下面是使用dplyr库的代码示例：

library(dplyr)

# 创建一个示例数据框
data <- data.frame(
  id = c(1, 2, 3, 4, 5),
  date_column_1 = c("2020-01-01", "2020-02-01", "2020-01-01", "2020-02-01", "2020-03-01"),
  date_column_2 = c("2020-01-01", "2020-03-01", "2020-01-01", "2020-02-01", "2020-02-01"),
  value = c(10, 15, 20, 25, 30)
)

# 使用dplyr获取共享日期片段的平均值
result <- data %>%
  mutate(share_fragment = str_sub(date_column_1, start = 1, end = 7)) %>%
  group_by(share_fragment) %>%
  summarise(avg_value = mean(value))

# 打印结果
print(result)

输出结果将会是一个包含平均值的数据框，每个共享日期片段对应一行。在该示例中，结果将包含三行，分别对应"2020-01"、"2020-02"和"2020-03"这三个共享日期片段的平均值。

请注意，这只是一个示例，实际应用中根据具体需求可能需要进行适当修改。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云数据库（TencentDB）：提供全球分布的云数据库服务，支持多种数据库引擎，具备高可用性和弹性扩展能力。产品介绍链接
腾讯云云服务器（CVM）：提供弹性的虚拟云服务器，可根据业务需求灵活调整配置，支持多种操作系统和应用场景。产品介绍链接
腾讯云对象存储（COS）：提供安全可靠的云存储服务，适用于图片、视频、音频等多媒体文件的存储和管理。产品介绍链接

以上是基于问题描述的推荐，具体选择产品需要根据实际需求和环境来确定。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

R||R语言基础（三）_R包

今天继续学习R语言基础的R包使用，以R包：dplyr为例数据准备 01 R包的安装 install.packages(“dplyr”) 或BiocManager::install(“dplyr”)...#务必要打引号 02 R包的调用/加载 library(dplyr) 或require(dplyr) #这里不用引号部分人可能会因为镜像的问题失败，解决方法https://mp.weixin.qq.com...) 2.管道操作 %>%（CTRL+SHIFT+M）加载任意一个tidyverse包都可以使用管道符号，啥是tidyverse包呢？...其核心包有ggplot、readr、tibble、purrr、 tidyr 、dplyr、ggplot、forcats 和stringr8个. 我们这里用的是dplyr包，因此可以使用管道。...，不将其转换为factors，仍然保留为字符串格式。

3.4K5 0

「R」用purrr实现迭代

一起复习一下吧~ 函数有3个好处：更容易看清代码意图更容易对需求变化做出反应（改变）更容易减少程序bug 除了函数，减少重复代码的另一种工具是迭代，它的作用在于可以对多个输入执行同一种处理，比如对多个列或多个数据集进行同样的操作...如果我们面临的是一个复杂的问题，那么将其分解为可行的子问题，然后依次解决。使用purrr，我们可以解决子问题，然后用管道将其组合起来。...$r.squared) #> 4 6 8 #> 0.509 0.465 0.423 因为提取命名成分操作非常普遍，所以purrr提供了一种更简单的快捷方式：使用字符串。...0.366 -0.933 0.304 #> $ : num [1:5] 6.961 3.642 13.405 0.536 -2.078 #> $ : int [1:5] 8 8 8 6 11 第1个参数是一个函数列表或包含函数名称的字符串向量...例如有一个图形列表和一个文件名向量，那么我们就可以使用pwalk()将每个文件保存到相应的磁盘位置： library(ggplot2) plots = mtcars %>% split(.

4.8K2 0

irGSEA：基于秩次的单细胞基因集富集分析整合框架

； AddModuleScore需要先计算基因集中所有基因的平均值，再根据平均值把表达矩阵切割成若干份，然后从切割后的每一份中随机抽取对照基因（基因集外的基因）作为背景值。...； Pagoda2 拟合每个细胞的误差模型，并使用其第一个加权主成分量化基因集富集分数； AUCell 基于单个样本中的基因表达排名,使用曲线下面积来评估输入基因集是否在单个样本的前5%表达基因内富集；...使用全局表达谱对差异分数进行标准化。标准化这一步容易受样本构成的影响。 JASMINE 根据在单个细胞中表达基因中的基因排名和表达基因中基因集的富集度计算近似平均值。...3.irGSEA支持的基因集打分方法为了方便用户获取MSigDB数据库中预先定义好的基因集，我们内置了msigdbr包进行MSigDB的基因集数据的获取。...msigdbr包支持多个物种的基因集获取，以及多种基因格式的表达矩阵的输入。

2.1K1 1

R入门？从Tidyverse学起！

tidyverse就是他将自己所写的包整理成了一整套数据处理的方法，包括ggplot2，dplyr，tidyr，readr，purrr，tibble，stringr, forcats。...同时也出了一本《R for Data Science》，这本书里面也详细介绍了tidyverse的使用方法，这本书的电子版获取方式见本文末尾。...生成的数据框数据每列可以保持原来的数据格式，不会被强制性改变,即字符串，不会莫名其妙的变成因子格式； 2. 查看数据时，不再会一行显示不下，多行显示得非常丑； 3....其他格式转化，例如用read.csv读取的数据默认是dataframe格式，就可以使用as_tibble转换为tibble格式 ?...原始的cheatsheet pdf版的获取方式见本文末尾。 ? ?

2.6K3 0

这些逻辑运算符你都使用正确了吗？

因此，此处引入另外两个不常用但需要了解的逻辑运算符： x&&y：标量的逻辑“与”运算，判断逻辑x和y中只要包含一个"&"运算的TRUE行即返回TRUE标量 x||y ：标量的逻辑“或”运算，判断逻辑向量...例如： xor(T,F)返回TRUE xor(T,T)返回FALSE xor(F,F)返回FALSE #xor异或：当对应元素不等时返回TRUE > x <- c(TRUE,FALSE,TRUE,FALSE...all(x==0)) #对x数据库做列操作，判断每一列中的所有元素是否为0，，然后渠非"!"...√ purrr 0.3.2 √ tibble 2.1.3 √ dplyr 0.8.3 √ tidyr 0.8.3 √ stringr 1.4.0 √ readr...::filter() masks stats::filter() x dplyr::lag() masks stats::lag() > purrr::discard(df, ~all(.x =

1K2 0

R 语言逻辑运算：TRUEFALSE | 专题3

因此，此处引入另外两个不常用但需要了解的逻辑运算符： x&&y：标量的逻辑“与”运算，判断逻辑x和y中只要包含一个"&"运算的TRUE行即返回TRUE标量 x||y ：标量的逻辑“或”运算，判断逻辑向量...例如： xor(T,F)返回TRUE xor(T,T)返回FALSE xor(F,F)返回FALSE #xor异或：当对应元素不等时返回TRUE > x <- c(TRUE,FALSE,TRUE,FALSE...all(x==0)) #对x数据库做列操作，判断每一列中的所有元素是否为0，，然后渠非"!"...√ purrr 0.3.2 √ tibble 2.1.3 √ dplyr 0.8.3 √ tidyr 0.8.3 √ stringr 1.4.0 √ readr...::filter() masks stats::filter() x dplyr::lag() masks stats::lag() > purrr::discard(df, ~all(.x =

5.6K1 0

R包基础实操—tidyverse包

核心软件包是ggplot2、dplyr、tidyr、readr、purrr、tibble、stringr和forcats，它们提供了建模、转换和可视化数据的功能。...其中，readr包用于读取数据，tidyr包用于整理数据，dplyr包用于数据转换，ggplot2包用于数据可视化，purrr包用于函数式编程。...", compress = 'gz') = saveRDS(metadata, "challenge.rds", compress = TRUE) # feather包也是实现一种二进制形式，可以在多个编程语言之间共享...按列合并为一个数据框 library(purrr) infos <- tibble( born=c(1990, 1992, 2000, 1985), family=c("张", "李",.../p/f8b9e6bd52a2 [7] dplyr新功能解读: https://zhuanlan.zhihu.com/p/145839517 [8] 优雅的循环迭代：purrr包: https://zhuanlan.zhihu.com

3.4K3 0

「R」tidyverse 中的公式函数

本文的写作由来是知识星球一个朋友对如何在 tidyverse 系列包中使用公式函数（单侧公式）不太熟悉，所以通过本文分享一下我的心得。...这里值得注意的是，当匿名函数只有一个参数时，我们用 .x 表示函数的输入参数。如果进行拓展，2 个参数时使用 .x 与 .y，3 个参数时使用 ..1, ..2, ..3 等。...基本用法假设我们要对 df 中的 x 和 y 列进行归一化处理，在不使用 scale() 函数的情况下，我们可能会手写一个函数： scale2 <- function(x) { (x - mean...2 次，使用公式函数结合 purrr 可以写出更简洁的代码： df3 <- purrr::map_df(df, ~ (.x - mean(.x)) / sd(.x)) 我们检查下两种操作是否结果相同：....)) ) #> [1] TRUE 在理解了上述操作后多个参数的使用也就不难理解了，接下来我们看一个更加实际的例子。

4K2 0

R：purrr包用于循环迭代

purrr中有多个迭代函数，可以用于快速解决循环迭代的问题，purrr中常用的迭代函数有map、map2、walk、reduce等等。...iris %>% map_at(1:4, mean) # 只对前四列计算mean 对于map_if而言可以使用.else参数控制跳过的列的执行函数。...=T)) # 字符：用于快速提取内容 # 例如如下两种方式是等价的 iris %>% dplyr::select(-Species) %>% map(summary) %>%map_dbl(~....，将多个列表包装为一个列表传给.f可。...如果此时使用map系列函数，那么就会返回一个值为NULL的列表。

1.6K1 0

「R」dplyr 行式计算

这篇文章，我们将学习围绕rowwise() 创建的 row-wise 数据框的 dplyr 操作方法。本文将讨论 3 种常见的使用案例：按行聚合（例如，计算 x, y, z 的均值）。...，我们县创建一个行式数据框： rf % rowwise(id) 我们然后使用 mutate() 添加一个新的列，或者使用 summarise() 仅返回一个汇总列： rf %>% mutate...它们允许你避免显式的循环和/或使用 apply() 或 purrr::map 家族函数。...list()意味着我们将得到一个列表列，其中每一行都是一个包含多个值的列表。...作为替代方案，我们建议使用 purrr 的 map() 函数执行逐行操作。但是，这很有挑战性，因为您需要根据变化的参数数量和结果类型来选择映射函数，这需要相当多的 purrr 函数知识。

6.2K2 0

Excel常用函数

1、对指定单元格进行取整，忽略小数位 =INT(E3) 11、求字符串长度函数LEN() 返回文本字符串中的字符个数【注意】数字，字符，汉字都属于一个字符，包括小数点 1、对指定单元格获取长度 =LEN...1、获取指定单元格从左开始的第一个字符 =LEFT(F2) 2、获取指定单元格从左开始的指定长度个数的字符 =LEFT(F2,3) 13、右取字符串函数RIGHT() 根据所指定的字符数返回文本字符串中最后一个或多个字符...应使用 DATE 函数输入日期，或者将日期作为其他公式或函数的结果输入。例如，使用函数 DATE(2008,5,23) 输入 2008 年 5 月 23 日。...一个序列号，代表尝试查找的那一天的日期。应使用 DATE 函数输入日期，或者将日期作为其他公式或函数的结果输入。...提示: 为避免出现意外结果，请对 *year* 参数使用四位数字。例如，“07”可能意味着“1907”或“2007”。因此，使用四位数的年份可避免混淆。

3.6K4 0

tidyverse：R语言中相当于python中pandas+matplotlib的存在

tidyverse就是Hadley Wickham将自己所写的包整理成了一整套数据处理的方法，包括ggplot2、dplyr、tidyr、readr、purrr、tibble、stringr、forcats...02 — tibble：高级数据框（data.frame升级版） ——数据（列）类型一目了然 tibble是R语言中一个用来替换data.frame类型的扩展的数据框，tibble继承了data.frame...#key：将原数据框中的所有列赋给一个新变量key #value：将原数据框中的所有值赋给一个新变量value #…：可以指定哪些列聚到同一列中 #na.rm：是否删除缺失值 widedata <-...()函数可将一列拆分为多列，一般可用于日志数据或日期时间型数据的拆分，语法如下： #separate(data, col, into, sep = “[^[:alnum:]]+”, remove = TRUE..., #convert = FALSE, extra = “warn”, fill = “warn”, …) #data：为数据框 #col：需要被拆分的列 #into：新建的列名，为字符串向量 #sep

4.1K1 0

手把手教你R语言方差分析ANOVA

在R语言中，实现方差分析主要涉及到以下步骤：数据导入数据清洗ANOVA计算结果解析ANOVA评估首先，你需要一个数据集，其中包含至少一个分类变量（通常是因子类型）和一个或多个数值型变量。...如果你的数据已经存储在一个外部文件中（如CSV、Excel或RData），你需要使用适当的R函数（如read.csv(), readxl::read_excel(), load()等）将其加载到R环境中...()等函数）或进行变量选择（使用子集选择或dplyr包的select()函数）。...aov函数运行单因素方差分析 (公式是：Y是检验变量，X是分组变量)；再使用summary函数获取单因素方差分析的结果。...；Mean Sq列是平方和的平均值，通过将平方和除以每个参数的自由度来计算；F value列是F检验的检验统计量。这是每个自变量的均方除以残差的均方。

3721 0

Day7：R语言课程 (R语言进行数据可视化)

1.设置数据框以进行可视化在本课中需要制作与每个样本中的平均表达量相关的多个图，还需要使用所有可用的metadata来适当地注释图表。观察rpkm数据。...每列代表实验中的样品，每个样品具有~38K值，对应着不同转录本的表达。最终需计算每个样本的表达量的平均值。一步一步来，如果只想要样本1的平均表达式（包括所有转录本），怎么做？...使用R base包提供的函数'mean（）'： mean(rpkm_ordered[,"sample1"]) 只想要其中一个样本（数据框中的1列）的平均值，可以这样实现，但要从所有12个样本中获取此信息该如何实现...该族包括几个函数，每个函数的输入都是向量，输出是指定类型的向量。例如，用这些函数对向量中的每个元素或数据框中的每列或列表的每个组件执行某些任务/函数，依此类推。 map() 创建一个列表。...library(purrr) # Load the purrr samplemeans <- map_dbl(rpkm_ordered, mean) 可以将这个包含的12个元素的向量作为一列，添加到

6K1 0

「R」dplyr 列式计算

❝在近期使用「dplyr」进行多列选择性操作，如 mutate_at() 时，发现文档提示一系列的「dplyr」函数变体已经过期，看来后续要退休了，使用 across() 是它们的统一替代品，所以最近抽时间针对性的学习和翻译下...第二个参数是 .fns，它是应用到数据列上的一个函数或者是一个函数列表，它也可以是像 ~.x/2 这样「purrr」风格的公式语法。..._if, _at, _all 「dplyr」以前的版本允许以不同的方式将函数应用到多个列：使用带有_if、_at和_all后缀的函数。这些功能解决了迫切的需求而被许多人使用，但现在被取代了。...这使「dplyr」更容易使用（因为需要记住的函数更少），也使我们更容易实现新的动词（因为我们只需要实现一个函数，而不是四个）。...例如，你现在可以转换以 x 开头的数值列：across(where(is.numeric) & starts_with("x")). across() 不需要使用 vars()。

2.4K1 0

R语言笔记-6

]] #该函数会形成一个列表 #str_split()可分割具有多个字符串的向量 strs = c("Joey doesn"t share foods !"...(str," ") 输出结果：图片数据框的处理-dplyr library(dplyr) head(iris,5) #将内部数据iris所有列按Sepal.Length列的数值从小到大排列 head...图片 MARGIN参数，1表示针对列，2表示针对行 FUN参数，可使用任何函数，包括自定义的函数 data=iris[1:5,1:4] data #计算每一列的加和 apply(data,1,sum)...#计算每一行的平均值 apply(data,2,mean) 输出结果：图片 lapply()函数：列表的隐式循环图片 test = list(x = 36:33,y = 32:35,z = 30:...27);test #计算列表每一个元素的平均值 lapply(test,mean) #将上面结果通过矩阵的方式展示 sapply(test,mean) 图片流程控制 library(stringr)

4842 0

dplyr数据处理

一、筛选过滤行 filter() filter()函数用于筛选出一个观测子集，第一个参数是数据库框的名称，第二个参数以及随后的参数是用来筛选数据框的表达式。...() select()函数用于筛选有用的列，第一个参数还是数据库，第二个参数以及后面是需要的列名，列名有多种书写方式，可以使用冒号作为范围，也可以使用 stars_with,ends_with...另外，当想要把几个需要的列移到前面，可以配合使用 everythins()函数，将剩余的列添加到后面。...，会某一列取对数，这样将生成新的变量，这个时候可以使用 mutate 函数。.../People) 七、统计使用 summarise()可以对每一列单独进行计算，例如求和，求平均值等，这些都可以使用apply 系列函数来完成，summarise()一般都配合 group_by

1.5K1 0

Hadley Wickham 采访节选（一）

╮(╯▽╰)╭ ” Hadley Wickham，一个R圈如雷贯耳的人物，仅仅列举几个他开发的R包你就能知道他的分量了：ggplot2、dplyr、stringr、plyr、purrr、lubridate...不同于Hadley在Youtube上的那些受访或演讲视频，由于采访者是自己的姐姐，Hadley特别放松，所以我们可以听到很多正式场合听不到的趣事。...我第一次上这门课的时候简直是噩梦——你需要记忆R中各种毫无规律的字符串函数名称，例如grep, grepl, regexpr, gregexpr……后来我有一次在洛杉矶旅行的时候突然有了个主意：为什么我不写个包把所有...我的哲学是：每个stringr都只做“一小件事”，如果要完成复杂的字符串处理，那么就把这些函数组合起来（大猫：这个思想在dplyr中甚至在SQL数据库中有着充分体现，好处能够让编程的学习更加容易，然而很不幸...例如base R中的sapply就不是对象类型一致的，因为sapply会首先尝试返回一个向量，如果实在无法coerce成向量，那么就返回一个list；而 tidyver 库中有个叫做purrr的包，他有个函数叫

8523 0

RNA-seq入门实战（三）：在R里面整理表达量counts矩阵

大家开始根据我的ngs组学视频进行一系列公共数据集分析实战，其中几个小伙伴让我非常惊喜，不需要怎么沟通和指导，就默默的完成了一个实战！...) # ggplot2 stringer dplyr tidyr readr purrr tibble forcats library(data.table) #多核读取文件 setwd("C:/Users...在转换时经常会出现多个Ensembl_id对应一个gene symbol的情形，此时就出现了重复的gene symbol。此时就需要我们在进行基因ID转换前去除重复的gene symbol。...table(duplicated(symbol)) #统计重复基因名 ###使用aggregate根据symbol列中的相同基因进行合并 counts <- aggregate(counts...（这个是正常现象，因为我们的gtf文件里面的基因数量太多了，都是五六万个，而正常情况下我们的样品里面就两万多个基因是有表达量的） #### 初步过滤低表达基因 ####（筛选标准不唯一、依情况而定） #

17.9K4 5

「R」数据操作（四）：初学者学习tidyverse

资料来源：DataCamp tidyverse是一组处理与可视化R包的集合（人称“极乐净土”，但我并不喜欢这个称呼），其中ggplot2与dplyr最广为人知。...核心包有以下一些： ggplot2 - 可视化数据 dplyr - 数据操作语法，可以用它解决大部分数据处理问题 tidyr - 清理数据 readr - 读入表格数据 purrr - 提供一个完整一致的工具集增强...R的函数编程 tibble - 新一代数据框 stringr - 提供函数集用来处理字符数据 forcats - 提供有用工具用来处理因子问题有几个包没接触过，R包太多了，这些强力包还是有必要接触和学习下使用...::filter() masks stats::filter() ## x dplyr::lag() masks stats::lag() 有用的函数 # tidyverse与其他包的冲突 tidyverse_conflicts...() # 列出所有tidyverse的依赖包 tidyverse_deps() #获取tidyverse的logo tidyverse_logo() # 列出所有tidyverse包 tidyverse_packages

1.7K3 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭