开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在R中使用dplyr，我如何只保留那些包含变量的最长连续运行的行？

在R中使用dplyr，你可以使用group_by和mutate函数来实现只保留那些包含变量的最长连续运行的行。

首先，你需要加载dplyr包，并创建一个包含变量的数据框（data frame）。假设你的数据框名为df，变量名为var。

library(dplyr)

# 创建数据框
df <- data.frame(var = c(1, 2, 3, 4, 5, 1, 2, 3, 1, 2, 3, 4, 5))

# 使用group_by和mutate函数创建一个新的变量，表示每个连续运行的组
df <- df %>%
  mutate(group = cumsum(c(0, diff(var) != 1)))

# 使用group_by函数按照组进行分组，并计算每个组的行数
df <- df %>%
  group_by(group) %>%
  mutate(count = n())

# 找到最长连续运行的组
longest_group <- df %>%
  filter(count == max(count))

# 保留最长连续运行的行
result <- df %>%
  filter(group %in% longest_group$group)

# 移除辅助变量
result <- result %>%
  select(-group, -count)

这样，result数据框中将只包含那些包含变量的最长连续运行的行。

在这个例子中，我们使用了cumsum函数来创建一个新的变量group，表示每个连续运行的组。然后，使用group_by函数按照组进行分组，并使用mutate函数计算每个组的行数。接下来，我们找到最长连续运行的组，并使用filter函数保留最长连续运行的行。最后，我们使用select函数移除辅助变量。

请注意，这只是一个示例，你可以根据实际情况进行调整和修改。另外，腾讯云相关产品和产品介绍链接地址请参考腾讯云官方网站。

相关搜索:在R中，我如何使用dplyr进行此计算(1 -sigma(特定值的平方)？在R中，我如何使用gtsummary (或任何其他r包)创建一个包含五个二进制因素的列联表如何使用ggplot在R中创建包含2个数值变量的堆叠条形图，按1个因子变量分组-2次，并具有标准误差？如何使用R中的dplyr在两个表上打印按两个变量分组的grouped_df 如何使用循环在R中运行具有不同变量的回归？如何只在包含一个单元格的行上使用REGEXEXTRACT，这些单元格包含一个在SUM中包含字符串的行？如何在我的项目中使用SCA mvn插件在Fortify SCA扫描中只包含一个文件夹？当将行放入多个变量时，我如何找到文件的结尾(例如，在f中不使用for line )游戏服务器引擎秒杀游戏服务器部署秒杀

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

生信学习-Day6-学习R包

在 iris 数据集中，Petal.Length 和 Petal.Width 分别代表花瓣的长度和宽度。因此，当你使用 vars 变量时，你实际上是在引用那些具有这些名称的列。...在dplyr包的filter()函数中使用时，它可以用于筛选数据框中匹配给定集合中任一值的行。这行代码的作用如下： filter(test, ...): 在test数据框中筛选行。...数据框是R语言中类似于表格的二维数组结构，每一列包含了一个变量的值，每一行包含了每个变量的一个值集。...内连接的特点是只包含两个数据框中键值匹配的行。如果 test1 中的某行在其 "x" 列中的值在 test2 的 "x" 列中没有对应值，则这行不会出现在结果中，反之亦然。...结果将是一个新的数据框，其中包含了test1中那些在test2中找到匹配项的行，而不包含在test2中找不到匹配项的行。这种操作通常用于数据集的筛选，以保留与另一个数据集相关的数据。

1761 0

2023.4生信马拉松day7-R语言综合应用

”，其默认设置是.keep_all = F，表示“按'Species'列去完重复后只保留'Species'列”； 3....以上操作根据此前学过的知识新增列的话这么写：图片 4.简单了解：select() 、filter()筛选列、行 5.补充知识：管道符%>% -（1）当遇到连续的步骤时：多次赋值，会产生多个中间的变量；...if语句控制一段代码的运行；且使用if语句，后面大括号里的代码可以折叠；实例：用if(F){}注释掉暂时不想运行但以后还可能运行的代码（运行时把F改为T即可）；直接删掉的话下次想用就得重新写；用#号大段大段注释不能折叠...如何挑出30个数里最大的五个 -（1）排序 -（2）取最后五个图片 3.向量/列表的隐式循环-lapply() 对列表/向量中的每个元素实施相同的操作 lapply(1:4,rnorm) #批量画图...4. full_join 保留所有的，缺失的位置填充NA 5. semi_join 半连接，效果是取子集：以右边表格为参考对左边取子集 6. anti_join 保留左边表格在右边表格里没有的东西 test1

3.6K8 0

Day6——R包

，select中不能直接使用字符向量筛选，需要使用one_of函数R语言中使用vars参数指定数据框中需要分析的字段索引范围在R语言中，我们经常需要对数据框进行分析和处理。...数据框是一种二维的表格结构，其中包含了多个变量(字段)和观测值(行)。在进行数据分析时，有时我们只对数据框中的特定字段感兴趣，而不需要使用所有的字段。...索引范围可以是一个连续的整数向量，也可以是一个布尔向量。...setosa","versicolor的行#%in%判断前面一个向量内的元素是否在后面一个向量中，返回布尔值。...dplyr两个实用技能管道操作 %>%加载任意一个tidyverse包即可用管道符号#%>% （向右操作符，forward-pipe operator），就是把左侧准备的数据或表达式，传递给右侧的函数调用或表达式进行运行

1431 0

生信入门马拉松之R语言基础-脚本项目管理、条件循环、表达矩阵和一丢丢数据挖掘(Day 7)

,代码运行凡是带有{}的代码，均可以被折叠下载数据的代码，保留但不反复运行，用if(F){...},可以控制其不运行但保留。...save(pd,exp,gpl,file = "steploutput,Rdata")，这句代码将几个第一个脚本有用的变量保存到Rdata文件中，下次使用这些变量时直接加载load这个Rdata文件即可...Rdata可以保存多个变量，下次使用只需要一次load可以的到多个数据。-Rdata不仅可以保存数据框，也可以保存其他任何数据结构，包括复杂的对象！...,by="name")#右连接full_join(test1,test2,by="name")#左右数据都保留思考题如何挑出30个数里最大的5个？...表达矩阵：一行是一个基因在所有样品里的表达，一列是一个样本里所有基因的表达。在表达矩阵中，寻找在不同组有表达差异的基因。

1410 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

而且，.()格式只在data.table格式下有效，不然会报错。...在筛选列变量的数据，也可以与%in%集合运算联用（集合运算见博客：R语言︱集合运算）。...2、on=""方式 DT[X, on="x"] 这里的on指的是DT变量中的变量名称，X还是按照key，如果没设置就会默认第一行为key。...SD只能在位置j中使用。 .SDcols常于.SD用在一起，他可以指定.SD中所包含的列，也就是对.SD取子集。...—————————————————————— 实战一：在data.table如何选中列，如何循环提取、操作data.table中的列？

7.7K4 3

数据处理第3部分：选择行的基本和高级的方法

Basic row filters 在许多情况下，您不希望在分析中包括所有行，而只包括选择的行。仅使用特定行的函数在dplyr中称为“filter（）”。...只有在您可以使用完整变量内容时，上述选项才有效。...或者您只是过滤所有列的字符串“food”。在下面的示例代码中，我在所有列中搜索字符串“Ca”。我想保留在任何变量中出现字符串“Ca”的行，所以我将条件包装在any_vars（）中。...下面的代码基本上要求保留任何变量中包含模式“Ca”的行。...所以使用filter_if（）我可以指定我只想过滤字符变量。在这种情况下，我只得到7行。

1.3K1 0

左手用R右手Python系列5——数据切片与索引

今天这篇跟大家分享我的R VS Pyhton学习笔记系列5——数据索引与切片。我之前分享过的所有学习笔记都不是从完全零基础开始的，因为没有包含任何的数据结构与变量类型等知识点。...还有一种更加高级优雅得方式是使用dplyr包中的select和filter函数进行行列索引与切片。...-------------- Python： -------------- 为了保持与R语言的案例数据演示一致，我把刚才在R语言中使用的数据复制一份导入Python中。...#iloc索引的位置，平时使用是意义不大，只是需要理解其数字和字符串的指定规则，如果只需要提取行的话，列位置可以忽略或者使用“:”占位，如果仅仅是提取列规则，保留所有行的话，则行位置必须提供占位，否则会被当做行索引...在索引多行时，R与Python都可以使用连续行列，均需提供占位符号，（R语言留白即可标识全选，Python则占位则必须提供“:”符号），在索引多列时，均无需提供占位符号。（当然提供了也不多余）。

2.9K5 0

R入门？从Tidyverse学起！

很多人推荐《R语言实战》这本书来入门R，当然，这本书非常不错，我也是通过这本书开始接触的R。...(处理因子问题) tidyverse的安装也很简单，在R中输入以下命令： #安装包 install.packages("tidyverse") #使用前，记得载入包 library(tidyverse...数据整理 tibble格式 R中的对多变量数据的标准保存形式是 dataframe，而tibble是dataframe的进化版，它有如下优点： 1....dplyr包 dplyr基本包含了我们整理数据的所有功能，堪比瑞士军刀，这里介绍以下函数： filter: filters out rows according to some conditions （...当然，入门之后如果使用者在未来需要使用R完成更细腻的分析时，再分配较充足的时间学习base R。

2.5K3 0

R语言第二章数据处理③删除重复数据目录总结

R语言第二章数据处理③删除重复数据 ================================================ 这篇主要介绍如何在R中识别和删除重复数据。...主要用的到R base和dplyr函数： duplicated（）：用于识别重复的元素和 unique（）：用于提取唯一元素， distinct（）[dplyr package]删除数据框中的重复行...dplyr包删除数据框中的重复行函数distinct（）[dplyr package]可用于仅保留数据帧中的唯一行。...如果存在重复行，则仅保留第一行。它是R base函数unique（）的高效版本。...= TRUE) 根据多列删除重复值 my_data %>% distinct(Sepal.Length, Petal.Width, .keep_all = TRUE) 选项.kep_all用于保留数据中的所有变量

9.7K2 1

命令行上的数据科学第二版：六、项目管理与`make`

这是必要的，因为make使用一个美元符号来表示各种特殊变量，我将在后面解释。以上摘自我写这本书时使用的Makefile。你可以说我把make作为一个荣耀的任务运行者。...Antilles,188 Mace Windu,188 Anakin Skywalker,188 Gregar Typho,185 Jango Fett,183 Cliegg Lars,183 ➊ 只保留包含图案...这样我们就可以使用 Bash 提供的所有东西，比如for循环。默认情况下，规则中的每一行都单独发送到 Shell。...在我们的例子中，目标为all``top10。无论目录中是否包含同名文件，这些目标都将被执行。...在这一章中，我已经向您展示了仅仅将每个命令放在一个 Bash 脚本中并不是最理想的。相反，我建议使用make作为命令行工具来管理您的数据工作流。

6731 0

生信星球Day4 学习R包

今日学习内容：如何安装R包？...认识dplyr，函数、功能等---安装和加载R包镜像设置方法一：手动设置，Tools→Packages→Primary CRAN repository方法二：自动运行教程来自：https://www.jianshu.com.../p/861224f4251aoptions() 设置R运行过程中的一些选项设置options()$repos 查看使用install.packages安装时的默认镜像options()$BioC_mirror...查看使用bioconductor的默认镜像R最重要的两个配置文件: 一是.Renviron，能够设置R的环境变量；二是.Rprofile，如果启动时找到这个文件，那么就替我们先运行一遍（这个过程就是在启动...(dplyr)dplyr五个基础函数mutate() 新增列，(x，列名=相关数据)select() 筛选列，（x，列号或列名）filter() 筛选行，（x，列名==想要的行）需要逻辑判断arrange

1924 0

GEO数据挖掘-基于芯片

在require()函数中，如果直接传递包的名称作为参数，不需要加引号；如果包的名称以字符串形式存储在变量中，则需要使用character.only = TRUE来指定这个变量是一个字符串1.2 解析1.2.1...为什么需要character.only = TRUE当包名称存储在一个变量中时，比如package_name <- "ggplot2"，变量package_name包含的是一个字符串。...timeout选项控制的是当R进行网络操作（如下载文件或访问网络资源）时等待响应的最长时间（以秒为单位）。...5.2.4 ids = distinct(ids,symbol,.keep_all = T)使用 dplyr 包中的 distinct 函数，从数据框 ids 中移除重复的行，并保留每个 symbol...这一步确保表达矩阵 exp 只包含差异表达基因分析结果中的探针。 rownames(exp) = deg$symbol：将表达矩阵 exp 的行名设置为 deg 数据框中的 symbol 列。

340 0

两个神奇的R包介绍，外加实用小抄

皮一下我就是很开心！皮完查字典去： ? 这是一种组织表格数据的方式，提供了一种能够跨包使用的统一的数据格式。有多统一？...") 两种办法拼起来~ 一个是R自带的rbind，一个是dplyr里的bind_rows 按行拼接时，列数、列名需要一致 rbind(frame1,frame4)# frame1 %>%bind_rows...inner_join：只保留两个表格共有的行 full_jion：保留全部的行 left,right,inner,full_join 注意下，截图中我打出的命令下面有一行蓝字，写了by ="geneid...•semi_join只保留第二个表格中包含的id ? 只是把表1中的gene4去掉了，但并没有加上表2的annotion列。 •anti-join只保留第二个表格中不包含的id ?...哦，忘记说了，这些R包是有对应的小抄的，如果你还不懂什么是小抄，请出门自行谷歌了解一下哈！在我们生信技能树后台回复小抄或者 cheatsheet 即可获取哈。

2.5K4 0

「R」数据操作（五）：dplyr 介绍与数据过滤

这里我们使用dplyr包操作2013年纽约市的航班起飞数据集（2013）。准备这部分我们聚焦于如何使用dplyr包，除ggplot2的另一个tidyverse核心成员。...## lag(): dplyr, stats 注意一下你导入tidyverse包时给出的冲突信息（Conflicts），它告诉你dplyr覆盖了R基础包中的函数。...，这里适配地显示了在一个屏幕前几行和所有的列（我们可以使用View(flights）在Rstudio中查看数据集的所有信息。...，只含TRUE和FALSE fctr代表因子，R用它来代表含固定可能值的分类变量 date代表日期 dplyr基础这部分我们学习5个关键的dplyr函数，它可以让我们解决遇到的大部分数据操作问题：...解决这种问题的一种有用简写为x %in% y。这将选择符合x属于y的行（x是y中的一个值）。

2.4K1 1

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

2、cut()函数 cut(x, n)：将连续型变量x分割为有着n个水平的因子 cut(x, breaks, labels = NULL, include.lowest = FALSE, right...包 #dplyr中基本函数 filter——数据筛选（筛选观测值，行） filter(Hdma_dat,pclass == 1) ###################################...## #dplyr中基本函数 select——子集选取（筛选变量，列） select(Hdma_dat,pclass,survived) ##选择pclass变量 ?...可见order用法 subset()在数据集中非常好用，which是针对较小的数据筛选，比较低纬度的数据筛选时候可以用的。 subset=which+数据集操作 which=order+多变量运行。...在使用data.table时候，需要预先布置一下环境： data<-data.table(data) 如果不布置环境，很多内容用不了。

20.6K3 2

R语言之处理大型数据集的策略

在实际的问题中，数据分析者面对的可能是有几十万条记录、几百个变量的数据集。处理这种大型的数据集需要消耗计算机比较大的内存空间，所以尽可能使用 64 位的操作系统和内存比较大的设备。...data.table 包提供了一个数据框的高级版本，大大提高了数据处理的速度。该包尤其适合那些需要在内存中处理大型数据集（比如 1GB～100GB）的用户。...不过，这个包的操作方式与 R 中其他包相差较大，需要投入一定的时间学习。 3. 模拟一个大型数据集为了便于说明，下面模拟一个大型数据集，该数据集包含 50000 条记录、200 个变量。...先加载这两个包： library(dplyr) library(tidyselect) 接下来举例说明如何使用 select 系列函数选择或剔除变量。...，前者中的参数 size 用于指定行的个数，而后者中的参数 size 用于指定占所有行的比例。

2482 0

如何使用管道操作符优雅的书写R语言代码

使用R语言处理数据或者分析，很多时候免不了要写连续输入输出的代码，按照传统书写方式或者习惯，初学者往往会引入一大堆中介变量，或者使用函数嵌套进行一次性输出。...1、使用中介变量会使得内存开销成倍增长，特别是你的原始数据量非常大而内存又有限，在一个处理过程中引入太多中介对象，不仅代码冗余，内存也会迅速透支。...而R语言大佬们很早就已经意识到这个问题，开始在R语言中引入管道操作符函数，进行连续传参，实现了内存节省、代码优化的需求。...通常我们使用最多的管道函数来自于magrittr包，该包中管道操作函数写作%>%,这是一个在R语言中使用非常频繁的函数，很多比较成熟的项目扩展包都已经实现了管道操作函数的内置。...（比如dplyr、rvest、leaflet等都实现了默认调用）。在大多数并没有默认加载magrittr包的扩展包函数中使用管道操作符，需要先加载该包之后才能使用该函数。

3.1K7 0

《高效R语言编程》6--高效数据木匠

tibble会打印每个变量的类，data.frame不会 stringAsFactors默认不转换输出时，只输出前10行使用tidyr与正则表达式整理数据整理数据包括数据清理和数据重构，前者是重定格式与标记脏数据...使用broom::tidy()广泛应用于模型数据，并以标准数据框格式返回模型输出。使用变量名非标准化求值更高效，见R语言 dplyr传递参数_自由平等~忠诚奉献-CSDN博客[2]。...正则表达式 R与stringr分别使用grepl()和str_detect()来进行，我比较喜欢基础R的，不知你喜欢安装包还是用基本的。...使用dplyr高效处理数据这个包名的意思是数据框钳，相比基础R的优点是运行更快、与整洁数据和数据库配合好。函数名的部分灵感来自SQL。 ?...与基本R中类似函数不同，变量无需使用 $ 操作符就可直接使用，设计与magrittr包的%>%管道操作符一起使用，以允许每个数据阶段写成新的一行。其是一个大型包，本身可以看成一门语言。

1.9K2 0

R启动

`.Renviron`[2] - 其中包含要在R会话中设置的环境变量。 `.Rprofile`[3] - 其中包含在每个会话中运行的R代码。....Renviron 文件包含需要设置的环境变量列表。它的内容不是 R 代码，而是使用类似于命令行 Shell 类似的语法。...重现性一个好的经验法则是，你应该只把你在 R 终端上交互式运行的东西放在 .Rprofile 文件中。...此外，由于 .Rprofile 由每个R进程（包括由R自身启动的进程）运行，因此使用interactive()保护大部分代码是很重要的，这样它只在交互式会话（用终端控制的会话）中运行。...R 时，可以使用--vanilla参数在没有任何启动文件的情况下运行R。

5124 0

「R」dplyr 行式计算

「原文来自：dplyr 文档」上一篇：「R」dplyr 列式计算通常 dplyr 和 R 更适合对列进行操作，而对行操作则显得更麻烦。...，每一组简单地包含一个单一的行。...你可以在 rowwise() 中提供“标识符”变量，这些变量将在你调用 summarise() 的时候保留，因此它的行为类似于将变量传入 group_by()： df <- tibble(name =...length(x) dplyr 就能算出 x中元素的长度不是很好吗？...这可能会让人感到困惑，但我们确信这是最差的解决方案，特别是在错误消息中给出了提示。

6.2K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭