首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据处理第3部分:选择行的基本和高级的方法

Basic row filters 在许多情况下,您不希望在分析中包括所有行,而只包括选择的行。 仅使用特定行的函数在dplyr中称为“filter()”。...=“Rodentia”)将选择除Rodentia行之外的所有内容。 *filter(name>“v”)只会在字母v之后选择字母中带有名称的行。 如果要选择多个动物,可以使用%in%运算符。...在某些情况下,虽然需要根据部分匹配进行过滤。 在这种情况下,我们需要一个函数来评估字符串上的正则表达式并返回布尔值。 每当语句为“TRUE”时,该行将被过滤。...通过使用filter(str_detect(name,pattern =“mouse”))我们将遗漏任何名为Mouse的行。 在这种情况下,它没有什么区别,但它是一个很好的习惯创建。...下面的代码基本上要求保留任何变量中包含模式“Ca”的行。

1.3K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    R语言行筛选的方法--filter

    上篇是数据框中列的筛选(R语言列筛选的方法--select),本次讲解行的筛选,主要是介绍filter函数。 1....数据 这里,使用asreml分析中的BLUP值为例,相关的模型为: m1 = asreml(Phen ~ G , random = ~ vm(Progeny,ainv) + vm(Dam,ainv) +...根据部分行名删选 select函数,可以根据开头,中间,结尾,进行列的删选。 filter结合其它函数,也可以进行行的筛选。...如果想对ID中,包含ainv的行,进行筛选,可以这样操作: re3 = blup2 %>% filter(str_detect(ID,"ainv")) %>% arrange(-effect) head...固定字符特征进行行筛选 str_detect没有fixed = T的选项,如果想固定字符匹配,可以用fixed()函数: re3 = blup2 %>% filter(str_detect(ID,fixed

    5.8K30

    TidyFriday 每天 5 分钟,轻轻松松上手 R 语言(四)

    上次推文,我们通过数字和字符进行了简单的行筛选,今天我们继续来探讨 filter()的进阶用法 今天我们使用 msleep 来进行演示filter()的用法,msleep 是一个关于哺乳动物睡眠的数据...例如,要选择总睡眠时间在16至18小时之间的所有动物,我可以使用filter(sleep_total >= 16, sleep_total 使用 between ()看起来会更简洁一些...只有在完全匹配时,我们才能用字符串对变量进行筛选。...但在某些情况下,需要根据部分内容进行筛选,我们需要一个函数来计算字符串上的正则表达式并返回布尔值。只要语句为 TRUE,就会过滤该行。...通过使用 filter (str_detect (name,pattern=“ mouse”)) ,我们会跳过含有 Mouse 的行。

    76630

    2023.4生信马拉松day7-R语言综合应用

    5到9个字符 4. str_detect() 字符串检测【重要】 -(1)判断每个字符串含不含有某个字母或者多个字母的组合; -(2)判断之后得到一个与x2相等的逻辑值向量; -(3)可以用来做“根据逻辑值提取...x2,"e") #判断是否以某个元素结尾; 5. str_replace()、str_replace_all() 字符替换 -(1)str_replace() :只替换匹配到的第一个目标 -(2)全部替换...以上操作根据此前学过的知识新增列的话这么写: 图片 4.简单了解:select() 、filter()筛选列、行 5.补充知识:管道符%>% -(1)当遇到连续的步骤时:多次赋值,会产生多个中间的变量;...,产生多个中间的变量 x1 = select(iris,-5) #取iris除了第5列的所有列 x2 = as.matrix(x1) x3 = head(x2,50) #取x2的前50行 pheatmap...:安装R包的满分操作——根据一个包是否已安装来决定要不要安装这个包; if(!

    3.6K80

    听说WGCNA官网崩了?那还能做基因共表达分析吗?

    主要的变异来源是发育阶段、组织和重复样本。我通常会制作一个汇总表来指导我的下游分析: 发育阶段可以作为数值变量或定性变量进行分析。 现在我们了解了实验设计,接下来我们将确定实验中变异的主要驱动因素。...换句话说,在发育阶段和组织之间,哪个因素对实验中的变异贡献更大?这个问题的答案对于我们如何最有效地可视化数据至关重要。 获得实验全局视图的一个好方法是进行主成分分析(PCA)。...选择高变异基因有多种方法和多个截止值。例如,你可以计算所有基因的logTPM的基因级方差,并取上三分位数。你可以选择在所有组织中具有一定表达水平的基因(比如说> 5 tpm),然后取高变异基因。...我们如何选择在下游分析中使用哪些相关性。我将这一步称为“边的选择”,其中每个基因是一个节点,每个相关性是一条边。我有两种方法可以做到这一点。...如果绘制所有模块的图,那会太多,所以我们只选择2个模块来查看。 我选择了: 模块1,它在5 DAP(天前收获)时表达最高——一个早期表达的聚类。

    19610

    生信技能树- R语言-day7

    ,如果没有赋值,那么这个数据框还是没有新加,没有赋值,就没有产生补充select()filter()如何简化连续的步骤1....,根据逻辑值向量生成有两个取值的字符型向量ifelse() + str_detect()samples = c("tumor1","tumor2","tumor3","normal1","normal2...else2, ifelse(,,ifelse)在ifelse里加一个ifelse补充 case_when练习题1.加载deg.Rdata,根据a、b两列的值,按照以下条件生成向量x:load("deg.Rdata...30个数里最大的5个head 取头几个tail 取尾巴的几个还没做思考题:如何跳出一个表达矩阵里方差最大的1000个基因思考题:取出大于1的所有行向量/列表的隐式循环-lapplylapply(list...这是一个矩阵2. 先转置3. 把行名变成一列4. “宽”变成“长”把格式变成类似于 ggplot2的形式,一列作为x,一列作为y5.

    10400

    使用 R 语言从 PDF 文档中提取表格

    由于一个知识星球的小伙伴急需学习如何从 PDF 文档中提取表格,所以先插这个课,「使用 R 语言处理 netCDF 数据」系列的课程下次再发新的哈。...本课程介绍了如何使用 R 语言从 WHO(世界卫生组织)的官网上下载新冠疫情的每日报告以及如何从这些报告中的表格里面提取数据。.../ 这个非常简单,我的思路是直接获取网页中的所有 标签的 href 属性,然后过滤出链接中含 .pdf 的,最后再用一个循环下载所有的 PDF 文件即可。...从 PDF 里面提取表格数据 我选择最新的一个 PDF 做演示:20200523-covid-19-sitrep-124.pdf,下面使用 tabulizer 包进行数据提取,不过这个包依赖于 rJava...因为电脑系统的关系,我不好演示,大家可以自己研究下,不难的。我这里提供几个 tips,Java 安装之后可能还需要进行环境变量的配置。

    3.7K10

    从零开始的异世界生信学习 R语言部分 06 R应用专题

    可以用来进行分组,通过str_detect函数识别数据中的关键词,然后进行分组 samples = c("tumor1","tumor2","tumor3","normal1","normal2","...(l1,l2) ##判断两个数据是否一致 #如何将结果存下来?...dat%>% pivot_longer(cols = starts_with("gene"), ##选择那几列的列名合成在一起组成新的一列 names_to = "...gene", ##新的列的名字 values_to = "count") ## 把原来列中的数值一一对应形成一个新的数值列'count' 图片 library(ggplot2...(第一个写的数据框),右表中多余的数据舍去,没有的数据显示缺失值 right_join(test1,test2,by="name") ##右连接,以右侧的表的行为准构成新的数据框(第二个写的数据框),左表中多余的数据舍去

    2.5K30

    R练习50题 - 第一期

    写在前面 从这期开始,大猫课堂将会推出一个新的系列:R练习50题,目的是使用50道练习题让大家掌握常用的数据操作,例如寻找每组最大的N个观测等。...在data.table的语法中,先进行列选择操作,再对列进行处理。所以上述语句会先执行str_detect,再执行unique。 练习2:每天上涨和下跌的股票各有多少?...其中,updown是我们新建的字符变量,用来表示分组,它只取两个值:UP, DOWN。这其中的难点是建立updown这个变量。我们使用了ifelse这个函数。...代码第二行生成了一个新变量num。由于在keyby语句中我们已经按照日期与涨跌进行了分组,所以这一步我们只需要统计每个组有多少个股票就可以了。我们在这里使用了uniqueN这个函数。...整个代码的执行顺序是:先选择行(逗号空白行),再分组(keyby语句),最后进行组间统计(num语句)。 我们的答案中,行、列以及分组三条语句各占一行,实际上这仅仅是为了让代码更直观。

    2.5K40

    R语言学习笔记-Day6

    计算一个"字符串"内的字符数。...str_split(x," ")根据字符串内" "(空格)进行拆分class(str_split(x," "))1 "list"#获得向量:[1]#str_split()可对多个字符串进行拆分,每个字符串成为一个数据框...#反选,筛选除第5列外的数据x2 = as.matrix(x1)x3 = head(x2,50) #截取前端行(前50行)heatmap(x3)-->嵌套heatmap(head(as.matrix(select...,每个脚本最后保存.Rdata,下一个脚本开头清空再加载为什么保存为.Rdata而不是表格文件*1 变量,自带变量名称,无需赋值,没有参数*2 表格文件需要赋值,参数影响读取结果,不能在后续文件同等处理...(X,MARGIN,FUNCTION,...)apply(test,2,mean)#1 X代表数据框/矩阵名#2 MARGIN以数值作代表,1为行,2为列#*3 FUNCTION为函数#如何取出30个随机数中最大的

    17400

    生信马拉松 Day9-10 GEO数据分析笔记

    TIPS: 1、转录组数据不能直接套芯片的流程,错套的第一个表现就是dim结果是 行 为0 2、non-coding和普通array可以统一处理,但不能做富集分析,富集分析需要用编码蛋白做,或者先靶基因预测然后再做富集分析...需要删去 7、一个探针对应多个基因(非特异性探针),难以解释,这些行直接去掉 8、对于lnkRNA不能直接用页面上的TargetID,尽量寻找symbol列 9、官网下载对应产品的注释表格:往往是付费的...(1,2,5,6) exp = exp[,keep] pd = pd[keep,] # 方法2:按照逻辑值,根据自己的数据特点编写: # 可以是提取要保留的数据有的,也可以是不要的数据有的 # 无论如何设置...,除了01_start_GEO和02_group_ids文件需要对下载的数据稍微调整,以及取出分组信息之外,后面所有的几个脚本不需要几乎不需要做修改,需要做修改的地方也会安排一个变量 logFC_t =...1 p_t = 0.05 #思考,如何使用padj而非p值 k1 = (deg$P.Value < p_t)&(deg$logFC < -logFC_t) k2 = (deg$P.Value < p_t

    24900

    在学术不端的数据取舍上面反复横跳

    然后第一种文章是再次对每个亚群继续细分走三件套(亚群注释,拟时序,转录因子)这样就可以凑三五个图表。第二种文章是针对其中一个亚群探索三五个大图。...= '',] ids[str_detect(ids$symbol,"NECTIN2"),] # [1] ID symbol # 行> (或0-长度的row.names) ids[str_detect...中位数从大到小排列的顺序排序,将对应的行赋值为一个新的ids ids[str_detect(ids$symbol,"PVRL2"),]#查看PVRL2基因对应的探针及表达量 ids[str_detect...为否,即取出不重复的项,去除重复的gene ,保留每个基因最大表达量结果 dat=dat[ids$probe_id,] #新的ids取出probe_id这一列,将dat按照取出的这一列中的每一行组成一个新的...,然后可以做同样的分析。

    27110

    单细胞4

    str_detect()> ?str_detect() #一个检测字符串str_detect(string, pattern, negate = FALSE),一个逻辑值,指定是否要反转匹配逻辑。...str_replace() #string:需要进行替换操作的原始字符串或字符串向量。pattern:要替换的模式,可以是一个正则表达式。replacement:用于替换匹配模式的字符串。...通过这些分析可能能发现新的细胞类型,揭示细胞之间的欢喜等,同时可以减少噪声和批次效应。多样本整合:使用harmony,它需要的计算资源少,且准确程度高,是最受欢迎的方法。...的数量和比例#这行代码使用 cbind 函数创建一个新的向量 cell.all,它由两列组成:cell_counts 是上面计算的每种细胞类型的计数...点的大小和颜色表示表达量7.4 FeaturePlot一行是一个基因,一列是一个分组,可以很直观的对比。

    34310

    Python全网最全基础课程笔记(五)——选择结构+Python新特性Match

    流程控制-选择结构 Python的流程控制是编程中非常重要的一部分,它决定了程序如何根据不同的条件执行不同的代码块。...变量模式 变量模式会将匹配的值赋给变量,以便在后续的代码块中使用。...列表 # case [first, *rest]: 这一行使用了星号表达式来捕获列表的第一个元素到变量first中,并将剩余的元素捕获到一个名为rest的新列表中 match numbers:...,该模式是一个列表,它首先捕获列表的第一个元素到变量first中,然后使用星号表达式*rest来捕获列表中剩余的所有元素到一个新的列表rest中。...由于numbers列表确实符合这个模式,匹配成功,并且第一个元素1被赋值给变量first,而剩余的元素[2, 3, 4, 5]被捕获并作为一个新的列表赋值给变量rest,然后程序打印出这两个变量的值。

    15110
    领券