近期写R代码,经常用dplyr::case_when结合stringr::str_detect进行条件判断。
例如 y=c("nihaoa 11","niyehaoa 22","zhangsongwen 33")
作为同属于tidyverse 大家庭的一份子,stringr 也为R 的一般字符串处理,献上了一份自己的力量!
str_detect:用来匹配字符中的字母,返回布尔值 str_count():匹配字符,返回匹配的个数
stringr构建在stringi之上,stringr专注于最重要且最常用的字符串操作函数,而stringi提供了涵盖几乎所有可以想象的内容的全面集合。 如果发现stringr缺少所需的功能,请尝试查看stringi。
哈喽,我是学习生物信息学的阿榜!非常感谢您能够点击进来查看我的笔记。我致力于通过笔记,将生物信息学知识分享给更多的人。如果有任何纰漏或谬误,欢迎指正。让我们一起加油,一起学习进步鸭? 这份学习目录可以
-(3)注意:之前提到过,矩阵的某一列不能单独转换数据类型,需要把矩阵转换成数据框再转换某列的数据类型;或者把这列单独提取出来再转换其数据类型;
从这期开始,大猫课堂将会推出一个新的系列:R练习50题,目的是使用50道练习题让大家掌握常用的数据操作,例如寻找每组最大的N个观测等。本练习题来源于Renkun (github.com/renkun-ken/r-data-practice) 在Github上的共享,我们认为它包括了绝大多数实践中会遇到的问题,特别具有代表性。只可惜Renkun并没有提供答案,所以我们在这里提供我们的版本。
碎碎念:这个没啥好仔细展示的,含义也很直观,主要是要记住有这个函数,等需要用的时候回来找
step1 对matrix进行转置:使gene名变为列名,将样本名转化为data.frame中的第一列
arrange(test, desc(Sepal.Length)) #从大到小 desc()
str_detect(x,"h")##是否含有关键词h,生成与X长度相等的逻辑值向量,可用于向量取子集;
1.字符串图片1.str_length图片x <- "The birch canoe slid on the smooth planks."x### 1.检测字符串长度str_length(x)length(x) #返回字符串的个数2.str_splitsplit返回列表,但是列表不能进行计算,对列表进行取子集### 2.字符串拆分str_split(x," ")x2 = str_split(x," ")[[1]];x2y = c("jimmy 150","nicker 140","tony 152")st
i :代称,比如第一次循环则代表in后面向量的第一个元素;第二次则为第二个元素,直到完成in后面向量里所有元素的循环为止。如in后面的向量有8个元素,则8次循环。
这一部分,将R语言stringr包中的使用正则表达式的字符串函数简单介绍一下,会用到正则表达式的相关内容,有关正则表达式的知识可以回顾R&Python Data Science系列:数据处理(6)--字符串函数基于R(二)
ctrl+shift+m,把上一个运算的结果输入为下一个函数的第一个参数,可以省略很多中间变量
⚠️注意:str_spilt的第二个参数,写你想分割的符号,上面代码“hello world”的分割是空格,因此输入“ ”,同样也可以是其他符号。
数据框函数- 排序arrange()和desc参数、distinct()去重复、mutate()数据框新增列
有时eSet里面有两个对象,可以到网页看一下,可能是因为测了两种芯片,我们分开分析就好。
一、玩转字符串 stringr包 图片 1.str_length() 检测字符串长度 x <- "The birch canoe slid on the smooth planks." x ### 1.检测字符串长度 str_length(x) #计算字符串中有多少字符 length(x) #计算向量中元素的个数 图片 图片 2. str_split 字符串拆分 x <- "The birch canoe slid on the smooth planks." x ### 2.字符串拆分 str_sp
图片 专题1 玩转字符串 图片 检测字符串长度 代码1 str_length(x) if(!require(stringr))install.packages('stringr') library(stringr) x <- "The birch canoe slid on the smooth planks." x [1] "The birch canoe slid on the smooth planks." str_length(x) [1] 42 ### 1.检测字符串长度,包含空格和符号 le
[1] "The birch canoe slid on the smooth planks."
然后马上这些策略就被应用到了单细胞转录组数据挖掘层面,因为反正也不需要自己产出数据了,过去三五年间单细胞的火热带动了海量的各种实验设计的公开的表达量矩阵。比如这个文献:《Lipid-related protein NECTIN2 is an important marker in the progression of carotid atherosclerosis: An intersection of clinical and basic studies》就是看了看两个分组的具体的基因的差异,在普通bulk转录组和单细胞转录组两个数据集里面,如下所示:
semi_join anti_join实际上没有发生过两个数据框的连接,其实是对左边的数据框取子集
下面是( GEO数据挖掘 )直播配套笔记 举例:GSE83521和GSE89143数据合并 1.下载数据 rm(list = ls()) library(GEOquery) library(stringr) gse = "GSE83521" eSet1 <- getGEO("GSE83521", destdir = '.', getGPL = F) eSet2 <- getGEO("GSE89143",
在列表中取子集后得到"ExpressionSet"结构数据,为"Biobase"包中的数据形式
写此文档的缘由:在做GSEA分析时,由于研究的是非模式生物,从Broad Institue开发的MSigDB没有找到合适的预设基因集,没办法顺利进行GSEA. 但是KEGG数据库收录有目标物种。几经折腾,终于跑上了GSEA. 写此文档为其他研究非模式生物的人员提供一点借鉴。
上次推文,我们通过数字和字符进行了简单的行筛选,今天我们继续来探讨 filter()的进阶用法
y4 <- filter(deg, a>1 & b < 0.05);table(y4)
今天正式开始教画图了,具体的代码其实挺多地方讲到了,上课的好处就是可以听到很多细节和经验,是自己零散地找资料不能相比的,收获很多,感觉要全部吞下来还要再复习几遍
「方法」:利用加权相关网络分析(WGCNA)从 GEO 数据库的 GSE60993、GSE48060 和 GSE61144 数据集中筛选出与 AMI相关性最高的基因模块。
本示例数据集很小,实际中数据量很大,可以根据使用filter()函数筛选出后续需要的“行”子集。
原文地址:https://suzan.rbind.io/2018/02/dplyr-tutorial-3/ 作者:Suzan Baert 这是系列dplyr系列教程中的第三篇博客文章。 在这篇文章中,我们将介绍如何挑选您的数据。 除了filter的基础知识外,它还介绍了一些更好的方法,用near()和between()挑选数字列,或用正则表达式过滤字符串列。
芯片的差异分析需要输入表达矩阵(数据分布0-20,无异常值,如NA,Inf等;无异常样本)、分组信息(一一对应,因子,对照组的levels在前)、探针注释(gpl编号,对应关系)。
可以使用str_sub()函数来提取字符串的一部分。除了字符串参数外,str_sub() 函数中还 有 start 和 end 参数,它们给出了子串的位置(包括 start 和 end 在内):
文章在这:Tumor microenvironment remodeling after neoadjuvant immunotherapy in non-small cell lung cancer revealed by single-cell RNA sequencing 方法:来自3名治疗前和12名接受新辅助PD-1阻断联合化疗的非小细胞肺癌(NSCLC)患者的~92,000个单细胞的转录组。根据病理反应将12个治疗后样本分为两组:MPR(n = 4)和非MPR(n = 8)。
上篇是数据框中列的筛选(R语言列筛选的方法--select),本次讲解行的筛选,主要是介绍filter函数。
---title: "生信技能树学习笔记"author: "天空"date: "2023-01-04"output: html_document---R语言综合应用1. 玩转字符串图片(1) str_length()图片library(stringr)x <- "The birch canoe slid on the smooth planks."x## [1] "The birch canoe slid on the smooth planks."### 1.检测字符串长度str_length(x)##
一、以下为stringr包的字符串处理函数: 1. 字符串的大小写转换 str_to_upper(string, locale = “”) str_to_lower(string, locale =
发表论文一般需要三步,写,投,改。好不容易定好了题,好不容易算完了数据,好不容易改完了稿,却不知道如何选择最适合自己的期刊,实在有一些可惜。因此,对本领域发文情况做一次检索是非常必要的。
https://github.com/cxli233/SimpleTidy_GeneCoEx/tree/v1.0.1
领取专属 10元无门槛券
手把手带您无忧上云