首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Day07 生信马拉松-数据整理中的R

    .玩转字符串--stringr包 1.1 字符串长度-引号内的单个字母/数字/符号数量 x <- "The birch canoe slid on the smooth planks." x str_length...1.2 字符串拆分 str_split(x," ") #直接拆分后会变成list的子集 class(str_split(x," ")) x2 = str_split(x," ")[[1]];x2 #向量长度仅为...1.3 按位置提取字符串 #提取x中第5和第9位的字符串 str_sub(x,5,9) 1.4 字符检测 str_detect(x2,"h") # 第一个参数为向量名,第二个是检测的关键词 str_starts..."A") #每个元素里面只替换第一次出现的目标字符 str_replace_all(x2,"o","A") #替换元素中所有目标字符 1.6 字符删除 x str_remove(x," ") #只删除第一次出现的目标字符...str_remove_all(x," ") #删除全部目标字符 2.玩转data.frame--dplyr包 2.1 arrange,数据框按照某一列排序,实际参数不能加" " library(dplyr

    23900

    day 6 字符串 数据框 条件 循环 隐式循环

    x1.检测字符串长度str_length(x) #检测一共有多少字符length(x) #有多少字符串2.字符串拆分### 纯字符型向量str_split(x," ")class(str_split(x...str_starts(x2,"T")str_ends(x2,"e")5.字符串替换x2str_replace(x2,"o","A") #只替换每个字符串中第一次匹配到的元素str_replace_all...:102),]rownames(test) =NULL # 去掉行名,NULL是“什么都没有”test# arrange,数据框按照某一列排序library(dplyr) # 数据框整理的包arrange...dplyr# mutate,数据框新增一列mutate(test, new = Sepal.Length * Sepal.Width)连续的步骤1.多次赋值,产生多个中间的变量x1 = select(iris...)),50))3.管道符号传递,简洁明了iris %>% select(-5) %>% as.matrix() %>% head(50) %>% pheatmap::pheatmap()条件和循环

    4700

    day6-苗苗

    #安装运行dplyr包图片图片图片#新建test,新增列用mutate,mutate单词是突变、变异的意思图片#select和mutate都是筛选的意思,前者是筛选列,后者是筛选行图片#arrange是排序...summarise汇总,group_by是先分好组,再分别计算图片#count是分别计算某一类有多少个图片#连接用join,依据左边的表用left,右边用right,inner则是交集,完全一样的有谁#这三个是三列都要写上...,哪怕没有数也要写NA,不能不写图片图片#全连就不用说明了#semi是半连,依据第二组数,写能与之匹配的第一组数,这里就不写第三列了,anti是写匹配不上的。...图片#这个bind也是连接,_后面是根据什么连,row是行,col是列,要一样数的行列才能连图片

    15340

    bcftools csq分析基因突变对蛋白水平的影响

    和其他预测基因突变对蛋白质影响的软件不同,bcftools 将基因组划分为不同的独立区域(和单倍型区域概念类似),在分析蛋白质变化时,会综合考虑该区域内的所有突变位点,示意图如下 ?...在A图中,该区域包含两个SNP位点,如果单独考虑每个位点,只能预测到氨基酸替换,由精氨酸替换为色氨酸或者谷氨酰胺, 综合考虑两个SNP位点时,对应的DNA序列变成了一个终止密码子,蛋白质长度都发生了变化...在B图中,该区域包含了2个indel 位点,单独考虑每个indel位点时,都是发生了移码突变,氨基酸长度发生了变化,综合考虑两个SNP位点时,氨基酸变化和单独分析一个位点时,又大不一样。...在C图中,两个SNP位点发生在剪切位点两侧,单独考虑每个SNP位点,氨基酸由天冬氨酸替换为天冬酰胺或者谷氨酸,综合考虑两个突变位点时,氨基酸由天冬酰胺替换成赖氨酸。...输出文件的格式也是VCF格式,会在INFO列中新增一个BCSQ字段,用来描述突变位点在基因组上的位置和蛋白质序列的变化,示例如下 BCSQ=synonymous|XYZ|ENST00000000001|

    87220

    R07-R语言的综合应用

    str_length(x) # 1.检测字符串长度str_split(x," ") # 2.字符串拆分(以空格隔开的字符串拆分)拆分后以列表格式呈现str_sub(x,5,9)...,x2中的o替换为A(有重复的只替换了第一个)str_replace_all(x2,"o","A") # 5.字符串替换,x2中的o全部替换为Astr_remove(x," ") # 6.字符删除...(只删除了第一个空格)str_remove_all(x," ") # 6.字符删除(删除全部空格)2.玩转数据框(dplyr)#arrange,数据框按照某一列排序arrange(test, Sepal.Length...iris,-5)),50))3.管道符号传递,简洁明了iris %>%select(-5) %>%as.matrix() %>%head(50) %>% pheatmap::pheatmap()3.条件和循环一...:4中的每个元素进行循环输出批量画图par(mfrow = c(2,2))for(i in 1:4){ plot(iris,i,col = iris,5)}批量装包pks = c("tidyr","dplyr

    7110

    R语言基础5(绘图基础)

    ,可用于向量取子集; str_detect(x,"h|s")##是否含有关键词h或者s,生成与X长度相等的逻辑值向量,可用于向量取子集; str_starts(x,"h")##是否以h开头,生成与X长度相等的逻辑值向量...,可用于向量取子集; str_ends(x,"h")##是否以h结束,生成与X长度相等的逻辑值向量,可用于向量取子集; str_replace(x,"o","a")#将x中的o替换为a,只替换出现的第一个...o; str_replace(x,"o|s","a")#将x中的o或者s替换为a,只替换出现的第一个o; str_replace_all(x,"o","a")#将x中的o替换为a,替换所有的o; str_remove...sort()##只排序某一列,其他列不改变;无法改变对应关系。...library(dplyr) arrange(test, Sepal.Length) #将Sepal.LengthSepal.Length这一列从小到大排序 arrange(test, desc(Sepal.Length

    35871

    新TCGA+文献复现里的几种算法

    以病人iid列连接在一起 表达矩阵与临床信息需要匹配,否则没办法把一个基因当作一个临床因素去处理 KM曲线 可以直观展示生存率和死亡率,有p值,展示组间生存率变化的比较 log_rank_test log_rank_test...给每一个病人计算风险分数 lasson回归、COX多因素分析、随机森林、支持向量随机 缩小基因的数量,得到公式,得到风险分数 最要学会的数据整理方法:TCGA_2里的 5.sur.dat GBM_ER里 IDH突变和...是否突变?...展示你想展示的那组基因的突变情况 options(stringsAsFactors = F) require(maftools) require(dplyr) project='TCGA_KIRC'...2.细胞表型信息phenoData:第一列细胞编号,其他列是细胞的相关信息。 3.基因注释featureData:第一列是基因编号,其他列是基因的对应信息。

    27810

    biotrainee note 6

    x### 1.检测字符串长度str_length(x)length(x) ## 检测向量里有多少个元素,如果是字符型向量,即有多少对引号### 2.字符串拆分str_split(x," ") ##...x2str_replace(x2,"o","A") ## 将元素中的“o”替换成“A”,但如果连续遇到只替换第一个str_replace_all(x2,"o","A") ## 将元素中所有的“o”均替换成...library(dplyr)arrange(test, Sepal.Length) #将“Sepal.Length”列从小到大排序,并扩展到其他列,会将排序的结果返回至数据框。...select(-5) %>% as.matrix() %>% head(50) %>% pheatmap::pheatmap() # |>可以替代%>%这个管道符号,指将上一步的结果向后传递专题3 条件和循环...{print(i)}#批量画图par(mfrow = c(2,2))for(i in 1:4){plot(iris[,i],col = iris[,5])}#批量装包pks = c("tidyr","dplyr

    6000

    生信马拉松 Day7

    ;x 1.1 检测字符串长度 str_length(x) #注意包括空格,空格也算一个 #[1] 42 length(x) #算的是向量有多少个元素 #[1] 1 1.2 字符串拆分 str_split...FALSE FALSE FALSE FALSE str_ends(x2,"e") #[1] TRUE FALSE TRUE FALSE FALSE TRUE FALSE FALSE 1.5 字符串替换...canoe" "slid" "on" "the" "smooth" "planks." str_replace(x2,"o","A") #此时只有每个字符串的第一个"o"被替换了...条件和循环,if,for 碎碎念:这个东西每次好久不用就想不起格式要重新查,脑子是个好东西,就是漏的厉害 rm(list=ls()) #if的格式 if (){ #if后面的括号里只能是一个逻辑值...不可以是多个逻辑值组成的向量 } #if+else的格式 if (){ }else{ } #ifelse的格式 ifelse( , ,) #第一个逗号前是逻辑值 #for的格式 for(){ } 条件和循环的应用

    25300

    生信技能树- R语言-day7

    玩转字符串1.检测字符串长度str_length(x)length(x)# 字符的个数2.字符串拆分str_split(x," ") # 把42个字符 按照“空格”拆分成八个字符串class(str_split...不然还是原来的y3.按位置提取字符串str_sub(x,5,9) #空格也要算上 x字符串里5-9位置4.字符检测str_detect(x2,"h") # h类似于地雷,扫雷探测,含有h的就会变成TURE,生成长度相等的逻辑值向量...#如果向量里的一个数据有两个o,只替换第一个str_replace_all(x2,"o","A") #如果向量里的一个数据有两个o,都替换str_replace_all(x2,"o|e","A") #...竖线 代表着或者6.字符删除str_remove(x," ")str_remove_all(x," ")玩转数据框arrange,数据框按照某一列排序sort是给向量排序的library(dplyr)...以左边的为准left_join(test1,test2,by="name")right_join:右连接,以右边的为准right_join(test1,test2,by="name")表达矩阵画箱线图当x和y

    10400

    tidyverse:R语言中相当于python中pandas+matplotlib的存在

    从文件中读取数据 purrr:(提供好用的编程函数 tibble:data.frame升级款 stringr:处理字符,查找、替换等 forcats:处理因子问题 ?...02 — tibble:高级数据框(data.frame升级版) ——数据(列)类型一目了然 tibble是R语言中一个用来替换data.frame类型的扩展的数据框,tibble继承了data.frame...tibble,不关心输入类型,可存储任意类型,包括list类型 tibble,没有行名设置 row.names tibble,支持任意的列名 tibble,会自动添加列名 tibble,类型只能回收长度为...4.6 分组: group_by # install.packages("dplyr") library(dplyr) 4.1 筛选: filter() #按给定的逻辑判断筛选出符合要求的子数据集...这些函数允许在长数据格式(long data)和宽数据格式(wide data)之间进行转换(功能类似于reshape包,但是比reshape更好用,并且可以用于管道%>%连接)。

    4.2K10

    从零开始的异世界生信学习 R语言部分 06 R应用专题

    一、玩转字符串 stringr包 图片 1.str_length() 检测字符串长度 x <- "The birch canoe slid on the smooth planks." x ### 1....检测字符串长度 str_length(x) #计算字符串中有多少字符 length(x) #计算向量中元素的个数 图片 图片 2. str_split 字符串拆分 x <- "The birch...x2 str_replace(x2,"o","A") ##在" "中只替换一个函数 str_replace_all(x2,"o","A") ##替换所有 图片 6. str_remove 字符串替换...新增一列是两列数值的乘积 mutate(test, new = Sepal.Length * Sepal.Width) 图片 图片 select和filter 筛选出来的结果是数据框 3.连续操作,优秀的管道符号...select(filter(iris,Sepal.Width>3), Sepal.Length,Sepal.Width), Sepal.Length) 三、条件和循环

    2.5K30
    领券