首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

R语言】根据映射关系来替换数据内容

前面给大家介绍过☞R替换函数gsub,还给大家举了一个临床样本分类具体例子。今天我们接着来分享一下如何根据已有的映射关系来对数据数据进行替换。...例如将数据转录本ID转换成基因名字。我们直接结合这个具体例子来进行分享。...接下来我们要做就是将第四列注释信息,从转录本ID替换成相应基因名字。我们给大家分享三种不同方法。..._.*","\\1",bed$V4) #获取转录本号对应基因名字 symbol=mapping[NM,1] 方法一、使用最原始gsub函数 #先将bed文件内容存放在result1 result1...参考资料: ☞R替换函数gsub ☞正则表达式 ☞使用R获取DNA反向互补序列

3.8K10
您找到你想要的搜索结果了吗?
是的
没有找到

Excel实战技巧55: 在包含重复列表查找指定数据最后出现数据

SUMPRODUCT+MAX+ROW函数 公式如下: =INDEX($B$2:$B$10,SUMPRODUCT(MAX(ROW($A$2:$A$10)*($D$2=$A$2:$A$10))-1)) 公式先比较单元格D2与单元格区域...A2:A10,如果相同返回TRUE,不相同则返回FALSE,得到一个由TRUE和FALSE组成数组,然后与A2:A10所在行号组成数组相乘,得到一个由行号和0组成数组,MAX函数获取这个数组最大...,也就是与单元格D2相同数据在A2:A10最后一个位置,减去1是因为查找是B2:B10,是从第2行开始,得到要查找在B2:B10位置,然后INDEX函数获取相应。...图2 使用LOOKUP函数 公式如下: =LOOKUP(2,1/($A$2:$A$10=$D$2),$B$2:$B$10) 公式,比较A2:A10与D2,相等返回TRUE,不相等返回FALSE...组成数组,由于这个数组找不到2,LOOKUP函数在数组中一直查找,直至最后一个比2小最大,也就是数组最后一个1,返回B2:B10对应,也就是要查找数据列表中最后

10.4K20

数据科学学习手札58)在R处理有缺失数据高级方法

一、简介   在实际工作,遇到数据带有缺失是非常常见现象,简单粗暴做法如直接删除包含缺失记录、删除缺失比例过大变量、用0填充缺失等,但这些做法会很大程度上影响原始数据分布或者浪费来之不易数据信息...matshow,VIM包matrixplot将数据框或矩阵数据缺失及数值分布以色彩形式展现出来,下面是利用matrixplot对R自带airquality数据进行可视化效果: rm...如上图所示,通过marginplot传入二维数据框,这里选择airquality包含缺失前两列变量,其中左侧对应变量Solar.R红色箱线图代表与Ozone缺失对应Solar.R未缺失数据分布情况...,若m=1,则唯一矩阵就是插补结果; method: 这个参数控制了传入数据每一个变量对应插补方式,无缺失变量对应为空字符串,带有缺失变量默认方法为"pmm",即均值插补 predictorMatrix...: 因为mice绝大部分方法是用拟合方式以含缺失变量之外其他变量为自变量,缺失为因变量构建回归或分类模型,以达到预测插补目的,而参数predictorMatrix则用于控制在对每一个含缺失变量插补过程作为自变量有哪些其他变量

3K40

python学习笔记:深浅拷贝使用和原理

2.数据类型 在python数据类型包括:int,bool,float,str,dict,tuble,set,list等等,  首先,我们需要知道在python哪些是可变数据类型,哪些是不可变数据类型...可变数据类型:列表list和字典dict;不可变数据类型:整型int、浮点型float、字符串型string和元组tuple。...用一句话来概括上述过程就是:“python不可变数据类型,不允许变量发生变化,如果改变了变量,相当于是新建了一个对象,而对于相同对象,在内存则只有一个对象,内部会有一个引用计数来记录有多少个变量引用这个对象...;可变数据类型,允许变量发生变化,即如果对变量进行append、+=等这种操作后,只是改变了变量,而不会新建一个对象,变量引用对象地址也不会变化,不过对于相同不同对象,在内存则会存在不同对象...,即每个对象都有自己地址,相当于内存对于同对象保存了多份,这里不存在引用计数,是实实在在对象。

67760

R语言计算两组数据变量之间相关系数和P简单小例子~应用于lncRNAtrans-act

最近在看植物长链非编码RNA内容,数据分析里有个一内容是预测lncRNA反式作用元件,通常做法是利用表达量数据计算皮尔逊相关系数,然后设置一定阈值进行筛选 比如 Horticulture Research...这里相当于是计算两个数据集中变量之间相关性,之前发现correlation这个R包里函数correlation()可以做 但是这里遇到了一个问题 ? 关掉这个报错界面以后就会提示 ?...但是mRNA表达量有上万个,用这个函数计算时候是非常慢 找到了另外一个函数是Hmisc这个包rcorr()函数 这个速度快很多,但是他不能计算两个数据之间变量相关性, 这样的话可以先计算,...零基础学习R语言之相关性分析 https://www.bilibili.com/video/BV1vb4y1k7kv psych这个包里corr.test()函数也是可以直接计算两个数据变量之间相关性...,这个结果里也有显著性检验p 但是这个如果数量量比较大的话速度也很慢

5.8K20

R语言笔记-1

F NA 变量赋值 string = "hello,world" string <- "hello,word" 比较运算 比较运算返回是逻辑TURE 、FALSE > 大于 < 小于 >=...0即为TRUE,0则为FALSE 数值型数据转换为字符型"123" 逻辑型数据转换为数值型,TRUE为1,FALSE为0 逻辑型数据转换为字符型"TRUE"or"FALSE" R语言在不同数据转换时,尽可能保留更多数据信息...数据结构 向量(vector) 数据框(data.frame) 矩阵(matrix) 列表(list) 向量 向量和矩阵所有元素只能有一种数据类型 数据一列就是一个向量 向量内元素可以重复 #...4位置上其他元素 任何操作需要赋值才能修改变量 向量之间操作 #向量之间运算 x = c(1,2,3,4) y = c(1,3,2,1) x + y #直接进行数学计算 x == y #比较运算可以生成逻辑...(x,y) #取差,x中去除y setdiff(y,x) #取差,y中去除x # %in%使用 x %in% y #x每个元素在y存在吗,返回一组逻辑 y %in% x #y每个元素在x存在吗

77060

py学习(流程控制语句和组合数据类型)

• 对象(object)就是内存中专门用来存储数据一块区域 • 之前学习对象,像数值,它只能保存一个单一数据列表可以保存多个有序数据列表使用:1列表创建,2列表操作 • 列表创建...,变量数量必须和元组数量一致 • 也可以在变量前边添加一个*,这样变量会将获取元组中所有剩余元素,并且返回为一个列表 • 可变对象 • 每个对象中都保存了三个数据: • id(标识) • type...(类型) • value() • 列表就是一个可变对象 • a=[1,2,3] • 改对象:a=[0] #这种方式不是修改变量,而是通过变量去修改对象,所以说列表是可变对象 • 当我们去修改对象时...• 获取字典根据键来获取值 • 语法 : dict[key] • get(key[,default])该方法用来根据键来获取字典 • print(d.get(‘name’)) • 修改字典...• 遍历字典 • keys()方法会返回字典所有的key • 方法会返回一个序列,序列中保存字典所有的键 • 通过keys()来获取所有的键 • values() • 该方法会返回一个序列,序列中保存字典左右

1.6K20

2023.4生信马拉松day2-数据类型

5.多个数据组织——数据结构 -向量 一个向量内部只能有一种数据类型,可以有重复 重复允许,不同数据类型不允许!...-数据框 约等于表格:列有要求(同一列只允许同一种数据类型);不是文件(可以导出来成为一个文件) 数据框单独拿出一列是向量,视为一个整体 -矩阵 -列表 6.向量生成 -以下代码基本来自小洁老师所给...table(x) #重复统计 sort(x) #默认从小到大排序——R语言里默认思想 sort(x,decreasing = F) sort(x,decreasing = T) 8.对两个向量进行操作...y里所有的元素比一遍; 9.向量筛选(取子集) x <- 8:12 #根据逻辑取子集 x[x == 10] x[x < 12] x[x %in% c(9,13)] #根据位置取子集 x[4] x[2:...将TRUE对应挑选出来,FALSE丢弃 10.修改向量某个/某些元素:取子集+赋值 没有赋值就没有发生过!

69230

R语言-基础+向量

一、r语言基础图片二、数据类型数据类型:数值型(numeric),字符型(character,必须加" "or' '),逻辑型(TRUE FALSE NA存在但未知)null 不存在判断数据类型函数class...,视为一个整体向量里只有一种数据类型,但是可以有重复向量<数据框<矩阵<列表1.向量生成#(1)用 c() 结合到一起c(2,5,6,2,9) c("a","f","md","b")#(2)连续数字用冒号...y中有的结果重点:%in%x %in% y #x每个元素在y存在吗y %in% x #y每个元素在x存在吗图片4.向量筛选(取子集) []: 将TRUE对应挑选出来,FALSE丢弃x <-...,与python区分总结:按照逻辑括号里是与x等长且一一对应逻辑向量按照位置:括号里是由x下标组成向量按条件挑选某个向量两种类型子集x为向量 y为条件x[x%in%y]5.修改向量某个.../某些元素:取子集+赋值#一个元素x[4] <- 40x#多个元素x[c(1,5)] <- c(80,20)x变量修改需要赋值操作6.简单向量作图k1 = rnorm(12);k1k2 = rep

79950

Python基础三

存在返回字典中键对应,不存在报错 其他操作 keys -- 获取字典中所有的键 存放在一个高仿列表 values -- 获取字典中所有的 存放在一个高仿列表...# 浅拷贝在修改第一层元素(不可变数据类型)时候,拷贝出来列表不进行改变 # 浅拷贝在替换第一层元素(可变数据类型)时候,拷贝出来列表不进行改变 # 浅拷贝在修改第一层元素元素(第二层...)时候,拷贝出来列表进行改变 # 深拷贝开辟一个容器空间(列表),不可变数据公用,可变数据数据类型(再次开辟一个新空间) # ,空间里是不可变数据进行共用,可变数据类型再次开辟空间...1.4.2 is 判断两边内存地址是否相等 2.深浅拷贝 2.1 赋值: 多个变量名指向同一个内存地址 一个变量对其进行操作,其他变量查看时都变动 2.2...创建一个新列表,删除旧列表 字典删除 -- 循环时候不能改变源数据大小 (可以改变) 创建一个新字典,删除旧字典 集合删除 -- 循环时候不能改变源数据大小

1.3K30

生信入门马拉松之R语言基础-数据框、函数(Day 3)

Day 2作业详解 R特有的变量保存格式(xxx.Rdata) 用处:存储有用变量,下次使用,用于传递变量。...save(g,s,file = "gands.Rdata")#将变量g和s保存到名为gandsRdata文件。...:包容万物,可将以上数据类型打包到一起 根据生成函数判断对象数据类型;用class()函数判断数据类型 数据框来源:代码建、已有数据转换、读取文件、R语言内置数据 使用内置数据volcano,tab...数据修改 df1[3,3] <- 0#一个格(一个元素) df1$score <- c(1,2,3,4)#一整列 df1$p.value <- c(5,6,7,8)#新建一列 rownames(...- hard k 0#逻辑向量 df1[k,]#取子集-向量k逻辑为TRUE行组成数据框 ## gene chance score p.value ## r1

20510

R语言2

图片不要把变量添上引号(2)简单数学计算x <- c(2,3,4,4)x+1log(x)(3)根据某条件进行判断,生成逻辑向量x==3 等于函数,返回TRUE/ FALSE(4)初级统计max(X)...R语言默认思想英文?...x里,不在y里#差setdiff(y,x)仅在y里,不在x里重点:%in%(没有快捷键)x %in% y #x每个元素在y存在吗x=c(1,3,5,1),y=c(3,2,5,6)F,T,T,Fy...:如何从13个数筛选大于713个数字组成向量,赋值给xx大于7,返回多少个逻辑——13个挑选TRUE 对应————向量筛选(取子集),括号[]:将true 对应挑选处理,false将丢弃图片图片图片下标...sumvector向量——一维表格——二维,矩阵matrix,只允许一种数据类型,data.frames数据框,每列只允许一种数据类型list列表,可装万物根据生存它函数,用class或is族函数判断所有图片引用自小洁忘了怎么分身

1.2K60

Python入门知识点汇总

根据PEP规定,必须使用4个空格来表示每级缩进(不清楚4个空格规定如何,在实际编写可以自定义空格数,但是要满足每级缩进间空格数相等)。...出现在字符串\(反斜杠)被解释为特殊字符,比如\n表示换行符。表达式前加r指示Python不解释字符串中出现\。这种写法通常用于编写正则表达式或者Windows文件路径。...改变新列表不会影响到nums。 nums[1:5:2] == [3, 7] 从下标为1元素切割到下标为5元素但不包含下标为5元素,且步长为2。...与Java、C++相比,这些数据类型有效地减少代码长度。下面这个列表简要地描述了Python内置数据类型(适用于Python 3.x): ?...C++结果与Python不一样,首先它会先计算a < b,根据两者大小获得0或者1两个之一,然后再与c进行比较。

1.1K10

R3数据结构和文件读取

%in%)、%in%,输出是逻辑(x[x%in%y],此时理解函数意义,x有哪些元素在y存在(会每个位置都比较),而x==y对应位置相同,所以会循环补齐)不会去重复、并union、差setdiff...(1)按照逻辑([]里面是逻辑,与x对应,不必由x生成):括号里是与x等长且一一对应逻辑向量(13个彩色球取出蓝色和绿色,x[x%in%y],13个数取>7,x[x>7]);(2)按照位置:括号里是由...,列表(list),用class判断数据结构,因为有的函数只接受特定数据类型,可用as转换(chat查询想要转换东西对应函数),可用view查看数据#重点数据框1.虚拟文件,打开R才可见,不是真实电脑文件...Rdata是R特有的数据储存形式,不是表格文件;保存变量。...,要除非整个矩阵一起## [1] 40.66667#如果要把矩阵字符都转换成数字,需改成数据框class(y) #字符矩阵,最后一列为字符,其余为数字字符## [1] "matrix" "array"z

2.7K00

Python数据类型总结

第1章 数据类型: 1.1可变or不可变类型(变量值): 变量三个特点:id/type/value 可变类型:改变,但id不变,证明就是在改变原值 不可变类型:改变,id也跟着变了,证明申请了新内存空间来存新...: print(name) else: print('no') 将name变量对应“1”替换为“p”,并输出结果 name=' aleX' print(name.replace('l','p...')) 将name变量对应根据“l”分隔,并输出结果 name=' aleX' print(name.split('l')) 将name变量对应变大写,然后输出结果 name=' aleX' print...print(name[1]) 请输出name变量对应“e”所在索引位置 name=' aleX' print(name.index('e')) 获取子序列,去掉最后一个字符 name=' aleX...,type(name)) 按照索引取值: name=['a','b','c'] print(name) name[-1]='A' print(name[-1]) 增加列表元素: name=['a'

45020

数据可视化编程实战_大数据可视化

以此为基础,进阶高段,可以自然过渡到Python,Julia等语言可视化实践活动。 首先引入本次实践使用数据SENIC,该数据描述了在不同美国医院测量结果。...2 读取数据,简单展示 2.1 根据数据描述整理变量标签 variable_labels <- c("ID", "Length of Stay", "Age", "Infection Risk","...= "")) 这里列名时候,用是X1-X12, 因为变量全名过长,仅用作标签。...展示是DT,专门用于显示表格数据,如下图所示: 3 创建离群函数 目的在于返回一些离群,用在后续可视化内容。...进行 数据变量的确认; 第2行,利用stat_density绘制密度曲线, 第3,4行,利用geom_point将离群添加,并设置了点形状; 第5行,为x,y轴添加名称; 第6行,设置极简主题

8.5K20

【生信技能树培训笔记】R语言基础(20230112更新)

不建议用带引号字符。可以用字母和数字组合,但是数字要在字母后面。不能用空格,运算符号在名称。可以使用下划线。不建议用中文作为变量名称。2....将k1作为y轴;k2作为x轴图片图片plot() 默认作散点图,可以指定另外作图形式(折线图,点线图等,详见帮助文档)boxplot() 用~连接指定需要作图数学公式函数和自变量(可以是组合分组变量...重点与Tips:数据框按照逻辑取子集,TRUE对应行/列留下,FALSE对应行/列丢掉。用于取子集逻辑向量,与原对应即可,不必一定由原生成。...默认all=FALSE,表示只取共同列或行相同内容进行合并,当指定all=TRUE时,取两个数据框中指定行列进行合并,任一表缺失,则用NA填充。...如上例,取出子集是矩阵。若用1个括号,取出来子集数据结构仍然是列表,内容虽然一致。

3.9K51
领券