首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >按较长的字符序列对字符进行排序(按蛋白质序列对肽进行排序)

按较长的字符序列对字符进行排序(按蛋白质序列对肽进行排序)
EN

Stack Overflow用户
提问于 2019-09-21 20:09:52
回答 1查看 28关注 0票数 1

我正在处理蛋白质组数据,并希望根据实际的蛋白质序列显示肽的表达。目前,它们是根据它们在量化(=随机)中的使用情况进行排序的。我想你可以使用正则表达式/ stringr&rebus (最好是)来做这件事,但是我不知道该怎么做。

这里有一个数据示例,非常感谢您的帮助!

代码语言:javascript
运行
复制
peptides <- data.frame(peptide = c(1,2,3,4),
                   sequence = c("PRDPDPASRTH", "MTLGRRLACLF", "RRARPHAWP", "APNFVMSAAH"),
                   log2quant = c(21, 12, 17, 18))

protein_sequence <- c("MTLGRRLACLFLACVLPALLLGGTALASEIVGGRRARPHAWPFMVSLQLRGGHFCGATLIAPNFVMSAAHCVANVNVRAVRVVLGAHNLSRREPTRQVFAVQRIFENGYDPVNLLNDIVILQLNGSATINANVQVAQLPAQGRRLGNGVQCLAMGWGLLGRNRGIASVLQELNVTVVTSLCRRSNVCTLVRGRQAGVCFGDSGSPLVCNGLIHGIASFVRGGCASGLYPDAFAPVAQFVNWIDSIIQRSEDNPCPHPRDPDPASRTH")


expected_result <- data.frame(peptide = c(1,2,3,4),
                   sequence = c("PRDPDPASRTH", "MTLGRRLACLF", "RRARPHAWP", "APNFVMSAAH"),
                   log2quant = c(21, 12, 17, 18),
                   order = c(4, 1, 2, 3))

我从Uniprot复制/粘贴的序列(它是ELANE蛋白)。其余数据来自MassSpec结果。很高兴能找到解决这个问题的方法,非常感谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-09-21 20:23:01

我们可以使用stringr中的str_locate来获取字符串protein_sequence中模式的开始(或结束)位置,并使用rank来获取它的顺序。

代码语言:javascript
运行
复制
peptides$order <- rank(stringr::str_locate(protein_sequence,peptides$sequence)[, 1])

peptides
#  peptide    sequence log2quant order
#1       1 PRDPDPASRTH        21     4
#2       2 MTLGRRLACLF        12     1
#3       3   RRARPHAWP        17     2
#4       4  APNFVMSAAH        18     3

str_locate中使用peptides$sequence之前,请确保它是字符,而不是factor

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58040130

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档