文章/答案/技术大牛

发布

社区首页 >问答首页 >从定义的起始点和结束点的字符串中提取子字符串

问从定义的起始点和结束点的字符串中提取子字符串
EN

Stack Overflow用户

提问于 2021-05-09 16:49:37

回答 1查看 539关注 0票数 2

我有一个三个序列的列表，看起来或多或少都是这样的(res)：

res = [
     'NVAKMFPQRKFT<STOP>TVQTLMRNGTLLERG<STOP>CCEVSP',

     'QKRMDCNASV<STOP>TVTVQTLMQTL<STOP>TNTPKGG<STOP>',

     'MEKGYADAE<STOP>RKTF<STOP>MTVRAGCCGI<STOP>MK'
]

我希望将这些序列中的每一个拆分为以'M‘开头、以(但不包括)< STOP >结尾的子字符串。这些子子在这里被定义为外显子。我不希望我的外显子重叠(真正的序列比这里的样本长得多)。我希望在M和< STOP >之间至少有两个字符。

   exon = list()
   for seq in res:
        string = str(res)
        result = re.search("M(.*?)<STOP>", string)
        if result:
            found = list()
            found = result.group()
            exon.append(found)
   print exon

我想得到这样的嵌套列表：

exon = [

     "['MFPQRKFT', 'MRNGTLLERG']",
     "['MDCNASV', 'MQTL']",
     "['MEKGYADAE', 'MTVRAGCCGI']"
]

但是现在我只得到了一个有几个外显子的列表，在每一个外显子的末尾都有< STOP >。

python

regex

string

split

bioinformatics

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-05-09 17:40:56

您可以使用捕获组和re.findall的模式来返回捕获组的值。

(M.{2,}?)<STOP>

(捕获组1 (这将由re.findall返回)
- M.{2,}?匹配M和2次或更多次任何字符非贪婪
)闭组1
<STOP>匹配

见regex演示和Python演示

如果只想匹配大写字符( .匹配除换行符以外的任何字符)，则可以使用

(M[A-Z]{2,})<STOP>

Regex演示

例如

import re

exon = list()
res = [
     'NVAKMFPQRKFT<STOP>TVQTLMRNGTLLERG<STOP>CCEVSP',
     'QKRMDCNASV<STOP>TVTVQTLMQTL<STOP>TNTPKGG<STOP>',
     'MEKGYADAE<STOP>RKTF<STOP>MTVRAGCCGI<STOP>MK'
]

for seq in res:
    exon.append(re.findall(r"(M.{2,}?)<STOP>", seq))
    
print(exon)

输出

[
  ['MFPQRKFT', 'MRNGTLLERG'],
  ['MDCNASV', 'MQTL'],
  ['MEKGYADAE', 'MTVRAGCCGI']
]

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/67460222

复制

相似问题

问从定义的起始点和结束点的字符串中提取子字符串
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从定义的起始点和结束点的字符串中提取子字符串EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从定义的起始点和结束点的字符串中提取子字符串
EN