文章/答案/技术大牛

发布

社区首页 >问答首页 >在列表中搜索字符串中的字符子字符串

问在列表中搜索字符串中的字符子字符串
EN

Stack Overflow用户

提问于 2015-07-08 15:26:17

回答 1查看 65关注 0票数 0

sp|P46531|NOTC1_HUMAN神经基因位点缺口同源蛋白1 OS=Homo sapiens GN=NOTCH1 PE=1 SV=4 MPPLLAPLLCLALLP

我有一个fasta文件，我想在文件中搜索氨基酸序列的开头。就像

aminoacids = ['A','C','D','E','F','G','H','I','K','L','M','N','P','Q','R','S','T','V','W','Y']
for filename in file_list:
    with open(filename,'r') as fh:
        while True:
        char = fh.read(1)
        if char.upper() in aminoacids:
            #look for the 4 characters directly after it

但是，如果发现一个字符在氨基酸列表中，而它旁边的四个字符也在列表中，那么就会产生一个字符串，从这个字符开始，直到没有更多的字符。例如，我想迭代文件寻找字符。如果M被找到，那么我想寻找接下来的四个字符(PPLL)。如果接下来的四个字符是氨基酸，那么我想创建一个以M开头的字符串，并继续到文件的末尾。

file

python

list

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-07-08 15:49:24

您可以将文件读取为单个字符串，然后搜索正则表达式：

regex = re.compile("[%s]{5}.*" % "".join(aminoacids))

with open(filename, 'r') as fh:
    s = fh.read()
    aa_sequence = regex.findall(s)
    if len(aa_sequence) > 0:
        # an amino acid sequence was found
        print aa_sequence[0]

这是因为构造的正则表达式是：

[ACDEFGHIKLMNPQRSTVWY]{5}.*

意思是“这些字符中的5个，后面跟着任何东西。”

请注意，如果您的氨基酸字符串可能跨越多个行，则需要首先删除换行符，如下所示：

s = fh.read().replace('\n', '')
# or
s = "".join(s.readLines())

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/31297101

复制

相似问题

问在列表中搜索字符串中的字符子字符串
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在列表中搜索字符串中的字符子字符串EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在列表中搜索字符串中的字符子字符串
EN