首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在列表中搜索字符串中的字符子字符串

在列表中搜索字符串中的字符子字符串
EN

Stack Overflow用户
提问于 2015-07-08 15:26:17
回答 1查看 65关注 0票数 0

sp|P46531|NOTC1_HUMAN神经基因位点缺口同源蛋白1 OS=Homo sapiens GN=NOTCH1 PE=1 SV=4 MPPLLAPLLCLALLP

我有一个fasta文件,我想在文件中搜索氨基酸序列的开头。就像

代码语言:javascript
复制
aminoacids = ['A','C','D','E','F','G','H','I','K','L','M','N','P','Q','R','S','T','V','W','Y']
for filename in file_list:
    with open(filename,'r') as fh:
        while True:
        char = fh.read(1)
        if char.upper() in aminoacids:
            #look for the 4 characters directly after it

但是,如果发现一个字符在氨基酸列表中,而它旁边的四个字符也在列表中,那么就会产生一个字符串,从这个字符开始,直到没有更多的字符。例如,我想迭代文件寻找字符。如果M被找到,那么我想寻找接下来的四个字符(PPLL)。如果接下来的四个字符是氨基酸,那么我想创建一个以M开头的字符串,并继续到文件的末尾。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-07-08 15:49:24

您可以将文件读取为单个字符串,然后搜索正则表达式:

代码语言:javascript
复制
regex = re.compile("[%s]{5}.*" % "".join(aminoacids))

with open(filename, 'r') as fh:
    s = fh.read()
    aa_sequence = regex.findall(s)
    if len(aa_sequence) > 0:
        # an amino acid sequence was found
        print aa_sequence[0]

这是因为构造的正则表达式是:

代码语言:javascript
复制
[ACDEFGHIKLMNPQRSTVWY]{5}.*

意思是“这些字符中的5个,后面跟着任何东西。”

请注意,如果您的氨基酸字符串可能跨越多个行,则需要首先删除换行符,如下所示:

代码语言:javascript
复制
s = fh.read().replace('\n', '')
# or
s = "".join(s.readLines())
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/31297101

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档