sp|P46531|NOTC1_HUMAN神经基因位点缺口同源蛋白1 OS=Homo sapiens GN=NOTCH1 PE=1 SV=4 MPPLLAPLLCLALLP
我有一个fasta文件,我想在文件中搜索氨基酸序列的开头。就像
aminoacids = ['A','C','D','E','F','G','H','I','K','L','M','N','P','Q','R','S','T','V','W','Y']
for filename in file_list:
with open(filename,'r') as fh:
while True:
char = fh.read(1)
if char.upper() in aminoacids:
#look for the 4 characters directly after it但是,如果发现一个字符在氨基酸列表中,而它旁边的四个字符也在列表中,那么就会产生一个字符串,从这个字符开始,直到没有更多的字符。例如,我想迭代文件寻找字符。如果M被找到,那么我想寻找接下来的四个字符(PPLL)。如果接下来的四个字符是氨基酸,那么我想创建一个以M开头的字符串,并继续到文件的末尾。
发布于 2015-07-08 15:49:24
您可以将文件读取为单个字符串,然后搜索正则表达式:
regex = re.compile("[%s]{5}.*" % "".join(aminoacids))
with open(filename, 'r') as fh:
s = fh.read()
aa_sequence = regex.findall(s)
if len(aa_sequence) > 0:
# an amino acid sequence was found
print aa_sequence[0]这是因为构造的正则表达式是:
[ACDEFGHIKLMNPQRSTVWY]{5}.*意思是“这些字符中的5个,后面跟着任何东西。”
请注意,如果您的氨基酸字符串可能跨越多个行,则需要首先删除换行符,如下所示:
s = fh.read().replace('\n', '')
# or
s = "".join(s.readLines())https://stackoverflow.com/questions/31297101
复制相似问题