我想确定multifasta文件中单个序列的长度。我从传记手册中得到了这段生物爬虫代码:
from Bio import SeqIO
import sys
cmdargs = str(sys.argv)
for seq_record in SeqIO.parse(str(sys.argv[1]), "fasta"):
output_line = '%s\t%i' % \
(seq_record.id, len(seq_record))
print(output_line)我的输入文件如下:
>Protein1
MNT
>Protein2
TSMN
>Protein3
TTQRT然后代码会产生:
Protein1 3
Protein2 4
Protein3 5但是我想计算一个序列的长度,然后再加上之前序列的长度。它将如下所示:
Protein1 1-3
Protein2 4-7
Protein3 8-12我不知道我需要修改上面代码中的哪一行才能得到输出。感谢在这个问题上的任何帮助,谢谢!
发布于 2016-07-27 15:52:10
只需简单地获得总长度:
from Bio import SeqIO
import sys
cmdargs = str(sys.argv)
total_len = 0
for seq_record in SeqIO.parse(str(sys.argv[1]), "fasta"):
total_len += len(seq_record)
output_line = '%s\t%i' % (seq_record.id, total_len))
print(output_line)要获取范围,请执行以下操作:
from Bio import SeqIO
import sys
cmdargs = str(sys.argv)
total_len = 0
for seq_record in SeqIO.parse(str(sys.argv[1]), "fasta"):
previous_total_len = total_len
total_len += len(seq_record)
output_line = '%s\t%i - %i' % (seq_record.id, previous_total_len + 1, total_len)
print(output_line)https://stackoverflow.com/questions/38605751
复制相似问题