欢迎关注”生信修炼手册”!
迭代是python中最常见的操作,比如遍历一个列表
>>> a = [1, 2, 3]
>>> for i in a:
... print(i)
...
1
2
3
然而迭代却不仅仅是for循环那么简单,在python中,迭代可以称得上最强大的功能之一。首先来看下迭代器的概念, 迭代器本质是一个对象,用于遍历元素,从元素的第一个位置开始,遍历到最后一个位置,通过iter方法可以将普通的sequence对象转换为迭代器,用法如下
>>> b = iter(a)
>>> b
<list_iterator object at 0x7f1032d02da0>
>>> type(b)
<class 'list_iterator'>
迭代器用于遍历元素,当然支持for循环,但是其更灵活的地方,在于使用next方法来手动遍历,用法如下
>>> next(b)
1
>>> next(b)
2
>>> next(b)
3
>>> next(b)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
StopIteration
迭代器只会向前遍历,而且记住已经访问过的元素,所以next方法从第一个元素开始,一直访问到最后一个元素,如果元素全部访问完毕,再次调用会输出StopIteration错误。
next实现了元素的手动遍历,允许我们更加灵活的遍历元素,生物信息中典型的应用就是读取fastq文件,fastq文件每4行一个单位,通过next手动遍历,可以一次访问其中的4行,代码如下
def parse_fastq(fastq):
with open(fastq) as f:
try:
while 1:
symbol = next(f)
sequence = next(f)
comment = next(f)
quality = next(f)
print(symbol + sequence + comment + quality)
except StopIteration:
pass
if __name__ == '__main__':
parse_fastq('test.fq')
除了iter方法外,通过生成器也可以产生一个迭代器。生成器的形式是一个函数,通过yield关键字返回迭代的元素,用法如下
def parse_fastq(f):
try:
while 1:
symbol = next(f)
sequence = next(f)
comment = next(f)
quality = next(f)
yield symbol, sequence, comment, quality
except StopIteration:
pass
if __name__ == '__main__':
with open('test.fq') as f:
for seq in parse_fastq(f):
symbol, sequence, comment, quality = seq
print(sequence)
在生成器中,根据自己的目的将需要的元素通过yield关键字进行返回,将复杂的逻辑封装在生成器中,调用的代码将大大地简化。在实际开发中,针对不规则的文本,通过生成器提取自己需要的关键元素,是最常见的用法。
·end·