Python进阶系列:Python遍历的秘密

前言

可迭代对象,迭代器,生成器,相信许多学习Python的小伙伴或多或少都听说过,但你真的知道他们的区别吗?真的知道为什么需要这些概念吗?

本文带你深入了解一系列相关机制,不仅告诉你概念,还告诉你为什么需要这些概念,让你可以举一反三。

本文重点

- Python在for遍历时做了什么?

- 为什么需要迭代器?

- 生成器为什么不能重复使用?

- Python的动态协议,不一样的迭代实现。

本文字数2000+,不适合初学者,阅读本文需要你有以下Python基础知识:

- 认识列表(list)

- for循环等基本语法。

- 自定义类型,方法。

for循环没有你想象中的那么简单

能够看到这里的小伙伴必定已经很熟悉for循环,但你可能不知道Python在背后为你做了许多事情。

用一个简单例子来说明一下,当前有一个列表,里面装着4个数字,我们需要把数字逐一打印出来。

如下图,分别用两种方式实现:

- 行5-行7,第一种方式,通过索引访问列表

- 行10-行11,直接通过for遍历。

- 大家有想过吗?

为什么第二种方法,不需要一个变量 i 来记录当前读取位置呢。

答案是,不管什么方式,其实都需要在遍历过程保持一个状态值,以表示现在遍历到哪个元素。

但是为什么我们平时使用的for循环却不需要呢?

因为Python在for循环之前静悄悄地做了以下事情:

- 行10,这里是遍历的开始。

但别以为 Python 是直接向 nums 拿数值。

- 在遍历开始之前,Python 会先问 nums 拿一个叫迭代器的东西。

- 然后每次都问这个迭代器拿数值,然后把数值赋给变量 n 。

我们来看看示意图:

- Python 通过 iter(nums) 拿到一个迭代器,然后才开始遍历。

- 第一次遍历时,会问迭代器拿一个元素,然后把元素赋值给变量 n 。

- 整个过程,iter 执行了一次,next 执行了4次。

- 之前说的状态值 i ,其实就保存在迭代器中。

- 以上的步骤从代码上是看不到的。

可以看到,迭代器就是为了保存遍历状态而设定的。

迭代器的由来

你可能会疑惑,为什么多此一举,非要弄一个所谓的迭代器出来?

可以把状态值 i ,保存在列表对象中啊。

答案是,因为在嵌套for遍历的时候,需要两个for的状态值 i 是独立分开的。

看下图:

- 如果状态值 i 直接保存在列表对象中,那么这里的嵌套遍历就乱套了。

- 可见,这里 Python 会为我们创建了2个独立的迭代器,独立维护了2个状态值 i 。

上面例子中,列表 nums 称为"可迭代对象"

说白了,迭代器就是用于维护一个遍历过程中的状态数据。

不是任何对象都有迭代器的

以上就是迭代器的由来,但似乎目前为止我们都没看到迭代器是个啥样。

通过下图的代码,来看看迭代器吧:

- 行22,通过 iter 方法从列表 nums 中获取一个迭代器。

- 行26,通过 next 方法从迭代器 tor 中获取一个值。

- 行24-行29,就是整个遍历的过程。

- 行28,当列表中的值都被取出来后,在行26 中再次问 tor 获取值的时候,就会出现 StopIteration 的错误。

重点归纳一下:

- 如果一个类正确实现了 `__iter__` 方法,那么这个对象叫"可迭代对象"

- 可以通过 iter 方法从可迭代对象身上获取一个迭代器。

- 迭代器是一个正确实现 `__next__` 方法的对象。

- 迭代器的状态是无法重置,只能向前。

一旦遍历完毕,则无法再次使用。

- 例子中, nums 列表是一个可迭代对象。

> 题外话:实际上迭代器还正确实现了 `__iter__` 方法,不过这个方法只是简单地返回迭代器自身。

生成器其实就是一种迭代器

所谓的生成器,指定的是一种不断生成输出东西的事物,同样地可以通过 next 方法从生成器上获取输出。

是不是与迭代器的概念不谋而合?那又是为什么弄这样的一个概念出来?

生成器的特点

- 生成器的数据来源与迭代器不一样。

- 行48-行51,生成器的来源不一定是可迭代对象,他可以是一个不断输出值的函数。

- 行45,因此,生成器有着迭代器一样的性质。

不能重复使用。

真的需要 `__iter__` 才是可迭代对象吗?

Python中的协议不像Java或C#这么严格,当一个对象实现了 `__getitem__` 方法,并且可以从0索引开始访问元素时,同样也可以迭代他。

如下:

- 行62,实现了 `__getitem__` 方法,就是让这个对象可以通过诸如 mn[0] 这样的方式去获取元素。

- Python 在 for 循环时,发现 MyNums 虽然没实现 `__iter__` 方法,但有 `__getitem__` 方法,那么自然可以通过维护一个状态索引值 i ,不断调用 `__getitem__` 方法实现遍历的效果。

小结

- 我们平时经常使用的列表,元组,字典等集合,他们都是可迭代对象。

- 遍历可迭代对象时,实际是从可迭代对象获取一个迭代器进行的。

- 迭代器在 Python 中被定义为"只读向前",一旦使用完毕,则不能再次使用。

- 生成器就是一种迭代器,因此拥有迭代器同样的性质与限制。

- 当自定义类型需要可迭代时,实现 `__iter__` 方法。

- 如果没有实现 `__iter__` 方法,那么实现 `__getitem__` 方法也是可以支持迭代。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191017A04F5W00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券