1. 背景
周末在写一个爬虫时,遇到这样一种场景:从搜索结果中下载指定数量的文件
例如:搜索结果中共分为10页展示,加起来一共50条数据,现在要做的是从50条数据中下载指定数量的数据
为了实现这个功能,开始是这样想的:
1、依次遍历10页数据,并且把每页的数据都追加到同一个列表中,这样的话,请求完10页数据后,这个列表中就包含了所有结果;
2、然后再从这个大列表中提取指定数量的数据进行下载即可
这种方法确实可行,但是在运行过程中发现一个问题:程序运行速度太慢了,原因是无论你想下载多少条数据,都会先把所有数据请求下来并追加到列表中,这个过程实在是太耗时了,而且也不合理
所以换一种思路:要下载n条数据,就只提取n条,不提前把所有数据请求下来
2. 具体实现方法
上面举的例子,可以抽象为如下功能
首先有一个嵌套的列表
[[1,2,3,4,5],[6,7,8,9,10],[11,12,13,14,15],[16,17,18,19,20]]
然后提取这个列表中的数据到一个新的列表中,例如取前3个数字、前5个数字或者前8个数字
可以通过双层for循环来达到这个目的,另外要注意设置条件来跳出循环
测试代码如下
source = [[1,2,3,4,5],[6,7,8,9,10],[11,12,13,14,15],[16,17,18,19,20]]
target = []
def get_data(source, count):
for i in range(0, len(source)+1):
temp = source[i]
for j in temp:
target.append(j)
if len(target) >= count:
break
else:
continue
break
t = get_data(source, 6)
print(target)
source代表原列表;count代表提取数字的个数
根据菜鸟教程的提示, for ... else 的意思如下:
1、for 中的语句和普通的没有区别,else 中的语句会在循环正常执行完的情况下执行(即 for 不是通过 break 跳出而中断的);
2、如果for是由于break中断的,则不会执行else语句
接着来分析下count为不同值时的运行过程及结果
1、count=3
当count=3时,得到如下结果
target = [1, 2, 3]
综上,得到 target = [1, 2, 3] 的结果
2、count=8
当count=8时,得到如下结果
target = [1, 2, 3, 4, 5, 6, 7, 8]
综上,得到 target =[1, 2, 3, 4, 5, 6, 7, 8] 的结果
完结撒花~