因此,我的问题是:当我重新启动程序时,如何才能记住哪个URL是要爬行的最后一个URL,并让爬虫从文本文件中的下一个URL开始。# file containing urls to crawl is passed in from command line
# > scrapy crawl fbo-crawler -a filename
我已经用python编写了一个web爬虫,使用了Beautiful,并请求为一个项目抓取图像,但是速度很慢。我听说Scrapy要快得多,所以我安装了它并阅读了大量教程,但是我不知道如何在爬行器脚本的parse函数中实现爬虫。items.py # define the fields for your item here like:
images = scra