我使用以下代码从python脚本运行我的爬虫程序:
import scrapy
from scrapy.crawler import CrawlerProcess
process = CrawlerProcess()
process.crawl(MySpider)
process.start() # the script will block here until the crawling is finished
我的MySpider返回一个对象。
如何从中获取返回值?请记住这是Scrapy 1.0。我找到的所有示例都是针对旧版本的Scrapy。
上面的代码来自:
TL;DR版本:,我只在我没有参与的智力对话中听说过网络爬虫。我只想知道他们能走一条特定的道路,比如:
first page (has lot of links) -->go to links specified-->go to
links(specified, yes again)-->go to certain link-->reach final page
and download source.
我在谷歌上搜索了一下,发现了。但我不确定我是否完全理解网络爬虫的开始,是否好斗可以帮助我遵循我想要的具体路径。
长版本
我想提取一组静态网页的文本。这些网页非常简单
我正在学习爬虫,在一些基本的爬虫之后,我尝试从github下载谷歌学者爬虫大师,看看它是如何运行的,在几个我可以修复的错误之后,我遇到了一个ModuleNotFoundError: No module named 'proxy'错误(middleware.py文件,from proxy import PROXIES行是问题)。
这段代码有一些问题,其中包含python 3.x版本中不再支持/建议的解决方案,包括后来被重命名/移动的模块,但我无法确定这是否也是这种情况,希望能得到帮助。