我刚刚得到了刮擦的设置和运行,这是很好的工作,但我有两个(菜鸟)问题。首先,我应该说,我对刮擦和蜘蛛网站完全陌生。
你能限制爬行的链接数量吗?我有一个网站,不使用分页,只是列出了很多链接(我爬行)在他们的主页。当我真的需要爬行前10个左右的时候,我感觉很糟糕爬行所有这些链接。如何同时运行多个蜘蛛?现在,我使用的是命令scrapy crawl ex
我是Scrapy的新手,我正在寻找一种从Python脚本运行它的方法。我找到了两个来源来解释这一点:
# This snippet can be used to run scrapy spiders independent of scrapyd or the scrapy command/usr/bin/pythonos.environ.setdefault('<