我正在抓取一个新闻网站,该网站提取新闻数据并将其转储到MongoDB。我想尝试通过不查看那些已经处理过的urls来减少爬行时间。我知道规则中有一个拒绝功能,但不确定在这种情况下如何使用它。我已经包含了Downloader Middleware自定义类来过滤掉已经被抓取的请求: # Not all methods',
'scrapy.downloadermiddle
我也是Python和Scrapy的新手,这是我的第一个项目。这个网站没有一种简单的方法来跟踪链接,所以我不得不想出一些东西。import scrapy
from selenium最后一个项目页面将有一个非活动的“下一页”按钮,所以在爬虫被卡住的时刻,我手动关闭浏览器,用notepad++编辑"start_url
我是python编程的新手,我很难得到python爬行脚本的工作。我需要你的提示来修复它。
实际上,我有一个工作的抓取脚本,通过一个给定的网址爬行,并提取链接。因此,我开始通过命令行传递起始urls和域,如下所示。scrapy crawl myCrawler -o test.json -t json -a allowedDomains="xxx" -a startUrls="xxx" -a allowedPath