我有一个url列表,它被重定向到文本文件中的另一个url。我想得到所有重定向的urls.So我做了一个蜘蛛,打开一个文本文件的网址。现在我收到一些错误,如"DNS查找失败“或”没有路由“。然而,我希望抓取每个重定向的网址,而不管错误。有什么解决方案可以实现这一点吗?这是我跑过的蜘蛛 import scrapy
class AwesomeSpiderSpider(scrapy.Spider
我想知道是否有可能列出一个网站的网址。这些URL是托管zip文件的URL,如果您提供了正确的URL,则会下载这些文件。如果没有,您将被定向到404页面。https://myexample.net/,我对https://myexample.net/wp-content/uploads/2018/04/[do not have a pattern].zip下的文件感兴趣此外,我检查了https:/
你好,我是一个相对的初学者,我正在抓取一个网站。我想使用csv文件中的urls来抓取一个网站,但我在这方面做得很失败。每次我执行爬行器时都会出现这个错误:'_csv.reader‘TypeError is not callable l = open('/home/ubuntu/Desktop/rando
我使用一个蜘蛛从一个列表中抓取许多网站。我按需要工作,但现在我还想获得连接状态。当运行爬虫时,我看到一些404,一些301或一些DNS错误。 如何获取我的csv的连接状态?import scrapy
name = 'myspider'
f = open("random.csv")start_urls = [url.strip() for url i
我正在尝试使用Scrapy来记录网站内发生的每个链接。我使用的是SitemapSpider,但查看生成的CSV显示,爬行器从未获得超过1的深度-我希望它跟踪它遇到的每个链接,并从这些链接中抓取链接。(此外,"other_urls“的规定似乎没有效果--该URL的结果不会显示在CSV中。)import scrapy
from tutorial.items