我做了一个网络蜘蛛,用Scrapy抓取网站中的所有链接。我希望能够添加所有的链接抓取到一个列表。但是,对于每个抓取的链接,它都会创建自己的列表。这是我的代码: from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors impo
我对Scrapy和Python很陌生,因此我是个初学者。我希望能够让Scrapy读取一个包含大约100 k URL的种子列表的文本文件,让Scrapy访问每个URL,并提取每个种子URL上的所有外部URL(其他站点的URL),并将结果导出到一个单独的文本文件中Scrapy只应该访问文本文件中的URL,而不是爬行并跟踪任何其他URL。
我希望能够让
我一直在研究一个刮伤的网页刮刀,它从一个启动网址上爬过所有的内部链接,并且只收集与scrapy的外部链接。然而,我的主要问题是对外部链接和内部链接进行分类。例如,当我尝试用link.startswith("http") or link.startswith("ftp") or link.startswith("www")过滤掉外部链接时,如果网站用绝对路径(