开始urls和域的Scrapy迭代

、、、

我正在尝试从csv读取urls和域的列表，并让Scrapy爬行器遍历域的列表并启动urls，目标是通过我的管道将该域中的所有urls导出到csv文件中。import scrapyfrom scrapy.linkextractors import LinkE

浏览 2提问于2018-02-23得票数 0

回答已采纳

2回答

抓取Python循环到下一个未擦伤的链接

、、

我试图让我的蜘蛛浏览一个列表，刮掉所有的url--它可以在它们后面找到，抓取一些数据，然后返回到下一个未刮掉的链接上--如果我运行这个蜘蛛--我可以看到它返回到起始页面，但是尝试再次抓取相同的页面，然后退出对python来说非常新的任何代码建议。(scrapy.Spider): allowed_domains = ["domain.com"] start_urls = [] = res

浏览 3提问于2016-07-18得票数 0

回答已采纳

2回答

多次解析

、、、

我正在尝试一个解析域，其内容如下所示第2页-包含10篇文章的链接等等..。到目前为止，我已经能够遍历页面，解析和收集到文章的链接。我被困在如何开始解析这个列表上了。import scrapy</

浏览 0提问于2020-02-02得票数 2

回答已采纳

2回答

如何从XML页面中提取urls，加载它们并使用提取其中的信息？

、、

我使用Scrapy的XMLfeedspider从页面xml中提取信息。我试图只提取标签"loc“中该页上的链接，并加载它们，但阻止页面重定向，然后将其发送到将从该页收集信息的最后一个解析节点。问题是，我不确定是否可以在"def star_urls“上加载这些页面，或者是否需要使用parse_node并将其重定向到另一个解析以提取我需要的信息，但是即使我尝试了，也不知道如何从xml页面中提取链接继续我的想法：方法应该是加载并从其中提取<loc&

浏览 2提问于2017-07-20得票数 1

回答已采纳

1回答

Scrapy Crawler多个域在检索源页面后没有错误地完成

、

尝试让Scrapy抓取多个域。我让它工作了很短时间，但有些东西改变了，我不知道是什么。我的理解是，带有规则的"CrawlSpider“应该遵循任何允许的链接，直到深度设置或域名耗尽。import scrapyfrom scrapy.linkextractors import LinkExtractor我会修改"allowed_domains“

浏览 29提问于2018-06-03得票数 1

回答已采纳

1回答

如何从不同的start_requests方法返回的urls中获取xpath

、、、

这是我的代码：from scrapy.spider import BaseSpiderimportclass AmazonSpider(BaseSpider): allowed_domains = ["amazon.com"] yield self.m

浏览 1提问于2015-01-06得票数 1

回答已采纳

2回答

Python:列出没有索引的网站的所有URL

、、

.*}.html 但是，对主页面http://www.example.com的访问受到某种限制，我被重定向到一个错误页面显示：Erreur 403 - Refus de traitement de la有没有一种方法可以列出托管在该域下的HTML页面的所有URL？

浏览 4提问于2016-06-15得票数 2

回答已采纳

1回答

Scrapy如何保存爬网状态？

、

我能够保存我的抓取状态，并且Scrapy成功地从我切断的地方继续。每次重新启动爬行器时，我都保持start_urls不变，即每次重新启动爬行器时，提供的start_urls的顺序和列表都是恒定的。但我需要对我的start_urls做一个随机的洗牌，因为我有来自不同域的URL，以及来自相同域的URL，但由于它们是

浏览 0提问于2019-07-04得票数 0

1回答

Python Scrapy:返回抓取的URL列表

、、、

我使用scrapy来刮掉单个域的所有链接。我正在追随域上的所有链接，但保存了域中的所有链接。下面的刮板可以正常工作，但是我不能从刮板内部访问成员变量，因为我是用CrawlerProcess运行它的。import scrapy name = 'myspid

浏览 14提问于2020-04-30得票数 0

1回答

抓取完整的域名并将所有h1加载到一个项目中

、

我对python和scrapy比较陌生。我想要实现的是抓取一些网站，主要是公司网站。抓取整个域并提取所有h1 h2 h3。创建一个包含域名和一个字符串的记录，其中包含该域中的所有h1 h2 h3。基本上有一个Domain item和一个包含所有头的大字符串。我遇到的问题是，

浏览 1提问于2014-01-25得票数 0

1回答

如何在完成第一页后强制scrapy解析第二页

、、、

我使用的是Scrapy 1.5.1版。我创建了解析器，它从主页解析urls，然后从已经解析的urls中解析urls，等等。Scrapy异步工作，并进行并行连接。问题是，我有一些逻辑，urls应该首先解析，创建我已经访问过的urls集，要访问的最大urls数等。一开始，我配置了CONCURRENT_REQUESTS_PER_DOMAIN=1和CON

浏览 4提问于2018-10-28得票数 0

3回答

宽泛的抓取-不同的xpaths Scrapy

、、、

我是新来Scrapy的。我在一个数据库中有成千上万的url，xpath元组和值。这些urls来自不同的域(并非总是如此，同一个域可以有100个urls )。我的想法是：这是一个很好的实践吗？我可以这样

浏览 0提问于2017-03-29得票数 1

1回答

使用Scrapy递归地抓取链接的域

、、

下面是我用来抓取一个域的所有urls的代码：from scrapy.spiders import CrawlSpider, Rule name = 'urlsspider' allowed_domain

浏览 0提问于2017-10-14得票数 0

3回答

如何在scrapy中覆盖/使用cookie

、

我想废弃，这个网站首先以阿拉伯语开始，它将语言设置存储在cookies中。如果您尝试通过URL ()直接访问语言版本，则会出现问题并返回服务器错误。因此，我想将Cookie值"store_language“设置为"en"，然后使用此Cookie值开始销毁网站。from scrapy.spider import BaseSpiderfrom <e

浏览 2提问于2012-05-20得票数 21

1回答

循环多个URL，以便在Scrapy中从CSV文件中刮擦不起作用

、、

当我尝试执行这个循环时，我得到了错误，请帮助我想要使用csv文件刮取多个链接，但是在start_urls中是stucks，我使用scrapy2.5和python3.9.7from scrapy.http import request #

浏览 5提问于2021-11-09得票数 2

回答已采纳

2回答

如何改变抓取蜘蛛的网址顺序？

、、、

我正在从成千上万的网页上得到更新。可以有多个具有相同域的页面。我已经将DOWNLOAD_DELAY设置为1秒，这样就不会使服务器超载。Spider运行良好，但是如果有相同域的100个urls在一起，它会减慢爬行速度，因为Spider必须在每个请求之后等待1秒。DOWNLOAD_DELAY = 1 网址: A.com&#x

浏览 3提问于2017-04-22得票数 0

回答已采纳

3回答

(Python，Scrapy)将txt文件中的数据放入Scrapy爬行器

、、、

我是Python和Scrapy的新手。我有一个项目。在爬行器中有这样一段代码： name = "project" start_urls= ["https://domain.com/%d" % i for i in range(12308128,12308148)] 我想从txt文件(或csv

浏览 28提问于2017-01-24得票数 1

回答已采纳

3回答

使用Scrapy抓取多个URL

、

如何使用Scrapy抓取多个URL？ name = "speedy" start_urlsstart_urls = ["http://example.com/category/top/page-%d/" % i for i in xrange(

浏览 0提问于2013-04-19得票数 2

回答已采纳

2回答

抓取抓取中的链接

、

我试图建立一个广泛的连续爬虫，我能够提取链接，但我无法抓取他们和提取这些链接。该项目的最终目标是抓取.au域并将其根URL添加到数据库中。class Crawler (scrapy.Spider): rules = (Rule(LinkExtractor(allow='.com'), callbackstart_urls = [ "http://quotes.toscra

浏览 0提问于2020-06-10得票数 0

回答已采纳

2回答

性能改善和内存消耗

、、

服务器 import scrapy def get_<em

浏览 4提问于2016-08-26得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

抓取Python循环到下一个未擦伤的链接

多次解析

如何从XML页面中提取urls，加载它们并使用提取其中的信息？

Scrapy Crawler多个域在检索源页面后没有错误地完成

如何从不同的start_requests方法返回的urls中获取xpath

Python:列出没有索引的网站的所有URL

Scrapy如何保存爬网状态？

Python Scrapy:返回抓取的URL列表

抓取完整的域名并将所有h1加载到一个项目中

如何在完成第一页后强制scrapy解析第二页

宽泛的抓取-不同的xpaths Scrapy

使用Scrapy递归地抓取链接的域

如何在scrapy中覆盖/使用cookie

循环多个URL，以便在Scrapy中从CSV文件中刮擦不起作用

如何改变抓取蜘蛛的网址顺序？

(Python，Scrapy)将txt文件中的数据放入Scrapy爬行器

使用Scrapy抓取多个URL

抓取抓取中的链接

性能改善和内存消耗

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐