我应该如何让Scrapy循环遍历页面？

文章/答案/技术大牛

发布

1回答

、

我正在试着从亚马逊那里得到一些关于产品的评论。下面的代码抓取第一页，然后继续循环它，不会移动到下一页。我翻了20多页，但从第一页开始的评论重复了20次。我该如何解决这个问题呢？import scrapy name = 'amazon_reviews' for i in range(1,20

浏览 52提问于2020-08-15得票数 0

回答已采纳

1回答

如何使用scrapy抓取网站？

、、

我要写一个基于scrapy的Gui应用程序，用户输入一个网站的URL，然后点击“爬网”按钮，整个网站就会被抓取并存储在内置的scrapy-db (sqlite)中。如何使用scrapy帮助我抓取网站？

浏览 4提问于2012-03-09得票数 0

1回答

我希望将本教程(https://medium.com/better-programming/a-gentle-introduction-to-using-scrapy-to-crawl-airbnb-listings本教程使用请求URL来获取一个非常完整和干净的JSON文件，但仅针对第一个页面执行此操作。似乎循环浏览我121页的小房子列表请求url应该是相当简单的，但我还没能让任何东西工作。本教程不会遍历请求url的页面<

浏览 31提问于2020-04-26得票数 0

回答已采纳

1回答

如何刷新Scrapy请求？

、、

我正在用Scrapy编写我的第一个python项目。我想要制作一个脚本来监视一个网站，并在网页上的按钮发生变化时提醒我，例如，一个禁用的按钮被启用了。如果在解析函数中使用循环，代码将遍历初始响应，每次都给出相同的结果。如何让Scrapy用每个循环生成一个新请求？在scrapy shell中，我可以使用fetch这样做，是否有类似的命令可以在爬虫中使用？

浏览 2提问于2021-12-24得票数 0

3回答

python/scrapy问题:如何避免无尽的循环

、、、

我正在使用web抓取框架scrapy来对一些站点进行数据挖掘。我正在尝试使用CrawlSpider，页面上有一个“上一步”和“下一步”按钮。如何格式化规则，使其不会出现无限循环。这是我的规则： Rule(SgmlLinkExtractor(allow='http://not-a-real-site.com/trunk-framework/791

浏览 2提问于2011-07-14得票数 2

1回答

为什么Scrapy跳过循环？

、

这个爬行器应该循环遍历，其中的数字是1到404，并提取每个页面。但是由于某些原因，它跳过了循环中的页面。很多页。例如，它跳过1到16。有人能告诉我这是怎么回事吗？代码如下： from scrapy.http import Request from opensyllabi.items

浏览 2提问于2013-01-16得票数 2

1回答

用循环子页的Scrapy提取数据

、、、、

我的网站上有一个网页，里面有一份工作人员名单。每个工作人员的姓名链接到各自的页面。我想输出一个csv文件，其中列出了每个工作人员的姓名和头衔，因此蜘蛛将需要循环遍历员工列表页面上的每个链接，并提取名称和标题。如何使这个循环工作？class scrapeSpider(scrapy</em

浏览 1提问于2015-12-17得票数 0

回答已采纳

1回答

python抓取规则在google结果中进行网络抓取

、、、、

我正在尝试让scrapy (1.0)遍历所有google结果，并且我可以毫不费力地抓取结果的第一页，但是我不能让抓取器遍历下面的页数(我认为这叫做遍历？)。我尝试使用“规则”： ...="pnnext"]')), callback='parse_item'

浏览 2提问于2015-07-11得票数 0

2回答

Scrapy -使用scrapy可以登录到https网站吗

、、、、

我正在尝试使一个网络爬虫，将登录到一个https网站使用我的凭据，然后爬行网站的某些部分。我正在使用python中的Scrapty，但我不能百分之百确定这是否可能，因为在网站上我没有看到任何关于https的东西，只看到了以下内容：*HTTP authentication 如果，那么有什么想法作为如何开始呢？

浏览 1提问于2013-06-26得票数 0

1回答

如果搜索产生的结果多于显示的结果，则清除隐藏页面

、、

在下输入的一些搜索查询会产生超过1,000个结果(动态显示在搜索页面上)。但是，结果最多只能显示100个页面，每个页面有10个结果，所以我试图在给定一个产生超过1,000个结果的查询的情况下收集剩余的数据。(car.decode().split('href="')[1].split('">')[0].split('/')[-1])所以很明显，我只是尝试传递一个大于<e

浏览 1提问于2020-01-03得票数 0

2回答

来自Scrapy的HtmlResponse不能从URL中检索数据

、、

from scrapy.selector import Selectordatas = Selector(response=response).xpath('//div[@class="thumb tleft"]') 当我执行response时，我得到了<200 https:/

浏览 4提问于2015-06-30得票数 1

2回答

抓取多个搜索词

、、、、

我是Python的新手，我正在学习如何抓取网页(1天内)。我想要完成的任务是遍历2000家公司的列表，并提取收入数据和员工数量。我从使用scrapy开始，我已经设法让工作流程为一家公司工作(不是很优雅，但至少我在努力)-但我不知道如何加载公司列表并循环执行多个搜索。我有种感觉，这是一个相当简单的过程。所以，我的主要问题是-在爬虫类中，我<

浏览 0提问于2014-01-06得票数 4

1回答

如何让scrapy使用url遍历归档文件？

、、

我正在尝试让一个抓取蜘蛛抓取归档中的几个页面，目的是打开每个单独的链接并抓取链接页面的内容。我遇到了一些随机的HTTP500错误，我试图通过简单的尝试跳过这些错误-除了跳过那些返回500个错误的页面。在Python

浏览 18提问于2019-07-08得票数 1

回答已采纳

2回答

使用参数并读取结果的脚本

、、

我正在尝试写一个脚本，它接受一个带有某些参数的URL，从结果网页中读取一个新的URL列表，并将它们下载到本地。我对编程非常陌生，也从未使用过Python3，所以我有点迷茫。something from a link:#file.retrieve(url, newfilelocation)如果您需要任何其他信息，请让我

浏览 6提问于2017-08-01得票数 1

1回答

Scrappy选择器上的Scrappy迭代

、、、、

resp = json.loads(response.text)

浏览 10提问于2020-12-16得票数 1

1回答

Scrapy不爬行于start中包含的数据。

、、

我试图抓取整个网站使用刮刮。根据scarpy的文件 clas

浏览 3提问于2014-10-29得票数 2

回答已采纳

1回答

Scrapy CSV文件的格式不正确

、、

基本上，我将提取的数据放到csv文件中，但格式有一些问题。 -First只显示零件，其他部分不显示fg。数量和价格-Secondly列标题似乎在向下重复行。我想为零件，价格，数量要显示在不同的列和标题将是名称。如果有人能告诉我在哪里可以学到这一点，那将会有很大帮助！

浏览 11提问于2020-07-09得票数 1

回答已采纳

1回答

迭代刮取

、

我的localhost中有一组几千页的页面，名为武装1.html、武装2.html等等。我的目标是单独抓取所有这些页面，并将它们的内容以相同的名称转储到一个JSON文件中(第1.html的内容将在第1.json中，条款2.html的内容在第2.json中，等等)。我试图用一个简单的循环遍历这些页面，并将计数整数传递给解析函数，但它似乎不起作用。我的代码如下所示： class scraper0Spider(scrapy

浏览 4提问于2015-09-04得票数 1

回答已采纳

1回答

将Scrapy指向本地缓存，而不是执行正常的爬行过程

、、

我使用管道将Scrapy爬行中的文档缓存到数据库中，这样，如果我更改了项目解析逻辑，就可以重新解析它们，而不必再次访问服务器。让Scrapy从缓存中处理而不是尝试执行常规抓取的最好方法是什么？我喜欢scrapy对CSS和XPath选择器的支持，否则我会用lxml解析器单独访问数据库。有一段时间，我根本没有缓存文档并以正常的方式使用Scrapy -即时解析项目-但我发现更改项目逻辑需要耗费大量的时间和资源。相反，我现

浏览 1提问于2015-09-05得票数 3

1回答

使用来自同一URL的多个POST数据进行抓取

、、、、

我希望它循环通过相同的起始URL，但只是抓取每个电话号码产生的数据，直到CSV文件中没有更多的号码。这是我到目前为止所得到的：from scrapy.http import Requestfrom scrapy.selector import HtmlXPathSelector from scrapy im

浏览 1提问于2013-07-17得票数 3

回答已采纳

点击加载更多