使用scrapy转到下一页_无法使用Scrapy转到下一页_Scrapy不想转到下一页 - 腾讯云开发者社区

python、scrapy、web-crawler

class A1Spider(scrapy.Spider): name = "amazon" allowed_domains = ["www.amazon.com"] start_urls = ( 'http://www.amazon.com/s/ref=nb_sb_noss_1?url=search-alias%3Daps&field-keywords=golf+balls', ) def __init__(self): self.page = 0 def parse(self,

浏览 0提问于2016-06-01得票数 0

1回答

在第2页之后，Scrapy分页失败

python、python-3.x、callback、scrapy

我正在创建一个爬虫，它会爬行这里的每个页面：http://web.archive.org/web/20141217173753/http://www.docstoc.com/documents/legal/，并且只返回卡片名称。正如我所期望的，它应该从起始页收集所有项目，然后沿着"Next“分页链接('BookEnd‘类)重复，直到没有这样的链接。要使分页正常工作，我需要更改哪些内容？我是网络抓取的新手。我已经通过手动将每个页面输入到start_urls来使这个爬行器工作，但我想让它更加自动化。 #!/usr/bin/env python3 import scrapy

浏览 18提问于2019-09-05得票数 1

回答已采纳

1回答

简陋的亚马逊分页前几页

scrapy

目前，对于使用Scrapy的Amazon数据刮刀中的分页，我使用的是 next_page = response.xpath('//li[@class="a-last"]/a/@href').get() if next_page: next_page = 'https://www.amazon.com' + next_page yield scrapy.Request(url=next_page,callback=self.parse,headers=self.amazon_head

浏览 13提问于2021-08-30得票数 1

回答已采纳

1回答

Scrapy解析站点的某个部分，并忽略其余部分

python、scrapy

当我运行我的抓取器时，它从一个站点抓取大约200条记录，而这个站点包含大约250条记录。我找不出我在创建它时所犯的任何错误。任何帮助都将不胜感激。 "items.py“包括： import scrapy class WiseowlItem(scrapy.Item): Name = scrapy.Field() Url= scrapy.Field() 名为"wiseowlsp.py“的爬虫包括： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextracto

浏览 2提问于2017-04-11得票数 0

2回答

为刮伤设置页数限制

python、web-scraping、scrapy、limit

我正在抓取，您可以看到有体裁部分，我想作为一个csv返回到最初的18页，在显式体裁之前停止，，我怎么能这样做呢？这是我的密码 # -*- coding: utf-8 -*- import scrapy from scrapy.exceptions import CloseSpider class Link(scrapy.Item): link = scrapy.Field() class LinkListsSpider(scrapy.Spider): name = 'link_lists' allowed_domains = ['ht

浏览 4提问于2022-05-14得票数 0

2回答

避免错页Scrapy

python、scrapy

我上周已经发过帖子了，我的机器人总是在321页面被屏蔽。我更改了Scrapy设置，但注意到321和结尾处之间的页面似乎没有包含项目。我想知道如何跳过产生错误的页面。我试过这个： next_pages = response.xpath("//div[@class='pgLightPrevNext']/a/@href").extract() #essai pour accéder au contenu des pages suivantes for next in next_pages: absolute_url = self.ba

浏览 0提问于2018-10-22得票数 0

1回答

抓取的递归爬虫问题

python、recursion、scrapy

我试图爬行viagogo.com我想爬行的每一个显示从页面：我能够得到第一页的显示，但当我试图移动下一页它就是不爬行！下面是我的代码： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors import LinkExtractor from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from viagogo.items import ViagogoItem from scrapy.http imp

浏览 1提问于2014-12-13得票数 0

1回答

如何使用scrapy导航到下一页(web scraping)

css、xpath、scrapy

我正在尝试从https://www.goodreads.com/quotes中提取引文。似乎我只得到了第一页，而下一页部分不起作用。下面是我的代码： import scrapy class QuotesSpider(scrapy.Spider): name = 'quotes' start_urls = [ 'http://www.goodreads.com/quotes' ] def parse(self,response): for quote in response.xpath(&#

浏览 17提问于2020-03-24得票数 0

回答已采纳

1回答

刮伤不会产生结果(爬行0页)

scrapy

试图找出刮刮是如何工作的，并使用它来查找论坛上的信息。 items.py import scrapy class BodybuildingItem(scrapy.Item): # define the fields for your item here like: title = scrapy.Field() pass spider.py from scrapy.spider import BaseSpider from scrapy.selector import Selector from bodybuilding.items import Bodybuildi

浏览 4提问于2017-10-06得票数 0

回答已采纳

2回答

刮伤的蟒蛇-我一直爬0页

python、python-3.x、web-scraping、scrapy

我尝试过遵循多个教程，但无论我如何尝试，我总是得到相同的结果“爬行0页(0页/分钟)，刮0项(0项/分钟)”。我的代码非常简单： import scrapy class SpiderSpider(scrapy.Spider): name = 'spider' allowed_domains = ['books.toscrape.com/'] start_urls = ['http://books.toscrape.com//'] def parse(self, response): print

浏览 3提问于2020-11-03得票数 0

回答已采纳

1回答

刮伤的网络爬虫被捕捉到无限循环，尽管最初的工作。

python-2.7、scrapy

好的，所以我正在开发一个基于抓取的网络爬虫，它有一些简单的功能。机器人应该从一个页面转到另一个页面，解析然后下载。我已经让解析器工作了，下载也开始工作了。我不能让爬虫开始工作。我读过Spider类的文档，阅读了解析应该如何工作的文档。我已经尝试过回归和屈服，但我仍然无处可寻。我不知道我的代码哪里出错了。根据我编写的调试脚本，所发生的事情如下。代码会运行，它会很好地抓取第1页，它会得到到第二页的链接，它会转到第二页，然后它会很高兴地停留在第二页，而不是抓取第三页。我不知道代码中的错误在哪里，也不知道如何修改它来修复它。因此，任何帮助都将不胜感激。我相信这个错误是基本的，但我不知道发生了什么。 i

浏览 1提问于2016-01-29得票数 0

回答已采纳

2回答

如何在Scrapy Crawler中跟踪下一页以抓取内容

python-2.7、scrapy、web-crawler

我能够从第一页抓取所有的故事，我的问题是如何移动到下一页，继续抓取故事和名字，请检查下面的代码。 # -*- coding: utf-8 -*- import scrapy from cancerstories.items import CancerstoriesItem class MyItem(scrapy.Item): name = scrapy.Field() story = scrapy.Field() class MySpider(scrapy.Spider): name = 'cancerstories' allowed_doma

浏览 2提问于2016-02-10得票数 2

回答已采纳

1回答

刮擦蜘蛛只刮2页，不要转到下一页

python、web-scraping、scrapy

当我运行这段代码时，爬行器只爬行2页并停止。不会转到下一页。 # -*- coding: utf-8 -*- import scrapy class P1Spider(scrapy.Spider): name = 'p1' allowed_domains = ['www.visit.ferienmesse.ch'] start_urls = ['https://www.visit.ferienmesse.ch/de/aussteller'] def parse(self, response):

浏览 1提问于2020-03-26得票数 0

回答已采纳

3回答

下一页Selenium与Scrapy不起作用

python、selenium、web-scraping、scrapy

我一直在努力使用“下一页”按钮；抓取器设法单击下一页并转到它，然而，它一直转到第一页，并最终断开。我只想抓取接下来的所有页面(在本例中只有一页，但将来可能会有更多)。对于这里可能出现的问题有什么想法吗？代码如下： class DatatracSpider(scrapy.Spider): name = 'data_trac' start_urls = [ # FOR SALE 'https://www.milieuproperties.com/search-results.aspx?paramb=ADVANCE%20SE

浏览 14提问于2021-01-27得票数 1

回答已采纳

1回答

刮痕不跟着下一页的网址，为什么？

python、scrapy

我正在刮这个网站：与Scrapy1.4.0。当我运行蜘蛛，一切顺利，直到它到达“下一页”部分。下面是代码： # -*- coding: utf-8 -*- import scrapy #import time class OlxarSpider(scrapy.Spider): name = "olxar" allowed_domains = ["olx.com.ar"] start_urls = ['https://www.olx.com.ar/celulares-telefonos-cat-831'] def parse(self, r

浏览 5提问于2017-09-22得票数 0

回答已采纳

2回答

在登录后刮取urls列表

scrapy

要刮除的站点有多个具有多个页面的项目，并且需要登录。我试过： def start_request(self): return [scrapy.FormRequest(, callback=self.logged_in)] def logged_in(self, response): with open(...) as f: for url in f.readlines(): return scrapy.Request(url, callback=self.parse) def parse(self, response): ..

浏览 6提问于2016-03-11得票数 1

1回答

Scrapy不按顺序爬行后续页面

python、web-crawler、scrapy

我正在编写一个爬虫从网站上获取项目的名称。该网站每页有25个项目和多个页面(某些项目类型为200个)。代码如下： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.selector import HtmlXPathSelector from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from lonelyplanet.items import LonelyplanetItem class LonelyplanetSpider(Craw

浏览 3提问于2012-06-15得票数 3

1回答

抓取包含多个页面的网站时出现问题

python、web-scraping、scrapy

我使用的是python 3.8和scrapy 1.6，我写了一个爬虫来抓取一个非英语的网站，但是分页不起作用，我得到了一个只包含page one元素的CSV文件。因为我无法从其他类似的问题中找到解决方案，所以我请求帮助。下面是我的爬虫代码： # -*- coding: utf-8 -*- import scrapy import logging import urllib.parse parts= urllib.parse.urlsplit(u'http://fa.wikipedia.org/wiki/صفحهٔ_اصلی') parts= parts._replace(p

浏览 19提问于2020-08-18得票数 0

1回答

使用scrapy框架刮取monster.com

python、scrapy、scrapy-spider、scrapy-splash

如何为monster.com创建一个抓取所有页面的爬虫。对于“下一页”链接，monster.com调用javascript函数，但scrapy不识别javascript。下面是我的代码，它不适用于分页： import scrapy class MonsterComSpider(scrapy.Spider): name = 'monster.com' allowed_domains = ['www.monsterindia.com'] start_urls = ['http://www.monsterindia.com/da

浏览 3提问于2017-08-15得票数 0

回答已采纳

1回答

如何将抓取爬行器设置为在多个页面上运行-没有下一页按钮

web-scraping、scrapy、scrape

我一直在绞尽脑汁地设置从开始到产生结果的多个页面的抓取。不幸的是，网站没有“下一页”按钮，这使得事情变得更加困难。这是网站的results https://www.imot.bg/pcgi/imot.cgi?act=3&slink=5fuby1&f1=1。 import scrapy import logging class ApartmentsSpider(scrapy.Spider): name = 'apartments' allowed_domains = ["www.imot.bg"] start_urls

浏览 37提问于2020-04-29得票数 2

2回答

使用xpath转到下一页

python-3.x、xpath、scrapy、scrapy-spider

我创建了一个蜘蛛，从一个网站上刮取数据。直到我添加了一个爬行器和规则来保持它在下一页继续之前，它是可以的。我猜规则中的xpath是错误的。你能帮我修一下吗？Ps:我在用python3 这是我的蜘蛛 import scrapy from scrapy.contrib.spiders import Rule from scrapy.linkextractors import LinkExtractor from scrapy.spiders import Spider, CrawlSpider, Rule from scrapy.selector import Selector from task

浏览 0提问于2018-08-29得票数 1

回答已采纳

1回答

如何将Python用于myltiple URL的

scrapy、python-3.5

我的问题类似于这篇文章：我要我的爬虫遍历所有的“下一个”链接。我已经搜索了很多，但大多数人只关注如何解析ULR，或者简单地将所有URL放在初始URL列表中。到目前为止，我能够访问第一页并解析下一页的链接。但我不知道如何使用相同的爬虫(蜘蛛)访问那个页面。我尝试将新的URL添加到我的URL列表中，它确实附加了(我检查了长度)，但后来它没有访问链接。我不知道为什么..。注意，在我的例子中，我只知道第一页的URL。第二页的URL只能在访问第一页之后才能获得。同样，(i+1)第四页的网址隐藏在第一页中。在解析函数中，我可以解析并打印正确的下一页链接URL。我只是不知道怎么去看看。请帮帮我。

浏览 0提问于2017-06-16得票数 0

回答已采纳

1回答

不能使用Scrapy刮下一页内容

python、web-scraping、scrapy、scrapy-shell

，我也想刮下下一页的内容，但是它没有转到下一页。我的代码是： import scrapy class AggregatorSpider(scrapy.Spider): name = 'aggregator' allowed_domains = ['startech.com.bd/component/processor'] start_urls = ['https://startech.com.bd/component/processor'] def parse(self, response): processor_details = r

浏览 1提问于2019-03-08得票数 0

回答已采纳

1回答

运行时请求URL更改不起作用

python-3.x、scrapy

我使用Scrapy用Python编写了一个脚本。代码运行以获取包含该代码的所有存在页。当开始刮取时，它在第一个页面加载时工作得很好，并且按照脚本逻辑获得第二个页面。但是在加载第2页之后，我无法获得加载新页面的xpath，所以我可以这样向前移动，获得所有的网页编号。共享代码片段。 import scrapy from scrapy import Spider class PostsSpider(Spider): name = "posts" start_urls = [ 'https://www.boston.com/category/news/

浏览 5提问于2022-06-10得票数 1

回答已采纳

1回答

使用带有scrapy和splash的javascript递归爬行同一页面

python、scrapy、web-crawler、scrapy-splash、scrapyjs

我正在爬一个有javascript转到下一页的网站。我正在使用splash在第一页执行我的javascript代码。但我能读到第二页。但我不能去3，4，5.页面。只在一页之后停止爬行。我正在爬行的链接：守则： import scrapy from scrapy_splash import SplashRequest from time import sleep class MSEDCLSpider(scrapy.Spider): name = "msedcl_spider" scope_path = 'body > table:nth-ch

浏览 3提问于2016-11-07得票数 3

回答已采纳

1回答

不转到第二页通过scrapy提取数据

python-3.x

保存一页数据，不转到第二页，不显示任何错误。 import scrapy from ..items import QoutetutorialItem class QouteSpider(scrapy.Spider): name = 'qoute' page_num =2; allowed_domains = ['http://quotes.toscrape.com'] start_urls = ['http://quotes.toscrape.com/page/1/&

浏览 6提问于2019-11-02得票数 0

2回答

蜘蛛不会转到下一页

python、python-3.x、scrapy、scrapy-spider

蜘蛛代码： import scrapy from crawler.items import Item class DmozSpider(scrapy.Spider): name = 'blabla' allowed_domains = ['blabla'] def start_requests(self): yield scrapy.Request('http://blabla.org/forum/viewforum.php?f=123', self.parse) def parse(self

浏览 1提问于2016-08-24得票数 0

回答已采纳

1回答

如何从同一csv行中的多个页面中刮取数据？

python、scrapy、scrapy-spider

我需要从多个页面中抓取数据。首先，它应该从第一页抓取数据，然后从这个页面中提取一个url到第二页，并从中获取一些数据。所有人都应该在同一个csv行上。这是第一页：数据的示例是表e.g:catalog、模型、生产和系列的第一行。这是第二页：示例的数据:系列，引擎，生产日期。两者应该在同一个csv行上，就像屏幕截图一样：这是我的密码： import datetime import urlparse import socket import scrapy from scrapy.loader.processors import MapCompose, Join from

浏览 4提问于2017-03-25得票数 0

2回答

Scrapy crawler无法从多个页面爬行数据

python、web-scraping、scrapy、web-crawler

我正在尝试删除以下页面的结果：页面= 1,2,3,4 ...因此，根据结果。所以我得到了一个php文件来运行爬虫，对不同的页码运行它。代码(针对单个页面)如下所示： `import sys from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtracto

浏览 1提问于2013-06-01得票数 1

1回答

Python (f“在{response}中找不到<form>元素”)

python、web-scraping、scrapy

我想从所有页面中删除数据，但是在刮掉第一页后就会出现错误。我编写的代码如下： import scrapy from scrapy.http import FormRequest from ..items import PracticeItem class Practice(scrapy.Spider): name = 'quotes' start_urls = ['https://quotes.toscrape.com/login'] def parse(self, response): token = res

浏览 3提问于2022-04-05得票数 0

1回答

刮掉键错误和下一页url不工作

scrapy、keyerror

我正在尝试刮，使用这个页面作为启动url：这个页面有3个列表，其中一个列表有100+项。我的代码只抓取100项，而不从下一页获取数据。请检查代码有什么问题。 import scrapy from urllib.parse import urljoin class lisTopSpider(scrapy.Spider): name= 'ImdbListsSpider' allowed_domains = ['imdb.com'] start_urls = [ 'https://www.imdb.com/lists/t

浏览 5提问于2020-05-06得票数 0

回答已采纳

1回答

使用response.css导航到下一页

python-3.x、scrapy

我有一个从一个页面提取文章的功能，但我不能导航到下一页来抓取所有页面：下面是我正在尝试的方法： import scrapy from scrapy.spiders import Rule from scrapy.linkextractors import LinkExtractor class MedicalSpider(scrapy.Spider): name = 'medical' # allowed_domains = ['https://blogs.webmd.com/diabetes/default.htm'] allow

浏览 6提问于2019-07-10得票数 1

2回答

我想通过属性来标识特定的urls，但是如果感兴趣的属性是外文字符呢？

xpath、encoding、scrapy

我想使用Scrapy来递归地刮取数据--在下一个页面之后从一个页面中抓取数据。我的蜘蛛需要遵循“下一页”按钮。原则上，response.xpath("a[@title = 'next page']")可以识别“下一页”urls。然而，由于网站是中文()，我使用的选择器命令是response.xpath("a[@title = '下一页']")。下一页的意思是“下一页”这是行不通的，错误消息是"ValueError:所有字符串必须与XML兼容: Unicode或ASCII，没有空字节或控制字符“。该网站的编码为gbk。那么，

浏览 7提问于2015-10-18得票数 0

回答已采纳

1回答

如何将response.css()与response.follow()一起用于Scrapy中最后一页的分页？

python、python-3.x、scrapy、scrapy-spider

下面是我从第一页到最后一页分页的代码： url = response.css("li.next a::attr(href)").extract_first() if url: url = response.urljoin(url) yield response.follow(url, self.parse) Scrapy1.4 还有另一种方法： for a in response.css('li.page a'): yield response.follow(a, self.parse) 我试过这个：

浏览 3提问于2017-06-12得票数 3

回答已采纳

2回答

使用Scrapy从页面上项目列表的多个项目中提取信息

python、scrapy、web-crawler、extraction

是否可以使用Scrapy从数据列表中的所有数据记录中提取一些数据，因此对于列表视图页面的每个链接，它打开链接(详细信息页面)，选择想要的信息，返回列表视图，选择下面的第一个项目(链接)，对所有项目和所有页面执行相同的工作(例如100页，每页有10条记录)。也就是说，如果我选择分页我有多个项目列表，爬虫需要进入每一个项目，打开详细信息视图抓取需要的信息，然后回到第一页(从第一个附件)，转到另一个链接，并重复每一页的每一个项目的工作。我知道Scrapy可以很容易地从第一页抓取所需的数据，例如所有项目的价格和标题，但是否可以打开该项目，刮掉一些在详细信息页面中可见的信息，然后回来再为

浏览 7提问于2019-08-26得票数 0

1回答

经过验证的爬行器分页。302重定向。reqvalidation.asps -找不到页面

python-3.x、authentication、scrapy、session-cookies

我有一个scrapy sider，可以成功地登录到ancestry.com。然后，我使用经过身份验证的会话返回一个新链接，并可以成功地抓取新链接的第一页。当我尝试转到第二页时，出现问题。我收到一条302重定向调试消息，并且url：https://secure.ancestry.com/error/reqvalidation.aspx?aspxerrorpath=http%3a%2f%2fsearch.ancestry.com%2ferror%2fPageNotFound&msg=&ti=0>。我遵循了文档，并按照这里的一些建议走到了这一步。每个页面都需要一个会话令牌吗

浏览 18提问于2019-05-02得票数 0

1回答

ModuleNotFoundError:在Scrapy中没有名为“”的模块

python、web-scraping、scrapy

(这是我的items.py) import scrapy class FreelanceItem(scrapy.Item): url = scrapy.Field() url = scrapy.Field() 当我启动另一个python并导入包时 import scrapy from scrapy.item import Item , Field from freelance.items import FreelanceItem 我明白了: ModuleNotFoundError:没有名为“自由职业者”的模块我该怎么办？谢谢。

浏览 0提问于2018-11-16得票数 1

2回答

抓取下一页

python、scrapy、lxml、scrapy-spider

我有这个scrapy框架的代码： # -*- coding: utf-8 -*- import scrapy from scrapy.contrib.spiders import Rule from scrapy.linkextractors import LinkExtractor from lxml import html class Scrapy1Spider(scrapy.Spider): name = "scrapy1" allowed_domains = ["sfbay.craigslist.org"] start_urls

浏览 1提问于2015-09-17得票数 7

回答已采纳

1回答

我的代码没有给出下一页的结果？

python、web-scraping、scrapy

这段代码给出了第一页的项目，但不会转到下一页。第一个函数调用第二个函数在第一个页面的产品中运行，但是在完成第一个函数的循环之后，它应该为下一页调用自己，但它不是。如能提供帮助，将不胜感激 from gc import callbacks from subprocess import call import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from lxml import html

浏览 5提问于2022-06-06得票数 -1

回答已采纳

1回答

如何获取Scrapy请求以转到网站的最后一页？

python-3.x、xpath

我只需要作出剪贴画的请求，以请求网站的最后一页。我不能创建一个转到最后一页的抓取请求。我已经尝试了下面的代码。 last_page = response.css('li.next a::attr(href)').get() if next_page is None: yield scrapy.Request(last_page, callback=self.parse) 预计爬虫会直接跳到最后一页，然后我将从那里进行一些操作

浏览 20提问于2019-09-10得票数 0

1回答

抓取多页错误过滤重复

python、scrapy

刚开始使用scrapy，我试着在整个数据库中逐页搜索一个通用的搜索引擎，并抓取一些我需要的链接，但是当我试图进入下一个页面时，我会得到这个错误。不太确定如何去下一页，将感谢任何帮助与正确的方法！这是我的密码： class TestSpider(scrapy.Spider): name = "PLC" allowed_domains = ["exploit-db.com"] start_urls = [ "https://www.exploit-db.com/local/" ] def

浏览 8提问于2016-06-09得票数 2

回答已采纳

1回答

如何在一只蜘蛛中爬行多页？

python、scrapy

我是一个抓取初学者，我想建立一个爬行工作与许多页在一个蜘蛛。 FYI:这是一个电子商务页面，工作应该一页一页地找到所有的产品.对于找到的每个产品，打开自己的URL来抓取该特定产品的数据。守则应遵循以下规定：使用URL打开页面(第1页) 发现所有产品循环每个产品->遵循它的URL ->爬行数据找到下一页跟随下一页这是我的密码 import scrapy class QuotesSpider(scrapy.Spider): name = "acfc_spider" #List of URL def st

浏览 2提问于2021-11-25得票数 0

回答已采纳

1回答

使用Python递归地刮取页面(scrapy)

python、python-3.x、scrapy

我试图制作一个程序，在进入下一页时检索项目的标题和价格。现在，第一页的所有信息(标题、价格)都被提取出来，但是程序不会转到下一页。网址： import scrapy class RecursiveSpider(scrapy.Spider): name = 'recursive' allowed_domains = ['scrapingclub.com/exercise/list_basic/'] start_urls = ['http://scrapingclub.com/exercise/list_basic//']

浏览 3提问于2020-09-04得票数 1

回答已采纳

2回答

抓取爬行器没有收集第一页数据，并且每页上的第一项可能也不正确

python、scrapy-spider

这个爬行器从Funny subreddit页面上拉出标题。我认为问题可能出在允许的url上，因为/funny主页与此不匹配。如果我在允许的列表中添加“/r/ from /”，它会变得疯狂，爬行太多。另外，不确定如何处理每一页的第一项错误(有时可能是前一页的最后一项。 from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from scrapy.http.response import Response class Lesson1Spider(CrawlSpide

浏览 0提问于2017-05-28得票数 0

1回答

Scrapy提前停止，没有错误

python、pagination、scrapy、web-crawler

所以我试着拼凑一个大约有2000页帖子的博客，但是scrapy似乎提前完成了，没有读到最后一页。 import scrapy class postsSpider(scrapy.Spider): name = "posts" # URL's to scrape. start_urls = [ "Removed for privacy" ] def parse(self, response): # Calls postDetails Parser. post_u

浏览 16提问于2019-01-09得票数 0

回答已采纳

1回答

Scrapy:如何基于url正确创建scrapy.http.response.html.HtmlResponse对象

python、web-scraping、scrapy

我写了一个抓取蜘蛛来从有几个子页面的网页中抓取数据。他们中的每一个也有几个子页面等。我想访问所有的子子页面，并采取具体的信息从它。为了更深入地了解，我想用xpath()查询后续的子页面，以获得链接并输入它们。但是要使用xpath，我需要一个scrapy.http.response.html.HtmlResponse类的对象。因此，我写道： from scrapy.http import HtmlResponse new_response = HtmlResponse(url=subpage_url) 但是，当我在这样一个对象上执行xpath查询时，我得不到我应该得到的东西，只得到一个空

浏览 35提问于2020-04-25得票数 0

2回答

Scrapy / Python中的增量分页

python、scrapy

我遇到了与Scrapy的分页困难。我通常成功地使用了以下代码 next_page = response.xpath("//div//div[4]//ul[1]//li[10]//a[1]//@href").extract_first() if next_page is not None: yield scrapy.Request(url = response.urljoin(next_page), callback=self.parse) 结果发现，在这次尝试中，我遇到了一个使用5页块的网站。见下图。因此，在捕获前5页之后，Scrapy跳到倒

浏览 2提问于2019-02-15得票数 3

回答已采纳

1回答

为什么我在运行Scrapy时得到空的“消息：”记录输出？

python、python-3.x、selenium、scrapy、web-crawler

我的爬行器运行正常，我设法用例如这样的代码行来控制日志记录： logging.info("MyCrawler构建的URL列表！“) 并输出消息到控制台。根信息: MyCrawler构建的URL列表！在运行蜘蛛时，我会收到以下许多消息： 2017-08-25 13:40:15 scrapy.extensions.logstats信息:爬行26页(2页/分钟)，刮0项(0项/分钟)消息：消息：消息：消息：消息：消息：消息：消息： 2017-08-25 13:41:12 scrapy.extensions.logstats信息:爬行42页( 16页/分钟)

浏览 2提问于2017-08-25得票数 0

2回答

提取所有分页链接到有刮痕的网页？

python、scrapy、scrapy-spider

import scrapy class QuotesSpider(scrapy.Spider): name = 'quotes' allowed_domains = ['www.onthemarket.com'] start_urls = ['https://www.onthemarket.com/for-sale/property/london/'] def parse(self, response): next_page_url = response.css("li > a.arr

浏览 8提问于2017-12-11得票数 1

回答已采纳

1回答

Scrapy:如何使用regex跟踪页面上的多个链接

python、regex、web-scraping、scrapy

我有一个能很好地收集信息的刮板，但是当我试图实现规则来爬行“下一个”页面时，我会被卡住。使用Scrapy 0.22 (我现在无法升级)。 import re import datetime import dateutil import urllib2 from scrapy.http import Request from scrapy.selector import Selector from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.contrib.spiders import Cra

浏览 2提问于2015-09-30得票数 3