使用scrapy查找正确的分页选择器

、、、、

我使用css选择器'li.selected > a::attr(href)'不幸的是，我不能从其他页面获得所有其他数据。 xpath或css选择器的正确分页路径是什么？Python： import scrapy name = "pregnancy"

浏览 14提问于2019-01-18得票数 0

回答已采纳

1回答

Scrapy-查找正确的CSS选择器

、、

# -*- coding: utf-8 -*-from ..items import LowesspiderItem yield item 下面是我如何获得选择器的在查看网站的html时，我仍然对如何找到正确</e

浏览 5提问于2020-03-28得票数 0

回答已采纳

2回答

如何从有刮痕的网站获得完整的新闻文章

、

我仍然在学习如何做网络抓取，我正在尝试刮一个网站，从一个索引页所有的文章，然后获取他们的信息，以及全文。有了下面的代码，我可以得到我需要的所有信息-日期，时间，类别，标题-除了整篇文章。下面是我到目前为止编写的代码： name = 'coalnews' yiel

浏览 6提问于2022-07-13得票数 0

回答已采纳

1回答

如何对以下类型的网页进行分页？

、、、

我正在尝试对此站点的页面(http://www.geny-interim.com/offres/)进行分页。问题是我使用css选择器通过下面的代码遍历每个页面 next_page_url=response.css('a.page:nth-child(4)::attr(href)').extract_first() yield scrapy.Request(next_pag

浏览 7提问于2019-04-28得票数 0

回答已采纳

2回答

Scrapy:谁能告诉我为什么这段代码不能让我抓取后面的页面？

、

我是一个初学者，正在学习如何在Python中使用Scrapy进行网络抓取。有人能指出哪里出了问题吗？我的目标是抓取所有后续的页面。from indeed.items import IndeedItem name = "indnext_page_extension is not None: next_page = response.urljoin(n

浏览 27提问于2021-04-25得票数 3

1回答

我正在尝试抓取一个使用调用HTML的API的网站，因此为此，我需要抓取API，然后从API抓取HTML结果我已经使用这篇文章设法获得了API响应，并从中获得了HTML。resp = json.loads(response.text) selector= scrapy.Selector(text=resp['results'], type="html") 而且它工作得很好，当我试图从页面获取属性时，我可以使用CSS或Xpath选择器</em

浏览 10提问于2020-12-16得票数 1

2回答

不需要下一个链接的抓取解析分页

、、

我试图在没有下一个链接的情况下解析分页。response.xpath('//div[@class="pagination"]/ul/li/a/@href/following-sibling::a[1]/@href').extract() 有一个解析这个分页的好方法吗

浏览 2提问于2020-08-04得票数 1

回答已采纳

2回答

Scrapy:修改响应中的元素和字段

、、、

例如，我正在尝试修改“src”链接，使其指向本地保存的抓取文件。我在下面添加了一些

浏览 2提问于2015-07-19得票数 6

1回答

使用regex作为选择器在scrapy中捕获链接

import scrapy name = "scraper" start_urls = ["https://www.pros-locations-de-voitures.fr

浏览 5提问于2022-02-21得票数 0

回答已采纳

1回答

使用刮取从多个网站查找特定文本

、、、、

我想抓取/检查多个网站(在同一领域)的一个特定的关键字。我已经找到了这个脚本，但是我找不到如何添加要搜索的特定关键字。脚本需要做的是找到关键字，并给出找到它的链接的结果。有人能告诉我我能在哪里读到更多关于这个的书吗？我一直在读，但是我似乎找不到这个。name = "final" allowed_domains = ['example.co

浏览 2提问于2015-11-30得票数 2

回答已采纳

1回答

使用多个/无子页刮取asp.net页面: if-else语句中的输出

、、、、

以下是文件spyder.py：from scrapy_spider.items import JobsItem 第一个链接中有<10项，第二个链接有>1000项。作业列表的视口比例设置为25，因此第一个链接没有子页面，第二个链接有10+子页面。我设法将它们更改为75，这样我就不必处理许

浏览 3提问于2021-05-14得票数 0

回答已采纳

2回答

爬行amazon时出现刮擦/选择库错误

、、、

我试图使用scrapy和selectorlib来刮掉amazon的优惠页面(www.amazon.it/gp/goldbox)amazon.pyimport scrapyimport selectorlib name = 'amazon爬行spidername，我得到了一个错误TypeE

浏览 2提问于2019-12-08得票数 1

1回答

如何打开文件流以便使用Scrapy读取？

、、

使用Scrapy，我想使用我提取的url将二进制文件读入内存并提取内容。然后如何将该文件读入内存，以便在该文件中查找内容

浏览 1提问于2016-03-25得票数 1

回答已采纳

2回答

使用xPath选择器时不能刮到下一个页面的链接，返回空。(使用Scrapy)

、、

我正在使用Scrapy并试图刮掉 url，当我请求页面上任何有关产品的数据时，我就会把它拿出来。但是带有分页器类和id=paginator1的div作为空返回，即使它是一个具有对下一页的引用的表。我尝试过对表和css选择器使用xPath选择器，但两者都返回为空。这就是我尝试过的，使用css In [29]: response.css('span a::attr(href)

浏览 0提问于2018-02-24得票数 0

回答已采纳

1回答

如何向CSS选择器添加属性以指定特定的分页链接？

、、

我刚进入Scrapy &我知道这是一个Noob问题，但是如何添加一个属性来指定特定的分页链接呢？类属性是不同的，我需要“fa-chevron-右下一个分页图标”。我非常肯定，我可以通过指定css选择器中列出的两个属性中的一个来获得正确的链接。我试过

浏览 0提问于2018-06-08得票数 0

回答已采纳

1回答

Scrapy CrawlSpider下一页不工作

、

我想要从每张卡片中抓取所有项目，第一个规则工作正常，但第二个规则意味着分页规则不起作用。这是我的代码： import scrapyfrom scrapy.spiders import CrawlSpider

浏览 12提问于2021-07-04得票数 1

回答已采纳

1回答

Python Scrapy* Spider:不一致的结果*

、、

我很想知道你们对这件事的看法。我已经研究了几天了，但我似乎找不到哪里错了。任何帮助都将受到高度的感谢。import scrapyfrom scrapy.selector import Selectorfrom scrapy.spiders impor

浏览 11提问于2016-08-08得票数 0

1回答

XPath选择器工作在XPath帮助控制台，但不工作于刮伤

、、、

我用刮刮来分析的利率你可以在下面看到我的蜘蛛代码。import scrapy class

浏览 0提问于2018-10-12得票数 1

回答已采纳

2回答

scrapy版本0.22.1的多页抓取- "cannot import name CrawlSpider“错误是什么意思？

、、

我正在尝试编写一个爬虫来跨多个页面爬行，通过以下网址：我正在使用Scrapy版本0.22.1来做这件事。但是，我收到一条"cannot import name CrawlSpider“消息。我已经粘贴了下面蜘蛛的代码。有人能确定我哪里出错了吗？from scrapy.spider import CrawlSpider, Rule from scrapy.linkextractors.sgml import SgmlLinkExtractorfrom scrapy.selecto

浏览 0提问于2015-02-14得票数 1

1回答

为什么刮掉selector.css重排空白列表

、、

def parse(self, response): items_list=sel.css('#maindiv.containerbox.boxindex > div.layui-row.layui-col-space15 > div:nth-child(1) > table > tbody > tr') 选择器来自复制->复制选择器。我调试了代码，响应是正确的</em

浏览 8提问于2022-06-16得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Scrapy-查找正确的CSS选择器

如何从有刮痕的网站获得完整的新闻文章

如何对以下类型的网页进行分页？

Scrapy:谁能告诉我为什么这段代码不能让我抓取后面的页面？

Scrappy选择器上的Scrappy迭代

不需要下一个链接的抓取解析分页

Scrapy:修改响应中的元素和字段

使用regex作为选择器在scrapy中捕获链接

使用刮取从多个网站查找特定文本

使用多个/无子页刮取asp.net页面: if-else语句中的输出

爬行amazon时出现刮擦/选择库错误

如何打开文件流以便使用Scrapy读取？

使用xPath选择器时不能刮到下一个页面的链接，返回空。(使用Scrapy)

如何向CSS选择器添加属性以指定特定的分页链接？

Scrapy CrawlSpider下一页不工作

Python Scrapy* Spider:不一致的结果*

XPath选择器工作在XPath帮助控制台，但不工作于刮伤

scrapy版本0.22.1的多页抓取- "cannot import name CrawlSpider“错误是什么意思？

为什么刮掉selector.css重排空白列表

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐