Scrapy -从页面上的其他文本构建xpath响应时，谓词无效

Scrapy是一个基于Python的开源网络爬虫框架，用于快速、高效地从网页中提取数据。它提供了强大的工具和库，使开发者能够轻松地构建和管理爬虫程序。

在Scrapy中，XPath是一种用于在HTML或XML文档中定位元素的语言。通过使用XPath表达式，可以从页面上的其他文本构建XPath响应。然而，需要注意的是，当从页面上的其他文本构建XPath响应时，谓词是无效的。

谓词是XPath表达式中用于过滤元素的条件。它们通常用于限制所选元素的范围，以便只选择满足特定条件的元素。然而，在Scrapy中，当从页面上的其他文本构建XPath响应时，谓词无效，因为Scrapy的XPath解析器无法直接处理这种情况。

解决这个问题的一种方法是在Scrapy中使用CSS选择器。CSS选择器是一种用于选择HTML元素的语言，与XPath类似，但更简洁直观。通过使用CSS选择器，可以轻松地从页面上的其他文本构建选择器响应，并且可以使用谓词来过滤所选元素。

以下是使用Scrapy和CSS选择器从页面上的其他文本构建选择器响应的示例代码：

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com']

    def parse(self, response):
        # 从页面上的其他文本构建选择器响应
        selector = scrapy.Selector(text=response.xpath('//other/text()').get())

        # 使用CSS选择器选择元素
        elements = selector.css('your-css-selector')

        # 处理选定的元素
        for element in elements:
            # 提取数据或执行其他操作
            pass

在上述示例中，我们首先使用XPath表达式从页面上的其他文本构建选择器响应。然后，我们使用CSS选择器选择所需的元素，并对它们进行处理。

对于Scrapy的更多信息和详细介绍，您可以访问腾讯云的相关产品和文档：

页面内容是否对你有帮助？

有帮助

没帮助

Scrapy -从页面上的其他文本构建xpath响应时，谓词无效

、、、、

尝试从页面中抓取数据，其中表id是从页面上的文本构建的。由于每个页面具有不同的文本，因此表id对于每个页面都是唯一的。我可以通过将字符串组合在一起来获得表的id，但是不能在我的xpath语句中获得id。当我在下面的语句中硬编码表id时，我得到了一个成功的响应 for zodiac in response.xpath('

浏览 40提问于2021-05-09得票数 0

1回答

如何使用Scrapy进行分页并访问每个页面上的所有链接

、、

我有下面的蜘蛛，我尝试结合分页和规则访问每个页面上的链接。import scrapyfrom scrapy.spiders import CrawlSpider,(response.urljoin(next_page_url))从第1页https://ausschreibungen-deutschland.de/1

浏览 3提问于2022-03-04得票数 0

回答已采纳

2回答

用Scrapy从两个页面中提取数据

、

此页面包含事件的开始时间和标题，以及指向每个事件的详细信息页的链接。我的蜘蛛提取每个事件的细节页面上的所有事件细节(描述、位置等)，除了我必须在开始页面上提取的开始时间。如何从起始页和每个详细信息页上的其他数据中提取开始时间？有什么好斗的路要走？使用元“物品”？我不明白..。现在这是我的蜘蛛。任何帮助都非常感

浏览 2提问于2016-02-23得票数 2

回答已采纳

1回答

无法爬行多个页面

、、、

2019-05-29 10:47:14 scrapy.core.engine信息:蜘蛛开放2019-05-29 10:47:16 scrapy.core.s

浏览 0提问于2019-05-29得票数 0

回答已采纳

1回答

正确的xpath返回空结果

、

我想要从这个网页上的表格中抓取数据假设我想提取左上角单元格中的文本LM2015122827458，我使用了response.xpath("//tr[@class = 'tr_css']/td[1]/text()").ex

浏览 2提问于2016-01-05得票数 0

1回答

基于TripAdvisor的抓取XHR分页

、、、

虽然我在这里看到了几个类似的问题，但似乎没有一个能准确地定义完成这一任务的过程。我很大程度上借用了位于的Scrapy脚本，但是由于它已经有一年多的历史，所以我不得不对xpath引用进行调整。"]/a/text())').extract()[0]在运行当前形式的爬行器时，我会为start_urls页面上列出的每家酒店刮第一页评论，但是页面不会切换到下一页<

浏览 3提问于2017-07-19得票数 1

1回答

Python Scrapy，包含文本，使用xpath排除文本

、、、、

因此，我现在正在使用Scrapy，并希望刮一个具体的信息网站。我只想在某些文本存在的情况下才能刮取信息，也只想在某些文本不存在的情况下刮取信息。例如，我可能会寻找苹果，香蕉或梨，并希望刮页，如果我发现其中一个词在场，但如果桃子也在文本中，我不想刮内容。我希望这有意义？据我所知，我可以使用xpath创建这样的or语句： //tbody[contains(text(), "apple&quo

浏览 2提问于2016-01-25得票数 1

回答已采纳

2回答

Scrapy‘知道’什么时候它爬行了整个网站？

、、、

当我在一个网站的单个页面上爬行时，我已经成功地使用了“美丽汤”，但是我有一个新的项目，在这个项目中，我必须检查一个大的网站列表，看看它们是否包含一个提到或链接到我的网站。因此，我需要检查每个网站的整个网站。对于BS，我只是还不知道如何告诉我的刮板，它是用一个站点完成的，所以我达到了递归限制。是从盒子里拿出来的什么东西吗？

浏览 0提问于2017-09-12得票数 1

回答已采纳

2回答

Xpath:访问嵌套的@alt变量

、、

我正在尝试为TripAdvisor构建一个Python Scrapy爬虫，并尝试为每个评论拉出气泡/星级评级。我已经看过几个在线教程，但它们似乎过时了，因为气泡图像的标签似乎已经改变了。目前，我正在尝试从TripAdvisor中提取每个气泡分级的@alt变量文本。,'ui_bubble_rating')]]/@alt") 然而，我只想从页面上的实际评论中提取@alt (在同一页

浏览 11提问于2017-07-12得票数 0

回答已采纳

4回答

用XPath、Python和Scrapy解析HTML

、、

我正在编写一个Scrapy程序来提取数据。 print "temp_list:" + str(temp_list) print "error" 它返回一个空列表，我正在努力从过去的4小时中找到这个问题的答案。我是一个新手，即使我很好地处理了其

浏览 0提问于2011-10-30得票数 3

1回答

我正在尝试从一个“行为/用户交易”网站上搜集数据，它是意大利语的，所以我会尽可能地说清楚。我也是Python和Scrapy的新手，这是我的第一个项目。如果我使用相同的URL转到相同的页面，没有“下一页”按钮，只有当您首先进入列表页面，然后单击页面链接时，它才起作用，从这里您现在可以进入其他链接。我原以为会成功的，但我错了。o=2等)，每个页面有X个链接(我还没有统计过它们)，当你在一个拍卖页面上(来自列表页

浏览 11提问于2020-09-03得票数 0

回答已采纳

2回答

使用scrapy递归地爬行站点

、、

这是我到目前为止基于编写的代码(原始代码根本不工作，所以我尝试重新构建它)from scrapy.linkextractorsimport LinkExtractorfrom scrapy.selector importHtmlXPathSelector from nettuts.item

浏览 2提问于2015-12-28得票数 8

1回答

不能从多个页面中刮除评论，它只是在(新的行距)间隔之前刮掉评论

、、、

我试图从亚马逊的产品评论，评级和其他信息。下面是相同的代码。我得到的问题是：我的代码： import scrap

浏览 3提问于2020-06-23得票数 0

2回答

如何禁用jenkins代理上的ping线程

詹金斯的一个奴隶经常倒下。找到了解决此问题的RCA。是因为平线Terminating the channel channel. at hudson.remoting.PingThread.run(PingThread.java:90) 我想禁用代理上的ping但这个解决方

浏览 0提问于2019-12-18得票数 0

回答已采纳

3回答

scrapy -解析已分页的项

、

我有一个如下形式的url：共53页，每页有~20行。 def parse(self, response): item = response.me

浏览 0提问于2012-10-12得票数 30

回答已采纳

5回答

如何用无限滚动来抓取网站？

、、、

我试过这样的代码：from scrapy.selector import HtmlXPathSelector2013-10-31 09:22:42-0500 [jabong] INFO: Dumping Scrapystats: 当我放dont_filter=True的时候，它

浏览 0提问于2013-10-31得票数 5

回答已采纳

1回答

Xpath [包含(text())]找不到元素

、

 " </div>我需要选择有“结论页”文本的div。元素的id是动态的，所以我想使用文本，但是找不到元素。我尝试了以下xpath-s： //divcontains(. )

浏览 7提问于2020-12-02得票数 0

1回答

获取第一个<p>标记的文本，并检查是否在Mocha和Selenium中的自动化测试脚本中成功登录

、

脚本首先登录，然后检查all <p>标记的文本。我想改变密码。下面给出了我的代码。的<p>部分的html部分！我需要对代码做进一步的修改。在任何情况下，如果登录失败，则登录页面具有div，其中显示文本：“无效凭据”。编辑：当我放置这段脚本

浏览 4提问于2015-08-18得票数 1

回答已采纳

1回答

Scrapy忽略了部分文本

、、、

我正在尝试使用Scrapy从网站上抓取文本，并构建一个文本数据集和它的一些功能。对于每个包含文本的元素，我将保存文本本身、元素类型和其他一些内容。在大多数情况下，它工作得很好，但它不是在嵌套元素之后刮掉文本的部分。First part of text, element: ptext: Second part of tex

浏览 4提问于2021-12-20得票数 -1

回答已采纳

1回答

如何找到用于“无效许可”的xpath！HTML代码中的文本

</strong> 请为上述代码提供xpath。我无法找到xpath。

浏览 0提问于2018-11-12得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Scrapy -从页面上的其他文本构建xpath响应时，谓词无效

相关·内容

Scrapy -从页面上的其他文本构建xpath响应时，谓词无效

如何使用Scrapy进行分页并访问每个页面上的所有链接

用Scrapy从两个页面中提取数据

无法爬行多个页面

正确的xpath返回空结果

基于TripAdvisor的抓取XHR分页

Python Scrapy，包含文本，使用xpath排除文本

Scrapy‘知道’什么时候它爬行了整个网站？

Xpath:访问嵌套的@alt变量

用XPath、Python和Scrapy解析HTML

scrapy+selenium如何抓取一个不同的页面列表？

使用scrapy递归地爬行站点

不能从多个页面中刮除评论，它只是在(新的行距)间隔之前刮掉评论

如何禁用jenkins代理上的ping线程

scrapy -解析已分页的项

如何用无限滚动来抓取网站？

Xpath [包含(text())]找不到元素

获取第一个<p>标记的文本，并检查是否在Mocha和Selenium中的自动化测试脚本中成功登录

Scrapy忽略了部分文本

如何找到用于“无效许可”的xpath！HTML代码中的文本

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐