在scrapy中使用css选择器提取href和链接

在Scrapy中使用CSS选择器提取href和链接可以通过以下步骤实现：

导入必要的模块：

from scrapy import Selector

获取HTML响应内容：

html = response.body

创建Selector对象：

selector = Selector(text=html)

使用CSS选择器提取href和链接：

# 提取所有a标签的href属性值
hrefs = selector.css('a::attr(href)').getall()

# 提取所有a标签的链接文本
links = selector.css('a::text').getall()

处理提取结果：

# 打印提取的href属性值
for href in hrefs:
    print(href)

# 打印提取的链接文本
for link in links:
    print(link)

CSS选择器的语法可以根据具体需求进行调整，例如使用类选择器、ID选择器等。在Scrapy中使用CSS选择器提取href和链接可以方便地进行网页内容的提取和处理。

推荐的腾讯云相关产品：腾讯云服务器（CVM）、腾讯云对象存储（COS）、腾讯云数据库（TencentDB）等。您可以访问腾讯云官方网站了解更多产品信息和详细介绍。

腾讯云官方网站：https://cloud.tencent.com/

用于抓取链接内内容的xpath问题

、、

我开始学习scrapy，我想知道如何在excel文件中获得每个州的学校信息。每个状态都是一个指向另一个页面的链接，我不确定如何为此编写xpath语法。请给我建议。import scrapy name = 'raiseme' allowed_domains = ['raise.me

浏览 5提问于2021-03-20得票数 0

2回答

Scrapy - CSS选择器

、

我正在尝试理解CSS选择器是如何使用Scrapy工作的。但是我绝对不明白在几个html标签中导航。例如，我试图提取div id“portefeuille_bloc”中的所有href链接：我试过这段代码，但我找不出错误所在：此外，我试图更深入

浏览 7提问于2019-12-03得票数 0

1回答

在scrapy中使用css选择器提取href和链接

、、

我正在编写一个蜘蛛来从网页中提取文本和相应的超链接。下面是我的爬虫代码： name = 'general_electiondef parse(self, response): #data = response.css</em

浏览 36提问于2021-05-12得票数 0

回答已采纳

1回答

不同相对url中的刮取液url

、、

我试图提取的pdf以及10k表单(以html格式)使用Scrapy。为了提取它们，我使用以下css选择器：most_recent = response.css("div.view_btn > a::attr(href)").getall()，它按预期返回['/Click但是pdf和html的url在每个相对的url中。刮伤怎么能得到绝对

浏览 1提问于2021-08-28得票数 1

回答已采纳

2回答

我想刮一个网站的链接。https://www.rentomojo.com/mumbai/furniture/bedroom-furniture-on-rent ? 该链接是div中的href链接。我的简陋代码是 response.css("div.col-xs-6 col-sm-4 col-mgbtm a::attr(href)").extract() 但这是行不通的。我甚至尝试过使用</e

浏览 20提问于2019-12-15得票数 1

回答已采纳

2回答

Python/Scrapy转到其他URL

、

所以我正在做一个关于scrapy的小项目，我对python和scrapy还是个新手。就像一样。我尝试使用一个基本的url : canadianlawlist.com，然后像这样添加href： products = response.xpath('//*[@class="s

浏览 21提问于2018-08-15得票数 0

2回答

使用scrapy查找正确的分页选择器

、、、、

我试着从这个论坛中提取数据： https://schwangerschaft.gofeminin.de/forum/all 我从第一页获取数据。我使用css选择器'li.selected > a::attr(href)'不幸的是，我不能从其他页面获得所有其他数据。 xpath或css选择器的正确分页路径是什么？Python： import scrapy class ForumSpide

浏览 14提问于2019-01-18得票数 0

回答已采纳

1回答

Scrapy xpath不工作--只与css-selector结合使用？

、、、、

我尝试使用scrapy抓取以下站点，并尝试使用scrapy shell - 这是基本的爬虫： import scrapy namehref-tag并尝试使用这个xpath：(但这样我只能得到"/“作为结果) >>> tmpSEC[0].xpath("//a/@href").

浏览 58提问于2021-11-16得票数 1

回答已采纳

3回答

从css节点scrapy中提取文本

、、

我正在试着从这个页面上抓取一个目录id号：from scrapy.http import HtmlResponse 使用css选择器(适用于R和rvest::html

浏览 3提问于2018-08-12得票数 2

1回答

Scarpy outoput json

我是新手，所以如果只有一个我应该检查的链接，这可能会有帮助(我已经花了相当多的时间在谷歌上搜索，仍然在努力)，尽管代码更正技巧更受欢迎：)。我正在编写scrapy教程()，用原始代码输出一个很长的列表，其中包括字段名称和类似" field : output“的输出，其中空格和找到的项都会出现。在本例中，作为实验，我只想在URL中包含字符串"Jane“时返回URL (例如，/author/Jane

浏览 5提问于2018-08-21得票数 0

回答已采纳

1回答

从一个页面中抓取多篇文章，每篇文章都有单独的href

、

我已经尝试使用规则和链接提取器，但它不能导航到下一页和提取。): body = response.css('.posts-list-post-content a ::attr(href)').extract() i

浏览 1提问于2019-07-09得票数 1

2回答

在Scrapy中有没有比XPath选择器更好的选择？

、、、

像title said一样，在Scrapy中有没有更好的XPath选择器，可以用来轻松地选择html中的数据？我发现XPath有很高的学习曲线，它的语法有点难以使用。我觉得如果jQuery选择器可以在Scrapy中使用或合并，它可以让生活变得更容易。

浏览 0提问于2014-12-17得票数 0

1回答

从Scrapy* Spider响应中选择元素*

、、、

谁能帮我找出如何从这个用Scrapy抓取的page中提取链接？我已经按如下方式修改了爬行器代码，但我正在努力弄清楚如何使用Scrapy选择器来只生成我想要的链接。(url=url, callback=self.parse) links = response.css("ul").getall()

浏览 15提问于2020-01-10得票数 0

回答已采纳

2回答

抓取CSS选择器

、

我正在学习如何使用刮伤，但我有一些问题。在网上教程之后，我编写了这段代码，以了解更多关于它的内容。import scrapy name = 'brick_spider' } NEXT_PAGE_SELECTOR = '.next a ::attr(

浏览 4提问于2017-03-16得票数 0

回答已采纳

1回答

使用XPATH刮取属性值？

、、、

我刚刚开始使用XPath进行html抓取，所以我对语法有点困惑。我试图从以下源代码片段中提取url： </a><body> <

浏览 2提问于2017-06-25得票数 1

回答已采纳

1回答

从任意嵌套的HTML中提取所有文本

、、、

我正在使用Scrapy从新闻网站中提取新闻文章的文本。我假设<p>标记中的所有文本都是实际的文章。(这不一定是一个安全的假设，但我正在使用它)为了找到所有的<p>标签，Scrapy让我使用css选择器，如下所示：问题是，一些新闻网站喜欢在他们的文章中加入很多标记，比如： Senator <a

浏览 10提问于2017-02-07得票数 2

回答已采纳

2回答

提取所有分页链接到有刮痕的网页？

、、

import scrapy name = 'quotes' def parse(self, response): next_page_url = response.css("

浏览 8提问于2017-12-11得票数 1

回答已采纳

1回答

使用具有特定css类的scrapy提取链接

、、、、

使用Scrapy，我如何使用LinkExtractor，它只在下面的链接中提取特定的CSS？看起来我可以使用XPath，但我更喜欢使用CSS选择器。我是否需要编写一个自定义的LinkExtractor来使用CSS选择器？

浏览 5提问于2015-06-17得票数 1

回答已采纳

1回答

无法选择Xpath中的特定元素

、、

我当前所做的是查找属于具有类值category-navigation--link的"a“标记的所有"href”值response.xpath("//a[@class='category-navigation--link']/@href") 这可以很好地给出页面中的大多数链接，除了这些&qu

浏览 1提问于2019-03-12得票数 0

1回答

选择器属性在ItemLoader对象中的用途和用途是什么？

、、、

当使用选择器或响应实例化时，它支持使用选择器从网页中提取数据。Parameters item (scrapy.item.Item) --使用对add_xpath()、add_css()或add_value()的后续调用填充项实例。选择器(选择器对象)-使用add_xpath()、add_css()、replace_xpath()或replace_css()方法<e

浏览 4提问于2022-09-12得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在scrapy中使用css选择器提取href和链接

相关·内容

用于抓取链接内内容的xpath问题

Scrapy - CSS选择器

在scrapy中使用css选择器提取href和链接

不同相对url中的刮取液url

Scrapy查询返回一个空列表

Python/Scrapy转到其他URL

使用scrapy查找正确的分页选择器

Scrapy xpath不工作--只与css-selector结合使用？

从css节点scrapy中提取文本

Scarpy outoput json

从一个页面中抓取多篇文章，每篇文章都有单独的href

在Scrapy中有没有比XPath选择器更好的选择？

从Scrapy* Spider响应中选择元素*

抓取CSS选择器

使用XPATH刮取属性值？

从任意嵌套的HTML中提取所有文本

提取所有分页链接到有刮痕的网页？

使用具有特定css类的scrapy提取链接

无法选择Xpath中的特定元素

选择器属性在ItemLoader对象中的用途和用途是什么？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐