Scrapy:使用CSS选择器排除节点/标记

Scrapy是一个基于Python的开源网络爬虫框架，用于快速、高效地从网页中提取数据。它提供了强大的工具和方法，使得开发者可以轻松地编写和管理爬虫程序。

在Scrapy中，可以使用CSS选择器来排除节点或标记。CSS选择器是一种用于选择HTML元素的语法，类似于jQuery中的选择器。通过使用CSS选择器，可以方便地定位和提取所需的数据。

要在Scrapy中使用CSS选择器排除节点或标记，可以使用以下方法：

使用:not伪类选择器：可以使用:not伪类选择器来排除指定的节点或标记。例如，如果要排除所有class为"exclude"的节点，可以使用以下CSS选择器：

:not(.exclude)

这将选择除了class为"exclude"的节点之外的所有节点。

使用其他CSS选择器组合：可以使用其他CSS选择器来组合并排除节点或标记。例如，如果要排除所有class为"exclude"的div节点，可以使用以下CSS选择器：

div:not(.exclude)

这将选择除了class为"exclude"的div节点之外的所有div节点。

使用XPath选择器：除了CSS选择器，Scrapy还支持使用XPath选择器来排除节点或标记。XPath是一种用于在XML文档中定位节点的语言。通过使用XPath选择器，可以更灵活地定位和提取所需的数据。例如，要排除所有class为"exclude"的节点，可以使用以下XPath表达式：

//*[not(@class='exclude')]

这将选择除了class为"exclude"的所有节点。

Scrapy是一个功能强大且灵活的爬虫框架，适用于各种数据抓取和处理的场景。它可以用于构建网络爬虫、数据挖掘、数据监测等应用。腾讯云提供了云服务器、云数据库、云存储等多种产品，可以与Scrapy结合使用，实现高效的数据爬取和处理。具体推荐的腾讯云产品和产品介绍链接地址可以参考腾讯云官方网站的相关页面。

页面内容是否对你有帮助？

有帮助

没帮助

Scrapy:使用CSS选择器排除节点/标记

python、scrapy

在文档和SO文章中，只有关于如何使用此命名法排除CSS类的引用： response.css("div[id='content']:not([class*='infobox'])") 然而，我想要实现的是排除一个节点，甚至是多个节点，比如<li>元素中的<span>和<div>元素。is the string I want to scrape </li>

浏览 29提问于2019-01-24得票数 0

回答已采纳

1回答

从提取的文本中删除/排除标记

python、html、css、scrapy

在使用scrapy和CSS选择器之后，我尝试从HTML中抓取一个段落。该段包含带有标记<a ....>text</a>的超链接。如果我使用response.css("p::text").get()，那么超链接就不会出现在我的文本中。如果我直接使用这段代码，如果我使用response.css("p").get()，那么我将得到包含<a>

浏览 4提问于2020-09-23得票数 0

1回答

"#“在刮伤选择器中是做什么的？

scrapy

My image 5 <br /><img src='image5_thumb.jpg' /></a> </body>我完全理解这个命令在所有<a>元素中选择文本节点response.css('a::text').getall() 本教程解释此命令选择当前选择器上下文的所有子代文本节点。response.

浏览 3提问于2020-07-02得票数 1

回答已采纳

3回答

CSS选择器还是在两个i标记之间获取信息的XPath？

css、xpath、web-scraping、scrapy、web-crawler

(我不想要美元符号或.00)我现在有我知道这是错误的，但我不知道如何解决它。

浏览 0提问于2020-07-11得票数 3

回答已采纳

1回答

response.xpath和response.css有什么区别？

python、scrapy

我试着使用以下站点学习response.xpath和response.css：for quote in response.css("div.quote"):这只会得到一个值。但是，如果我使用xpath： scrap

浏览 2提问于2018-06-02得票数 2

回答已采纳

2回答

Xpath如何获得标签名给Selector。刮痕

python、xpath、scrapy、selector

我有这个xpath，它返回一个选择器列表。[name()="h2" or name()="h3" or name()="p"]' data=u'<h3><span style="color: #000000;">No lis'> 如何获得每个选择器的标记名如何正确地使用xpath name()来获取标记名？

浏览 0提问于2018-10-25得票数 1

回答已采纳

1回答

将数据输出到CSV时出现剪贴式格式问题。确保项目数据打印在单独的行上

python、csv、scrapy、pipeline

我使用Scrapy从网站的第一页抓取信息，并将数据导出为.csv文件，如下所示：我想要获得form的输出：{[all 'Title' data], [all 'Text' data]}import scrapyimport re from

浏览 1提问于2015-10-19得票数 0

1回答

无法使用样式组件javascript刮除网站。

javascript、web-scraping、scrapy、styled-components

我的目标问题responseresponse.xpath('//h1/p')获取响应：在获取响应时，我看到了一个结构，我不能真正理解

浏览 4提问于2020-12-15得票数 0

回答已采纳

1回答

在Scrapy中使用XPath提取HTML结果失败，因为内容是动态加载的

python、html、xpath、request、scrapy

与我之前的一个问题有关，但与此不同的是，我遇到了一种情况，即Scrapy (用于Python)不会在h4标记中提取span标记。在命令行上使用scrapy shell时，有可能在某种程度上是无效的h4；如果不是，是什么导致了这一点？有趣的是，使用add_css()执行相同的任务，如下所示： thisc

浏览 3提问于2017-07-01得票数 3

回答已采纳

2回答

在Scrapy中有没有比XPath选择器更好的选择？

jquery、xpath、web-scraping、scrapy

像title said一样，在Scrapy中有没有更好的XPath选择器，可以用来轻松地选择html中的数据？我发现XPath有很高的学习曲线，它的语法有点难以使用。我觉得如果jQuery选择器可以在Scrapy中使用或合并，它可以让生活变得更容易。

浏览 0提问于2014-12-17得票数 0

1回答

即使使用正确的语法，Scrapy响应也返回“无”。

python、scrapy

我正试着把这个项目的名字放在这样的字典里： name = 'terror' for filme in response.css当我试图在Scrapy Shell上得

浏览 3提问于2022-10-31得票数 0

1回答

Python Scrapy无法从类中提取文本

python、css、python-2.7、css-selectors、scrapy

我使用了这个： sel = Selector(response) for cam in cams:我想我已经使用了正确的css选择器，但是我得到

浏览 2提问于2014-02-05得票数 7

回答已采纳

2回答

Scrapy:将HTML提取为元素内的字符串

xpath、scrapy、css-selectors、lxml

我想提取dic中的超文本标记语言。是否可以使用CSS o Xpath scrapy选择器？谢谢:)

浏览 19提问于2020-04-06得票数 0

回答已采纳

1回答

无法在scrapy中使用css选择器抓取下一个同级

python、python-3.x、web-scraping、scrapy、css-selectors

我正在尝试获取预算使用scrapy实现它的css选择器。当我使用xpath时，我可以得到它，但是对于css选择器，我就迷路了。我甚至可以在使用<code>D0</code>的情况下使用BeautifulSoup获取内容。我已经尝试过了：我使用css选择器得到的输出： <cod

浏览 16提问于2020-08-06得票数 0

1回答

如何从xpath中抓取业务名称并获取csv文件

python、scrapy

i am trying to scrape yellow page by using scrapy and python getting all other result right but notgetting the business name 尝试更改xpath，甚至尝试css选择器，但没有得到正确的结果

浏览 20提问于2020-04-05得票数 0

回答已采纳

1回答

从任意嵌套的HTML中提取所有文本

python、web-scraping、css-selectors、scrapy

我正在使用Scrapy从新闻网站中提取新闻文章的文本。我假设<p>标记中的所有文本都是实际的文章。(这不一定是一个安全的假设，但我正在使用它)为了找到所有的<p>标签，Scrapy让我使用css选择器，如下所示：问题是，一些新闻网站喜欢在他们的文章中加入很多标记</p> 在Scrapy

浏览 10提问于2017-02-07得票数 2

回答已采纳

1回答

如何检索表，排除表中的一些标签

html、scrapy、css-selectors、html-tableextract

我正在尝试从html表(Main_table)中抓取数据，使用css选择器。问题是，当我试图获取所有行(Tr)时，我从inner_table (它位于main_table内部)获得额外的行，但我不知道如何排除inner_table。我尝试了css选择器作为 response.css('.main_table-id:not([class^="inner_table"])').extract() 和 response.css<

浏览 13提问于2019-08-27得票数 0

回答已采纳

1回答

无法锻炼如何让css选择器在刮刮中刮擦

python、css、python-3.x、scrapy

我正在努力刮这个，并且我很难理解css选择器与Scrapy一起工作。css css：.css-truncate-target .messagetime-ago.css-truncate-target .message::texttime-ago::text 对不起，如

浏览 3提问于2017-12-03得票数 1

回答已采纳

2回答

摘取“纽约时报”当天的消息

python、scrapy

我最近刚开始进入Scrapy，我选择了“纽约时报”当天的单词作为第一次测试。import scrapy 2017-01-18 01:13:48 [scrapy] DEB

浏览 0提问于2017-01-18得票数 2

回答已采纳

1回答

Python Twitter scrapy，用于提取twitter关注度、关注者计数等

python、scrapy

我正在使用scrapy在twitter上提取用户信息，但我目前在使用python提取以下内容、追随者计数等方面遇到了问题。我可以成功地提取id，屏幕名称和头像等使用..user['name'] = item.xpath('.stream-item-header"]/a/img/@src').extract()[0] 不幸的是，我在从用户的“跟

浏览 0提问于2018-02-22得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Scrapy:使用CSS选择器排除节点/标记

相关·内容

Scrapy:使用CSS选择器排除节点/标记

从提取的文本中删除/排除标记

"#“在刮伤选择器中是做什么的？

CSS选择器还是在两个i标记之间获取信息的XPath？

response.xpath和response.css有什么区别？

Xpath如何获得标签名给Selector。刮痕

将数据输出到CSV时出现剪贴式格式问题。确保项目数据打印在单独的行上

无法使用样式组件javascript刮除网站。

在Scrapy中使用XPath提取HTML结果失败，因为内容是动态加载的

在Scrapy中有没有比XPath选择器更好的选择？

即使使用正确的语法，Scrapy响应也返回“无”。

Python Scrapy无法从类中提取文本

Scrapy:将HTML提取为元素内的字符串

无法在scrapy中使用css选择器抓取下一个同级

如何从xpath中抓取业务名称并获取csv文件

从任意嵌套的HTML中提取所有文本

如何检索表，排除表中的一些标签

无法锻炼如何让css选择器在刮刮中刮擦

摘取“纽约时报”当天的消息

Python Twitter scrapy，用于提取twitter关注度、关注者计数等

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐