文章/答案/技术大牛

发布

使用Parsel选择器提取类名的内容时绕过em标记

在使用Parsel选择器提取类名的内容时，有时会遇到需要绕过特定标签（如）的情况。以下是解决这个问题的基础概念、方法以及应用场景：

基础概念

Parsel是一个Python库，用于解析HTML和XML文档，并提供了类似于jQuery的选择器语法来提取数据。选择器可以精确地定位到页面中的特定元素。

方法

要绕过标签并提取其父元素中的类名内容，可以使用Parsel的CSS选择器或XPath表达式。以下是两种常见的方法：

使用CSS选择器

from parsel import Selector

html = '''
<div class="container">
    <em>忽略这个</em>
    <span>提取这个</span>
</div>
'''

selector = Selector(text=html)
result = selector.css('.container > *:not(em)::text').getall()
print(result)  # 输出: ['提取这个']

使用XPath表达式

from parsel import Selector

html = '''
<div class="container">
    <em>忽略这个</em>
    <span>提取这个</span>
</div>
'''

selector = Selector(text=html)
result = selector.xpath('//div[@class="container"]/*[name()!="em"]/text()').getall()
print(result)  # 输出: ['提取这个']

应用场景

这种方法在处理网页内容时非常有用，特别是在以下场景中：

数据清洗：从复杂的HTML结构中提取所需的数据。
内容提取：从新闻网站、博客或其他网页中提取文章内容。
自动化测试：验证页面元素的显示和隐藏逻辑。

可能遇到的问题及解决方法

问题：选择器无法匹配到目标元素

原因：可能是选择器语法错误，或者目标元素的结构发生了变化。
解决方法：检查选择器语法是否正确，并确保目标元素的结构与预期一致。可以使用浏览器的开发者工具来调试选择器。

问题：提取的内容包含不需要的空白字符

原因：HTML中的空白字符或换行符可能会影响提取结果。
解决方法：在提取内容后，使用字符串处理方法（如strip()）去除多余的空白字符。

参考链接

通过以上方法，你可以有效地绕过标签并提取所需的类名内容。

页面内容是否对你有帮助？

有帮助

没帮助

使用Parsel选择器提取类名的内容时绕过em标记

、、、

我正在尝试提取类名的内容。如何提取所有内容，包括'em‘标记内和'em’标记之后的内容？如下图所示： ?/*[@class ='st']").extract() 输出1： >> <span class="f&

浏览 44提问于2019-03-25得票数 2

回答已采纳

1回答

从嵌套的HTML中提取文本内容，同时排除一些特定的标记；

、、、、

我正在尝试从具有嵌套内容的HTML标记中提取文本内容。我从另一个相关的问题中拿出了这个例子，这个问题可以看到。>>> from parsel import Selector Senator <a href="/people/senator_whats_their_name

浏览 3提问于2019-11-17得票数 1

回答已采纳

1回答

从任意嵌套的HTML中提取所有文本

、、、

我正在使用Scrapy从新闻网站中提取新闻文章的文本。我假设标记中的所有文本都是实际的文章。(这不一定是一个安全的假设，但我正在使用它)为了找到所有的标签，Scrapy让我使用css选择器，如下所示：问题是，一些新闻网站喜欢在他们的文章中加入很多标记</

浏览 10提问于2017-02-07得票数 2

回答已采纳

3回答

CSS导入重写自己的样式

在我的vue项目中，我使用了引导程序(5.0)和google字体的字体。是否有任何方法确保连续读取screen.css文件？

浏览 6提问于2022-03-07得票数 2

1回答

Angular 4-从scss文件中按名称读取规则

、、

我需要通过类选择器从.scss文件中提取一个规则，以显示在Angular应用程序ui上，但是到目前为止，我还没有找到一个好的.scss解析器，我可以使用它来按名称获取类规则。例如:如果我传递类选择器name= 'custom- class '，我需要括号中的内容，很简单。.custom-class { text-decoration: underline;

浏览 2提问于2018-09-11得票数 1

1回答

scrollTop不支持-webkit-overflow-scrolling: touch

、、、、

我有一个用Phonegap构建的单页面应用程序，我在使用iOS设备(不是安卓)时遇到了问题：如果我导航到一个不同的页面，并且我刚刚来自的视图有scrollTop //38，它将保持相同的scrollTop //38，因为我只改变了page中的内容。因此，我将使用上面的jS来编辑顶部

浏览 0提问于2014-07-12得票数 4

1回答

我正在尝试在Firefox中运行一些依赖于加载扩展的javascript代码的功能测试。在Chrome中，我可以通过告诉浏览器启动器使用--load-extension=<path>启动Chrome来做到这一点。我的第一个尝试是尝试使用-profile <path>命令行开关使用自定义配置文件启动火狐，但当尝试对火狐配置文件扩展元数据进行反向工程时，它看起来有一些绝对路径会使配置文件不可移植(即我无法将其签入git有没有人知道解决这个问题

浏览 2提问于2015-04-16得票数 1

1回答

除了在本地iframe中加载数据之外，还有其他实现可视化web刮刀的方法吗？

、、

我看到了的视频，我在考虑如何实现这样一个工具。基本上，有了一个web应用程序，在其中输入一个URL，它就会加载(就像你已经将它加载到一个独立的浏览器选项卡中)，然后你就可以点击页面中的元素，然后直观地选择你想要提取的数据。我现在的一个想法是：将路由嵌入到数据选择页的iframe中，以绕过

浏览 3提问于2016-09-01得票数 4

回答已采纳

3回答

如何使用cheerio获取具有不同类的元素？

、、、、

我是刮必应搜索结果使用节点和打招呼。我需要从两个具有不同ID的列表中获取所有的href值。如何在一条语句中从这两个列表中获取所有标记？我试过了但没成功。在第一个列表中，我不想使用类"b_pag“的li标记。我怎么能为它写一个选择器呢？就像没有条件什么的。Update2 :我想忽略整个<li class="b_pag">标记，但是我在这里和其他地方找到的

浏览 2提问于2019-02-27得票数 3

4回答

CSS中的“大于”或">“字符是如何使用的？

、

我在CSS文件中见过这个字符很多次，但我不知道它是如何使用的。有没有人可以给我解释一下，并展示它们在简化页面样式方面是如何有用的？

浏览 3提问于2009-04-14得票数 177

回答已采纳

1回答

Jsoup:选择具有单个类的元素

、

我正在解析一个网站中的一些表，具体而言，我试图按类名提取以下单元格：我使用标准的Jsoup选择器来提取带有类的标记，如下所示：Elements cells = doc.select("td.text_bold"); 问题是，还有其他单元格也被选中，因为它

浏览 1提问于2013-12-11得票数 0

回答已采纳

3回答

如何从Scrapy选择器中提取原始html？

、、

我使用response.xpath('//*')re_first()提取js数据，然后将其转换为python原生数据。问题是提取/重新引用方法似乎不能提供一种不引用html的方法。原始html：提取输出：将此输出转换为json将不起作用。绕过它

浏览 0提问于2016-01-20得票数 7

回答已采纳

2回答

如何从html标记中提取类名

、、

我正在尝试从标签中提取第二类名称。到期的xidel文档真的很差。我不明白如何使用函数filter()或contains()，并将标记与类名"userstatus“匹配，并提取第二个类名。目前我有这种情况，但当一个参数包含word用户状态时，我无法告诉XIDEL工具将span标记与类匹配。status&qu

浏览 5提问于2016-01-04得票数 1

回答已采纳

2回答

使用th、td、col分配表列宽度的最佳方法

、、、

使用以下方法分配列宽度的最佳方法是什么：<col> <th> <td> 优点和缺点是什么？

浏览 4提问于2016-05-10得票数 1

回答已采纳

3回答

我应该让我的CSS更容易阅读还是优化速度

、

当我在一个小网站上工作时，我决定使用PageSpeed扩展来检查他们是否可以做一些改进，以使网站加载更快。然而，当它告诉我使用CSS选择器是“低效的”时，我非常惊讶。我总是被告知应该尽量少使用HTML类属性，但是如果我正确理解了PageSpeed告诉我的内容，那么浏览器直接与类名进行匹配要高效得多。我通常会这样标记我的CSS： #mainContent p.pro

浏览 0提问于2010-05-11得票数 1

回答已采纳

1回答

nightwatch selenium命令"elements“返回有关第一个参数的错误，即使我传入css选择器或xpath表达式也是如此

、、、

我正在使用nightwatch和selenium进行自动化测试。我尝试使用selenium命令‘element’，该命令接受css选择器或xpath作为第一个参数，但一直收到以下错误：我的用法如下： &

浏览 1提问于2014-09-20得票数 5

2回答

jQuery选择器(不排除)：不

我正在尝试使用jquery选择器将事件绑定到页面上的所有内容，但给定类除外(请参见) 当我这样做时，忽略了:not子句。有人知道这是为什么吗？我唯一可以绕过它的方法是使用一个单独的jquery子句来反转"*“所应用的内容。

浏览 4提问于2013-09-26得票数 0

回答已采纳

4回答

使用哪个选择器？

、、

我想通过js访问input或input标记的类，作为选择器，这样我就可以通过键盘箭头访问下一个input元素。通过提及类名，它是不可访问的，但是在删除除输入标记之外的所有标记并将“输入”作为选择器之后，该代码可以工作，如下面的所示<em

浏览 0提问于2014-07-25得票数 2

11回答

在CSS中使用HTML标签名、类或in？

在为页面设计HTML和CSS时，应该在什么时候使用是否有指引或建议？答案摘要，也是

浏览 10提问于2009-09-15得票数 11

回答已采纳

1回答

仅在当前scrapy中搜索xpath

、、

使用Scrapy，我提取了如下的选择器(为了可读性，我在这里省略了其他标签)。span标记的一个实例，其类值为"severity-list__item-text“。但是，整个页面包含30个这样的内容。当我写下这篇文章时： >>> l = row.xpath('//span[@class="severity-list__item-text"]

浏览 0提问于2021-02-27得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用Parsel选择器提取类名的内容时绕过em标记

基础概念

方法

使用CSS选择器

使用XPath表达式

应用场景

可能遇到的问题及解决方法

问题：选择器无法匹配到目标元素

问题：提取的内容包含不需要的空白字符

参考链接

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐