无法使用xpath从href标记中提取文本

文章/答案/技术大牛

发布

1回答

、、

我正在尝试使用下面的xpath从this page中提取趋势名称 //div[@class ='table-responsive']/table[@class = 'table table-stripedtable-hover dataTable no-footer']/tbody/tr/th/a/text() 在尝试使用web浏览器时，它会给出50个结果。但是使用以下

浏览 14提问于2020-12-17得票数 1

回答已采纳

2回答

将嵌套同级节点中的文本与父节点中的文本连接起来

、

我尝试从同级节点中提取文本，并将其与父节点中的文本连接起来。如何在xpath中做到这一点？下面显示的超文本标记语言中有几个<sup> and <sub>的实例。class="qty"> "⁄" </span>

浏览 14提问于2019-05-02得票数 0

4回答

如何使用XPath提取href？

、、、

HTML结构如下： <a target="_top" href="someurl"> <i class="dui-icon -favorite"></i> <

浏览 1提问于2018-03-22得票数 0

1回答

当标记为@href时，xpath text()返回"None“

、

我正在尝试提取HTML标记中包含的文本，以便构建一个python defaultdict。要做到这一点，我需要清除所有xpath和/或HTML数据，并只获取文本，这是我可以用/text()完成的，除非它是一个href。"):<Selector xpath='//*[self::h3 or self::p or self::

浏览 1提问于2021-01-29得票数 1

回答已采纳

2回答

如何使用Selenium和Python在HTML中定位引用文本的元素

、、、、

我尝试使用XPath contains来查找元素。driver.find_element_by_xpath("//*[contains(text(), 'Find a Doctor')]").get_attribute('href') 这是HTML在一个特定<a href="/search/custom.asp?id=2671" tabindex"-1">

浏览 0提问于2019-04-04得票数 1

2回答

在a标记中提取文本/参数

、、、、

我有以下源代码，试图从中提取我想要的信息： <a href="#" data-page="2" title31"信息中提取，这是最后的标记本身。我可以使用以下代码获取标记： response.xpath('//div[@id=&quo

浏览 4提问于2014-08-04得票数 0

回答已采纳

3回答

有时一个页面会有一个链接到另一个HTML页面，其中有实际的PDF链接，所以如果在第一页上找不到实际的PDF，我希望它自动查找在链接文本中有" PDF“的链接，然后搜索真正的PDF链接的HTML页面。我知道我也许可以通过谷歌的文件类型搜索来实现类似的结果，但对我来说这似乎是“作弊”:)我宁愿学习如何在代码中做到这一点，但我不确定从哪里开始。我对XElement之类的XML解析比较熟悉，但是我不确定如何从HTML页面(或其他格式？)中获取链接。有谁能给我指个方向吗？谢谢!

浏览 4提问于2011-03-12得票数 1

回答已采纳

2回答

在span标记下的所有<a>标记中使用scrapy

、、

我正在使用scrapy从web上提取数据。我正在尝试提取span标签下的锚标签文本，如下所示：</span>t = sel.xpath('//div[starts-with(@id,"size_selection_container")]/span[2]')for x in t

浏览 0提问于2016-11-18得票数 0

1回答

如何从<b>中提取潜台词

、、、、

中，因为html有几个具有类似结构、标记和重复数据的部分：现在，我想提取项目及其标识，并将它们写入文件中提取该项目对以下方面没有问题： item = sectionA.xpath('.//div/@class[contains(.,"ITEM&quo

浏览 1提问于2017-06-14得票数 1

回答已采纳

3回答

Scrapy根据文本选择特定链接

、、

<div class="paginationControl"> <a href="/en/overview/0-All_manufactures/0-All_models.html?page=2&powerunit=2&quo

浏览 0提问于2012-08-27得票数 11

回答已采纳

2回答

带java的XPath :从元素(包括文本窗体子元素)中检索文本

<div id="article-entry">This is a paragraph for text extraction using .</p> 我希望使用xpath从标记中</em

浏览 4提问于2014-08-05得票数 1

回答已采纳

2回答

Xpath: html中两个元素之间的所有内容

、、、、

我正在尝试使用xpath来获取两个节点之间每个节点的文本，但这有点棘手。</i></p>我需要该段落中的所有文本，这些文本恰好位于表和div之间，这是我目前为止的查询xpath：&

浏览 2提问于2021-06-18得票数 1

回答已采纳

1回答

使用带有抓取命令的基本Spider类- parse()可以多次输出吗？

、

().extract(); item['repository_link'] = response.xpath('//table[@class=

浏览 0提问于2017-04-17得票数 0

1回答

使用XPATH从html标记中提取数据

、、、

使用xpath子字符串提取html标记中的日期我尝试在xpath中使用子字符串。<span id="latestReplyLine"><a href="#comment-965609" class="lastScroll js-latest-reply">Latest reply</a> on May 22, 2019 by John Stolt

浏览 0提问于2019-05-22得票数 0

回答已采纳

2回答

如何跳过父节点内的子节点(Xpath)

、

Join them; it only takes a minute: <br></div> 我有上面的HTML标记我需要从父标记</em

浏览 0提问于2017-05-27得票数 0

4回答

如何从给定的锚标记中提取标题

、、、、

如何获得xpath以从此html行提取标题。没有任何有用的东西，因为cssClass会随着时间的推移而改变，所以代码可能会中断。我认为，由于href和这个标记中的文本都是我想要提取的名称，所以可能使用相等条件。<a class="FPmhX notranslate nJAzx" title="ceorackz_adpp" href="/ceorackz_adpp&#x

浏览 6提问于2019-06-22得票数 0

回答已采纳

1回答

XPath -如何从循环中的当前节点访问锚文本和href

、、、

我和XPath一起使用Scrapy。在一个场景中，我需要获得锚元素的href和text。 anchors = response.selector.xpath("//table[@class='style1']//

浏览 2提问于2015-01-02得票数 1

回答已采纳

1回答

在iOS中使用Xpath查找P标记中的所有元素

我正在尝试为应用程序解析一些超文本标记语言(客户端希望解析超文本标记语言，而不是使用Web View)，并且我正在使用从另一个问题中找到的简单代码以及用于搜索的XPath格式。我需要从源HTML文件中提取的是一个p标记，但在p标记中可能还有其他几个节点(如href'，em，br“等)。我想要的整个p标记也包含在div类中</em

浏览 1提问于2011-06-29得票数 3

回答已采纳

2回答

使用Scrapy无法使用xpath从响应html中提取数据，原因是名称空间

、、、、

我使用scrapy和xpath从网页中提取数据。我的html响应如下，我想提取高亮显示的"a“标记中的href链接。通常我使用response.xpath('//a@id="jr-alt-sw"/@href')获取数据，但在这里，我认为由于名称空间问题，结果是空的。如果存在命名空间，如何获得数据。

浏览 4提问于2020-03-18得票数 0

1回答

Xpath:从href标记中提取链接

、、

我正在编写以下网页，并希望在每个酒店页面上搜索数据： <a class="hotel_name_link url" href=" /hotel/ch/hirschen-za1-4rich.de.htmlspan> <span class="invisible_spoken">

浏览 7提问于2020-02-25得票数 0

回答已采纳

点击加载更多