Python lxml xpath -返回所有标签，而不是选定的标签

文章/答案/技术大牛

发布

2回答

、、、、

这是我的第一篇文章，所以Hello World！我正在使用'requests‘和'lxml’用Python3写一个小的网络爬行器。我已经做了一个，这是不同网站的第二个项目。我遇到了奇怪的结果- xpath方法返回所有标记，而不是选定的DIVs。更糟糕的是，输出乘以"offer-detail“DIV的</em

浏览 6提问于2017-01-08得票数 1

回答已采纳

2回答

如何使用xpath* & lxml获取节点的完整内容？*

、、、

我正在使用lxml的xpath函数来检索网页的一部分。我正在尝试获取<font>标记的内容，该标记包含其自身的html标记。lxml对象(<Element font at 0x101fe5eb0>)返回的。(例如something something <Element a at 0x102ac2140> something) 有没有办法使用纯XPath查询来获取<font&g

浏览 0提问于2010-11-07得票数 5

回答已采纳

1回答

Python -使用lxml Xpath特性保留一些HTML标记

、、、、

我正在编写一些使用LXML Xpath特性的HTML解析器。它似乎工作得很好，但我有一个主要问题。如果我运行这个Python代码； x = lxml.html.fromstring("...html text...

浏览 3提问于2012-09-05得票数 2

回答已采纳

2回答

使用Python和etree解析XML

、、、

我想从下面的Open Street Map XML文件中提取包含一个带有键‘way’的标签和一个特定值的所有路元素： <tag k="route" v="bus"/> <&#x

浏览 3提问于2015-04-20得票数 0

1回答

无法从LXML获取<a>标记

、

我正在用Python抓取城市字典中的顶级定义、示例、作者和喜欢/不喜欢的单词/短语。我使用lxml访问站点并提取xml数据。我继续调用对XPath数据的请求，并将其存储在树中。但是，当它返回时，它不会返回预期的结果。它跳过一些单词，即有标签的单词。我正在寻找它的返回值：The best thing that has ever happened

浏览 11提问于2021-05-02得票数 2

回答已采纳

2回答

获取DOM树中元素的XPath？

、、、、

我在python中使用lxml实现来进行和XML解析。设置一个解析器，如并从HTML源返回一棵树(字符串)根据lxml文档，这应该返回DOM树(XML) 我想找到某些元素的标签，如"a"，&q

浏览 0提问于2014-06-02得票数 2

回答已采纳

1回答

XPath/Python -如何在<div>中获取不同的html标记和文本

、、

content = requests.get(s) titoli = tree.xpath('/html/body/form/table[3]/tr/td/table[5]/tr/td/table[1]/tr/td[2]/h3/text()') par = tree.xpath('/h

浏览 1提问于2015-08-31得票数 4

回答已采纳

1回答

使用LXML获取所有HTML元素

、、、

我正在尝试解析我的超文本标记语言文档中的一个大的div标记，并且需要在div中获得它的所有超文本标记和嵌套标记。我的代码：print("The tags inside the target div are")但它会打印： [<Element div at

浏览 12提问于2017-02-17得票数 0

1回答

使用python中的xpath查询从以下具有子节点的节点中选择整个文本

、、、、

我想在python中提取具有a tag的XPath的以下节点的内容。到目前为止，我成功地提取了没有内部标签的内容。问题是，如果下面的节点中有一个子节点，则我的方法无法工作。我正在使用lxml包，下面是我的代码： reference_titles = root.xpath("/&#x

浏览 0提问于2018-07-05得票数 1

回答已采纳

2回答

查找背景图像是否用于任何带有内联样式的html标记。

、、、、

如何找到所有有背景图像的标签？没有使用样式表。所有样式都是在标签中内联的。from lxml import html tagWithBackgrounds= doc.

浏览 4提问于2012-08-02得票数 0

回答已采纳

2回答

<head>中的lxml和<noscript>

、、、

我在lxml中遇到了一个奇怪的bug：>>> root.xpath(&#x

浏览 27提问于2015-09-07得票数 3

1回答

如何从命令行列出SVN标签及其修订版

、、、

我需要不同的标签修订。到目前为止，我在SmartSVN中使用了标记浏览器。然而，它是相当慢的。svn log /path/to/tag -v --stop-on-copy 有没有一个svn命令来只获取标签及其版本？

浏览 0提问于2013-07-15得票数 27

回答已采纳

2回答

Python + lxml:如何查找标签的命名空间？

、、

我正在使用python + lxml处理一些HTML文件。其中一些已经用MS Word编辑过了，例如，我们有写成<o:p>&nbsp</o:p>的<p>标签。另一方面，<p>很整洁，在处理HTML文件之后，我们看到所有的<o:p>标记都被更改为正确的lxml标记。不幸的是，在这种整理之后，两个浏览器现在都会在所有nbsp的周围显示换行符，这

浏览 3提问于2011-09-05得票数 2

2回答

使用xpath从链接标记中提取超链接

、、

将html视为<title>this is the title</title></item>但这是在返回一个空列表。

浏览 5提问于2015-04-10得票数 0

回答已采纳

2回答

我正在寻找与Python的lxml库等效的Clojure/Java。我过去曾大量使用它来解析各种html (作为BeautifulSoup的替代品)，而且能够使用同样的elementtree api for xml也很棒--真的是一个值得信赖的朋友！关于lxml lxml是一个基于libxml2的xml和html处理库。它可以很好地处理损坏的html页面，因此非常适合屏幕抓取任务。它还实现

浏览 2提问于2009-10-14得票数 10

回答已采纳

1回答

如何在python中使用lxml获取img的src？

、

我尝试用lxml从python中的image标签解析src，但是当我尝试输出imageurl时，我得到了以下结果：下面是我的代码：imageUrl = xhtml.xpath('//img[@alt="something"]')

浏览 0提问于2012-11-12得票数 4

回答已采纳

2回答

使用请求和lxml的html抓取在location>处生成<元素x，而不是位于该节点的文本

、、、、

我正在创建一个Python程序，使用lxml和请求从网站抓取文本。但是，当我导航到正确的节点时，我的代码生成一个元素标签，而不是位于该节点的文本。# import packagesimport requests ficUrl = 'https10847788/' p

浏览 18提问于2019-04-21得票数 0

1回答

使用XPath或lxml基于标记选择特定的子节点

、、、、

我有一个类似于此的XML文件。我想根据子节点的标记来选择它 <age> <Tom>22</Tom> <Mark>21</Mark></list> 是否有选择"Tom节点“的方法，例如，从”年龄节

浏览 2提问于2016-05-13得票数 2

回答已采纳

4回答

在xpath中使用contains(text()，)时如何获取同级

、

我今天被介绍了xpath，它看起来非常强大，但经过相当多的搜索，我还没有找到在使用contains时如何检索兄弟项(通过following sibling和preceding sibling)： <h2>A h2 tag</h2></html> import <e

浏览 0提问于2012-02-10得票数 3

回答已采纳

1回答

相当于xpath，Lxml的Findall

、、、、

我正在提取有关标签的文本，我需要将它们以列表形式w.r.tp标记的形式提取出来。我的xpath表达式如下：inserted_list_1=[] inserted_list_1.append(

浏览 4提问于2014-10-01得票数 3

回答已采纳

点击加载更多