如何在Python中提取文本，包括内联元素和该HTML页面元素的xpath

、、、

我正在做一个Django项目，我需要提取所有包含文本的元素和该元素的xPath。例如： <html> <title> </title> <div> <section<

浏览 7提问于2020-12-01得票数 0

2回答

仅剪贴式正文文本

、、、

我尝试使用python Scrapy从正文中抓取文本，但还没有成功。希望一些学者能够在这里帮助我从<body>标记中抓取所有的文本。

浏览 1提问于2011-03-22得票数 9

回答已采纳

1回答

使用Selenium Python从CSS属性中提取文本

、、、

我有一个Selenium Python无法识别的输入标记html元素(不是因为等待)。因此，在一个带有表单(名称为Form1)的网页上，我想提取其中一个字段中的文本。xpath：/html/body/form/div[9]/input[1]时，完整的xpath如下所示 HTML元素 ? :当

浏览 33提问于2021-06-25得票数 1

2回答

使用DOMDocument通过id提取和打印html元素

、

我想从网页中提取几个表，并将它们显示在我的页面中我打算使用正则表达式来提取它们，但后来我看到了DOMDocument类，它看起来更清晰，我在stackoverflow中查看了一下，似乎所有的问题都是关于获取内部文本或使用循环来获取元素的内部节点我现在想知道如何通过id来提取和打印html元素。$html = file_get_contents(

浏览 0提问于2012-06-27得票数 2

回答已采纳

1回答

使用lxml和xpath从python ElementTree中提取多个值

、、、

我几乎可以肯定地做了这个可怕的错误，我的问题的原因是我自己的无知，但是阅读python文档和示例是没有帮助的。 <div class='copy'> </div>我的目标是从'title‘和'co

浏览 4提问于2013-05-24得票数 2

回答已采纳

2回答

selenium抓取在前几个元素后返回空字符串

、、、

我正在使用python中的selenium抓取一个网站。xpath能够找到包含搜索结果的20个元素。但是，该内容仅对前6个元素可用，其余元素为空字符串。结果的所有页面都是如此results = driver.find_elements_by_xpath("//li[contains(@class

浏览 3提问于2017-03-03得票数 3

2回答

Python: Selenium驱动程序find_elements_by_xpath:问题

、、、

我想通过使用selenium驱动程序包从不同的页面中提取元素。我使用find_elements_by_xpath通过它们的文本识别目标元素。这是我试图通过使用它的文本找到的元素： x = """<p align="left"><font face="Arial" color="#439

浏览 2提问于2020-08-24得票数 1

回答已采纳

1回答

如何使用xpath定位器访问特定或所有文本元素？

、、

目前使用Python和Selenium来抓取数据，导出到CSV，然后根据需要进行操作。我很难掌握如何构建xpath语句来访问动态生成的页面上的特定文本元素。下面的语句允许我提取"Flower“类别下的所有标题(某种程度上)，但我无法访问该产品中的所有子文本元素，只能访问标题的一个奇怪变体。xp

浏览 14提问于2021-05-05得票数 0

回答已采纳

1回答

除同一行外，HTML标记等效

、、

根据定义，HTML <p>标记是“块”元素，这意味着每个<p>元素占据自己的行。这与“内联”元素相反，其中超过一个元素可以占据同一行。<p>元素的目的是将文本的“段落”括起来，这是一种将文本封装在不在其他HTML元素(如<input>或<cite> )中</em

浏览 0提问于2013-08-05得票数 0

回答已采纳

2回答

Selenium通过xpath获取文本

、、、

我试图从网页中复制一个文本元素，并将其打印在我的控制台中，作为对未来项目的测试。Please use find_element(by=By.XPATH, value=xpath) instead driver.find_element_by_xpath("/html/body/Please use find_element(by=By.XPATH, value=xpath)

浏览 14提问于2022-03-24得票数 0

1回答

当元素的顺序改变时通过xpath提取元素(甚至相对的xpath也在改变)

、

我正在尝试用下面的Xpath从一个网页中提取文本使用python代码 updatetime=driver.find_element_by_xpath('//*[@id="twocols"]/tbody/tr&#x

浏览 0提问于2019-08-07得票数 0

1回答

清理.html报告并导出为.txt文件

、、、、

我是python的新手，所以如果我问了一些简单的问题，请先原谅我。我在一个文件夹中存储了三千个.html文件(所有新的产品描述都是从可信的网站下载的)，现在我想逐个清理这些文件(即只保留内容/产品描述并删除标签等)，然后将每个内容存储为一个.txt文件。在阅读了这里发布的一些Q&之后，我认为我需要使用lxml包而不是漂亮的汤，因为所有的.html文件都来自一个高度可信的</

浏览 4提问于2015-08-06得票数 0

1回答

使用XPath，选择没有文本兄弟的节点

、、

我想用python3和lxml提供的HTML解析器提取一些HTML元素。<!/usr/bin/env python3from lxml import html在浏

浏览 2提问于2018-02-26得票数 2

回答已采纳

1回答

IE10给了我错误1509，不匹配的结束标签

、

在IE10中，我创建了以下网页，并得到一个不匹配的标记错误：<html><title>Test</title><body> <div>test.php，第12行字

浏览 2提问于2013-06-29得票数 4

2回答

使用XPath* (包括标记)在标记之间提取文本*

、

我想提取<span>标记之间的部分。为此，我使用XPath：然而，这将提取包括<span>在内的所有内容。和。/span[@class="st"]/text() 将返回一个包含两个文本元素的列表。一种含有"In Tim“的。另一种“：政治人”。不<em

浏览 2提问于2014-06-02得票数 10

回答已采纳

1回答

如何从另一个同级元素中提取一些元素(n)之外的xpath同级元素？

、、、

我一直在解析github文档页面的HTML，并在此过程中了解了一些xpath。然后，使用，我从xpath语句

浏览 0提问于2018-04-13得票数 0

回答已采纳

1回答

如何为这个html元素找到一个可靠的XPath* (类型是文本，类是已知的，没有id存在)？*

、、、、

该元素类似于：元素没有id。在text类中只有一个information类型元素。我希望能够使用casperjs在phantomjs之上输入文本到这个html元素中。从工具获得的XPath类似于： //*[@id="abcid"

浏览 1提问于2014-07-02得票数 0

回答已采纳

2回答

如何用XPath提取包含< not编码的文本&lt；

、、、

我想使用Scrapy从html页面中提取一些文本。<div></div>有没有办

浏览 3提问于2013-11-13得票数 1

回答已采纳

1回答

在一个span之后，用Python中的Selenium复制下一个<a>.</a>链接中的文本

、

对于汉字字典网页列表，我需要提取<a>...</a>元素中显示在<span>Radical:</span>元素之后的文本。find=木">木</a>但是变量ax对于不同的页面会发生变化，这取决于包含

浏览 2提问于2020-04-04得票数 0

回答已采纳

1回答

使用getNodeValue()获取文本和内联元素

、、

我正在尝试理解关于XPath in Java ()的非常棒的教程。从元素中获取文本字符串的解释非常好。但是我找不到获取文本和内联元素的方法。对于本教程中的XML，我添加了一个内联元素：

浏览 0提问于2014-06-28得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

仅剪贴式正文文本

使用Selenium Python从CSS属性中提取文本

使用DOMDocument通过id提取和打印html元素

使用lxml和xpath从python ElementTree中提取多个值

selenium抓取在前几个元素后返回空字符串

Python: Selenium驱动程序find_elements_by_xpath:问题

如何使用xpath定位器访问特定或所有文本元素？

除同一行外，HTML标记等效

Selenium通过xpath获取文本

当元素的顺序改变时通过xpath提取元素(甚至相对的xpath也在改变)

清理.html报告并导出为.txt文件

使用XPath，选择没有文本兄弟的节点

IE10给了我错误1509，不匹配的结束标签

使用XPath* (包括标记)在标记之间提取文本*

如何从另一个同级元素中提取一些元素(n)之外的xpath同级元素？

如何为这个html元素找到一个可靠的XPath* (类型是文本，类是已知的，没有id存在)？*

如何用XPath提取包含< not编码的文本&lt；

在一个span之后，用Python中的Selenium复制下一个<a>.</a>链接中的文本

使用getNodeValue()获取文本和内联元素

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐