腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
Python
中
提取
文本
,
包括
内联
元素
和
该
HTML
页面
元素
的
xpath
、
、
、
我正在做一个Django项目,我需要
提取
所有包含
文本
的
元素
和
该
元素
的
xPath
。例如: <
html
> <title> </title> <div> <section<
浏览 7
提问于2020-12-01
得票数 0
2
回答
仅剪贴式正文
文本
、
、
、
我尝试使用
python
Scrapy从正文中抓取
文本
,但还没有成功。 希望一些学者能够在这里帮助我从<body>标记
中
抓取所有的
文本
。
浏览 1
提问于2011-03-22
得票数 9
回答已采纳
1
回答
使用Selenium
Python
从CSS属性中
提取
文本
、
、
、
我有一个Selenium
Python
无法识别的输入标记
html
元素
(不是因为等待)。因此,在一个带有表单(名称为Form1)
的
网页上,我想
提取
其中一个字段
中
的
文本
。
xpath
:/
html
/body/form/div[9]/input[1]时,完整
的
xpath
如下所示
HTML
元素
? :当
浏览 33
提问于2021-06-25
得票数 1
2
回答
使用DOMDocument通过id
提取
和
打印
html
元素
、
我想从网页中
提取
几个表,并将它们显示在我
的
页面
中
我打算使用正则表达式来
提取
它们,但后来我看到了DOMDocument类,它看起来更清晰,我在stackoverflow
中
查看了一下,似乎所有的问题都是关于获取内部
文本
或使用循环来获取
元素
的
内部节点我现在想知道如何通过id来
提取
和
打印
html
元素
。$
html
= file_get_contents(
浏览 0
提问于2012-06-27
得票数 2
回答已采纳
1
回答
使用lxml
和
xpath
从
python
ElementTree中
提取
多个值
、
、
、
我几乎可以肯定地做了这个可怕
的
错误,我
的
问题
的
原因是我自己
的
无知,但是阅读
python
文档
和
示例是没有帮助
的
。 <div class='copy'> </div>我
的
目标是从'title‘
和
'co
浏览 4
提问于2013-05-24
得票数 2
回答已采纳
2
回答
selenium抓取在前几个
元素
后返回空字符串
、
、
、
我正在使用
python
中
的
selenium抓取一个网站。
xpath
能够找到包含搜索结果
的
20个
元素
。但是,
该
内容仅对前6个
元素
可用,其余
元素
为空字符串。结果
的
所有
页面
都是如此results = driver.find_elements_by_
xpath
("//li[contains(@class
浏览 3
提问于2017-03-03
得票数 3
2
回答
Python
: Selenium驱动程序find_elements_by_
xpath
:问题
、
、
、
我想通过使用selenium驱动程序包从不同
的
页面
中
提取
元素
。我使用find_elements_by_
xpath
通过它们
的
文本
识别目标
元素
。这是我试图通过使用它
的
文本
找到
的
元素
: x = """<p align="left"><font face="Arial" color="#439
浏览 2
提问于2020-08-24
得票数 1
回答已采纳
1
回答
如何使用
xpath
定位器访问特定或所有
文本
元素
?
、
、
目前使用
Python
和
Selenium来抓取数据,导出到CSV,然后根据需要进行操作。我很难掌握如何构建
xpath
语句来访问动态生成
的
页面
上
的
特定
文本
元素
。下面的语句允许我
提取
"Flower“类别下
的
所有标题(某种程度上),但我无法访问
该
产品
中
的
所有子
文本
元素
,只能访问标题
的
一个奇怪变体。
xp
浏览 14
提问于2021-05-05
得票数 0
回答已采纳
1
回答
除同一行外,
HTML
标记等效
、
、
根据定义,
HTML
<p>标记是“块”
元素
,这意味着每个<p>
元素
占据自己
的
行。这与“
内联
”
元素
相反,其中超过一个
元素
可以占据同一行。<p>
元素
的
目的是将
文本
的
“段落”括起来,这是一种将
文本
封装在不在其他
HTML
元素
(
如
<input>或<cite> )
中</em
浏览 0
提问于2013-08-05
得票数 0
回答已采纳
2
回答
Selenium通过
xpath
获取
文本
、
、
、
我试图从网页
中
复制一个
文本
元素
,并将其打印在我
的
控制台中,作为对未来项目的测试。Please use find_element(by=By.
XPATH
, value=
xpath
) instead driver.find_element_by_
xpath
("/
html
/body/Please use find_element(by=By.
XPATH
, value=
xpath
)
浏览 14
提问于2022-03-24
得票数 0
1
回答
当
元素
的
顺序改变时通过
xpath
提取
元素
(甚至相对
的
xpath
也在改变)
、
我正在尝试用下面的
Xpath
从一个网页中
提取
文本
使用
python
代码 updatetime=driver.find_element_by_
xpath
('//*[@id="twocols"]/tbody/tr
浏览 0
提问于2019-08-07
得票数 0
1
回答
清理.
html
报告并导出为.txt文件
、
、
、
、
我是
python
的
新手,所以如果我问了一些简单
的
问题,请先原谅我。我在一个文件夹
中
存储了三千个.
html
文件(所有新
的
产品描述都是从可信
的
网站下载
的
),现在我想逐个清理这些文件(即只保留内容/产品描述并删除标签等),然后将每个内容存储为一个.txt文件。在阅读了这里发布
的
一些Q&之后,我认为我需要使用lxml包而不是漂亮
的
汤,因为所有的.
html
文件都来自一个高度可信
的</
浏览 4
提问于2015-08-06
得票数 0
1
回答
使用
XPath
,选择没有
文本
兄弟
的
节点
、
、
我想用
python
3
和
lxml提供
的
HTML
解析器
提取
一些
HTML
元素
。<!/usr/bin/env
python
3from lxml import
html
在浏
浏览 2
提问于2018-02-26
得票数 2
回答已采纳
1
回答
IE10给了我错误1509,不匹配
的
结束标签
、
在IE10
中
,我创建了以下网页,并得到一个不匹配
的
标记错误:<
html
><title>Test</title><body> <div>test.php,第12行字
浏览 2
提问于2013-06-29
得票数 4
2
回答
使用
XPath
(
包括
标记)在标记之间
提取
文本
、
我想
提取
<span>标记之间
的
部分。为此,我使用
XPath
:然而,这将
提取
包括
<span>在内
的
所有内容。
和
。/span[@class="st"]/text() 将返回一个包含两个
文本
元素
的
列表。一种含有"In Tim“
的
。另一种“:政治人”。不<em
浏览 2
提问于2014-06-02
得票数 10
回答已采纳
1
回答
如何从另一个同级
元素
中
提取
一些
元素
(n)之外
的
xpath
同级
元素
?
、
、
、
我一直在解析github文档
页面
的
HTML
,并在此过程中了解了一些
xpath
。然后,使用,我从
xpath
语句
浏览 0
提问于2018-04-13
得票数 0
回答已采纳
1
回答
如何为这个
html
元素
找到一个可靠
的
XPath
(类型是
文本
,类是已知
的
,没有id存在)?
、
、
、
、
该
元素
类似于:
元素
没有id。在text类
中
只有一个information类型
元素
。我希望能够使用casperjs在phantomjs之上输入
文本
到这个
html
元素
中
。从工具获得
的
XPath
类似于: //*[@id="abcid"
浏览 1
提问于2014-07-02
得票数 0
回答已采纳
2
回答
如何用
XPath
提取
包含< not编码
的
文本
<;
、
、
、
我想使用Scrapy从
html
页面
中
提取
一些
文本
。<div></div>有没有办
浏览 3
提问于2013-11-13
得票数 1
回答已采纳
1
回答
在一个span之后,用
Python
中
的
Selenium复制下一个<a>.</a>链接
中
的
文本
、
对于汉字字典网页列表,我需要
提取
<a>...</a>
元素
中
显示在<span>Radical:</span>
元素
之后
的
文本
。find=木">木</a>但是变量ax对于不同
的
页面
会发生变化,这取决于包含
浏览 2
提问于2020-04-04
得票数 0
回答已采纳
1
回答
使用getNodeValue()获取
文本
和
内联
元素
、
、
我正在尝试理解关于
XPath
in Java ()
的
非常棒
的
教程。从
元素
中
获取
文本
字符串
的
解释非常好。但是我找不到获取
文本
和
内联
元素
的
方法。对于本教程
中
的
XML,我添加了一个
内联
元素
:
浏览 0
提问于2014-06-28
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Scrapy框架的使用之Selector的用法
使用XPath进行网页爬取的Python实现
Scrapy向导
网页源码解析模块介绍及实战
python笔记27-lxml.etree解析html
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券