腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
lxml
从
html
文件
中
提取
python
中
的
段落
文本
?
python
、
html
、
lxml.html
我正在尝试
提取
段落
,但得到
的
是[<Element p at 0x7f8c81a26548>]而不是
段落
。
如何
提取
段落
?
浏览 12
提问于2019-01-31
得票数 1
1
回答
使用
BeautifulSoup和
Python
从
任何网页中
提取
主
文本
python
、
html
、
web-scraping
、
beautifulsoup
我正在编写一些代码(
Python
)来
从
网页
中
抓取
文本
。我
的
目标是找到一种方法来过滤/删除网页上不属于主文章
的
段落
(例如广告、链接到其他文章等)。到目前为止,我一直在
使用
.find_all("p")命令
从
文本
中
提取
段落
,虽然成功地
从
文本
中
提取
了许多基本
段落
,但这些
段落</em
浏览 6
提问于2021-07-27
得票数 0
回答已采纳
2
回答
使用
Python
从
网站中
提取
Web元素
python
、
xpath
、
lxml
、
urllib2
、
xml.etree
我想从这个网站
的
表格和
段落
文本
中
提取
各种元素。这是我正在
使用
的
代码:from
lxml
import
html
import urllib2x = etree.
HTML
(source) growth = x.xp
浏览 7
提问于2017-02-26
得票数 0
回答已采纳
2
回答
如何
使用
lxml
,XPath和
Python
从
网页中
提取
链接?
python
、
screen-scraping
、
hyperlink
、
lxml
、
extraction
我得到了这个xpath查询:它
提取
所有带有标题属性
的
链接-并在
中
给出href。但是,我似乎不能在
lxml
中
使用
它。from
lxml
import etree parsedPage = etree.
HTML
(page) # Create parse tree from valid
浏览 0
提问于2010-01-18
得票数 5
回答已采纳
0
回答
如何
在
python
-docx中
提取
带有跟踪更改
的
插入
文本
python-3.x
、
ms-word
、
python-docx
我想从在“修订”模式下编辑
的
word文档中
提取
文本
。我想
提取
插入
的
文本
并忽略删除
的
文本
。运行下面的代码,我看到以"track changes“模式插入
的
段落
返回一个空
的
Paragraph.text for para in doc.paragra
浏览 2
提问于2016-07-07
得票数 2
回答已采纳
1
回答
Python
在
lxml
.
html
中保留cssselect和text_content()之后
的
新行
python
、
newline
、
html-parsing
、
lxml
在
python
中
,
如何
在
使用
lxml
.
html
时保留
段落
(即保留换行符)?例如,下面将剥离标记并加入这些行,这不是我想要
的
:content = body.text_content()
lxml
.
html
.clean.clean_
html
:
浏览 3
提问于2010-11-22
得票数 2
回答已采纳
1
回答
使用
python
和
lxml
从
大型
HTML
文件
中
解析和
提取
信息
python
、
html
、
xpath
我希望解析大型
HTML
文件
并通过xpath从这些
文件
中
提取
信息。为此,我
使用
python
和
lxml
。但是,
lxml
似乎不能很好地处理大型
文件
,它可以正确解析大小不超过16 MB
的
文件
。通过xpath尝试
从
HTML
代码中
提取
信息
的
代码片段如下: tree =
lxml
.
html
.fragment
浏览 1
提问于2014-06-10
得票数 3
1
回答
使用
lxml
提取
python
中
的
段落
python
、
html-parsing
、
lxml
、
paragraphs
我想通过
python
在
html
中
提取
段落
。我
使用
了
lxml
模块,但它并不能完全满足我
的
需求。print
html
.parse(url).xpath('//p')[1].text_content() 我应该补充<em
浏览 4
提问于2011-02-18
得票数 2
回答已采纳
3
回答
有没有一种方法可以
使用
可读性和
python
来
提取
文本
,而不是
HTML
?
python
、
readability
、
text-extraction
、
html-content-extraction
我需要在运行时,在服务器端从一个随机网页中
提取
纯
文本
。我
使用
Google和Readability端口。有很多这样
的
情况。和minvolai一样,它依赖于
lxml
。还依赖于来检测编码。
中
<e
浏览 1
提问于2012-06-22
得票数 6
回答已采纳
1
回答
获取表数据
的
文本
,即使存在子表-
LXML
python
、
html
、
lxml
尝试
从
HTML
中
的
表
中
的
行中
提取
文本
,其中每个表数据标记可能有也可能没有嵌套
的
标记。一直在
使用
python
中
的
lxml
库来实现数据
提取
,但我不太清楚
如何
最好地处理这个问题: s = ""&quo
浏览 1
提问于2018-02-06
得票数 1
回答已采纳
1
回答
如何
使用
python
模块
从
word文档中
提取
段落
和表格
中
的
文本
?
python
、
docx
如何
使用
python
模块
从
word文档
中
仅
提取
段落
和表格
中
的
文本
,这些文档具有超链接、图像、附加
的
excel表等对象?我尝试过docx2
python
,但它只适用于简单
的
"docx“
文件
,而不适用于其中附加了链接或excel
文件
的
文件
。
浏览 3
提问于2020-06-10
得票数 0
1
回答
用BeautifulSoup删除分页符
python
、
html
、
beautifulsoup
、
nltk
我
使用
BeautifulSoup
从
html
文档中
提取
文本
,然后将
文本
传递给NLTK进行一些分析。
HTML
文件
中有分页符。分页会导致连续
段落
被分割。from bs4 import BeautifulSouptxt = (soup.get_text())分割
的
<e
浏览 2
提问于2016-11-06
得票数 1
回答已采纳
1
回答
使用
ElementTree/
lxml
查找
文本
字符串
的
父标记
python
、
lxml
、
elementtree
我尝试获取一个
文本
字符串,并从
html
中
“
提取
”
段落
/文档
中
的
其余
文本
。 我目前
的
方法是尝试在用
lxml
解析过
的
html
中找到字符串
的
“父标签”。(如果您知道解决此问题
的
更好方法,我洗耳恭听!)例如,在树
中
搜索"TEXT STRING HERE“并返回"p”标记。(请注意,我不会事先知道
ht
浏览 2
提问于2009-06-22
得票数 2
回答已采纳
2
回答
在维护
HTML
结构
的
同时
使用
lxml
查找/替换
文本
python
、
replace
、
lxml
我正在尝试构建一个简单
的
脚本,以便根据字典将超链接插入到
HTML
中
。对于这个问题,我已经看到了广泛
的
,它建议
使用
lxml
和BeatifulSoup,但是我遇到了一些特定
的
问题,希望有人能给我一个正确
的
方向。</p>""" root =
lxml
.
html
.fromstring(test_stri
浏览 2
提问于2016-02-26
得票数 0
1
回答
如何
测试美汤对象
的
类型?
python
、
python-2.7
、
beautifulsoup
这可能是一个非常基本
的
Python
问题,尽管我在Beautiful Soup
中
遇到过它。 我想做
的
基本事情是只
从
HTML
文件
中
提取
输出
文本
。例如,在下面包含
的
HTML
文件
中
,我只想
提取
0123、abc、def和ghi,而不
提取
标签和属性。据我最好
的
理解,我应该能够递归通过
HTML
标签
的
浏览 6
提问于2018-03-05
得票数 2
回答已采纳
1
回答
根据术语列表
从
树
中
删除元素
python
、
html
、
lxml
我正在尝试从一个网页(在运行脚本时传递URL )捕获一些
文本
,但是它隐藏在一个
段落
标记
中
,没有分配其他属性。我可以收集每个
段落
标签
的
内容,但是我想从包含关键字列表
的
树
中
删除任何元素。我得到以下错误: 我明白,当我
浏览 8
提问于2016-03-04
得票数 0
回答已采纳
3
回答
python
:迭代
段落
、表格和图像,同时保持顺序。
python
、
docx
这是我第一次在这里发帖,我想写一个脚本,它以docx作为输入,并选择某些
段落
(包括表和图像)以相同
的
顺序复制到另一个模板文档
中
(而不是最后)。我遇到
的
问题是,当我开始迭代我
的
代码无法检测到图像
的
元素时,因此我无法确定图像相对于
文本
和表
的
位置,也无法确定它是哪个图像。总之,我得到了doc1和:
文本
图像
文本
表
文本
我最后得到
的
是:
文本
图像缺少
文本
表<
浏览 0
提问于2018-10-16
得票数 3
回答已采纳
2
回答
如何
解析保存为
文本
的
html
代码?
python
、
html
、
parsing
、
text-parsing
我有多个.txt
文件
包含.txt代码(来自网页
的
HTML
被复制并保存为.txt)。谢谢你
的
帮助。
浏览 0
提问于2018-08-01
得票数 0
回答已采纳
1
回答
从
xpath @属性
中
剥离
html
标记
python
、
xpath
、
lxml
我正在尝试
使用
lxml
和xpath
从
网页中
提取
一些
文本
--我需要两个部分page = requests.get(url) body_one = pageopen.xpath('/
html
/body//div/div/div//div/p[@class="bo
浏览 1
提问于2014-06-09
得票数 0
回答已采纳
1
回答
BeautifulSoup :
从
html
标记中
提取
/解析数据
python
、
xml
、
parsing
、
beautifulsoup
我试图
使用
Python
代码
中
的
Beautiful
从
url中
提取
体育数据。这个数据源
的
问题是数据出现在
html
标记
中
。具体来说,这个标签
的
标题是"“ 我要
的
是玩家数据--这些数据似乎是XML格式
的
。然而,这些数据出现在"match“标记
中
,而不是作为开始/结束标记
中
的
内容出现。print(soup.m
浏览 5
提问于2021-04-08
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
即时通信 IM
活动推荐
运营活动
广告
关闭
领券