腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
BeautifulSoup
中
处理
o
:
p
标记
、
但是数据包含在一个
标记
中
,我不知道如何
处理
它。 我发现的一种方法是使用find_all函数,但是有没有像tr.td.span.
o
:
p
这样做的方法呢?584" nowrap="" valign="top" style="width:438.0pt;padding:0in 5.4pt 0in 5.4pt; <
p
"font-size:10.0pt;font-fa
浏览 13
提问于2020-01-09
得票数 0
回答已采纳
2
回答
Python + lxml:如何查找标签的命名空间?
、
、
我正在使用python + lxml
处理
一些HTML文件。其中一些已经用MS Word编辑过了,例如,我们有写成<
o
:
p
> </
o
:
p
>的<
p
>标签。IE和火狐不会将这些MS标签解释为真正的<
p
>标签,并且不会在<
o
:
p
>标签之前和之后显示换行符,这就是原始编辑器对文件进行格式化的方式,例如,
在
nbsp的周围没有空格。另一方面,&l
浏览 3
提问于2011-09-05
得票数 2
3
回答
如何使用Python解析带有表的HTML文件
、
、
、
我想检索表
中
的值。我尝试了python的HTMLParser库。 if tag == 'tr': if class == 'Table_row'
p
.feed(ht) <table class="Table
浏览 4
提问于2011-05-07
得票数 1
回答已采纳
1
回答
在
BeautifulSoup
中
解析MS特定的html
标记
、
、
当试图解析使用MS发送的电子邮件时,我希望能够去掉它添加的恼人的Microsoft
标记
。其中一个例子是
o
:
p
标记
。当试图使用Python的
BeautifulSoup
将电子邮件解析为HTML时,它似乎找不到这些特殊
标记
。例如:<html> <title>Something to pa
浏览 0
提问于2018-02-14
得票数 2
回答已采纳
1
回答
如何使用
BeautifulSoup
保持xml文本
中
的转义字符
、
我正在使用
BeautifulSoup
处理
xml文档。我需要维护
标记
字符串的所有转义字符,但是
BeautifulSoup
将转义字符转换为特殊字符。如果我创建一个具有以下字符串的
BeautifulSoup
对象 <
p
>MyText</
p
>并使用.text属性将文本从
标记
中
取出,我在
浏览 4
提问于2020-12-06
得票数 0
2
回答
使用<br>
在
标记
中使用
BeautifulSoup
替换换行符
、
、
、
我想使用HTML解析一些
BeautifulSoup
,并用<br>
标记
替换<blockquote>
标记
中
的任何换行符(\n)。这是特别困难的,因为<blockquote>可能包含其他的HTML
标记
。我目前的尝试是:<
p
>Hello<blockq
浏览 4
提问于2022-07-07
得票数 0
回答已采纳
3
回答
用
BeautifulSoup
在
HTML
中
搜索和替换
、
我知道如何用urllib2打开,然后解析以提取所有的<a>
标记
。我想要做的是搜索并用结束
标记
替换结束
标记
加上中断。任何帮助,非常感谢。我认为这将类似于:find(text="ahh").replaceWith('Hooray')soup.findAll(tag = '</a>').replaceWith
浏览 0
提问于2010-01-15
得票数 13
回答已采纳
1
回答
如何使用
BeautifulSoup
剥离<
p
>
标记
并将文本传递回soup?
、
我正在尝试仅用我的汤
中
的内容替换任何<
p
>
标记
。这是
在
我使用
BeautifulSoup
进行的其他
处理
过程
中
。示例输入:所需输出:如果我
浏览 2
提问于2011-10-08
得票数 1
1
回答
如何识别css内联属性
、
、
在
我正在抓取的网页
中
,有很多标题,我需要识别它们,以便在我的数据库
中
设置一个值。问题是这些标题没有特定的ID或类。<span style="text-transform: uppercase">Seçã
o
II<br> DAS ATRIBUIÇÕES DO CONGRESSO NACIONAL</span></b><b><span style="text-transform: uppercase"&
浏览 0
提问于2018-12-12
得票数 0
回答已采纳
5
回答
BeautifulSoup
:不管有多少封闭的标签,只要放在标签里面就行了
、
我正在尝试使用
BeautifulSoup
从网页
中
的<
p
>元素
中
抓取所有的内部html。有内部
标记
,但我不关心,我只想得到内部文本。例如,对于:<
p
><i>Blue</i></
p
><
p</
浏览 1
提问于2010-06-02
得票数 49
回答已采纳
2
回答
BeautifulSoup
无法解析嵌套的<
p
>元素
、
依赖关系:
BeautifulSoup
==3.2.1In:
BeautifulSoup
('<
p
><
p
>123</
p
></
p
>') Out: <
p
></
p
><
p
>123<
浏览 4
提问于2014-04-28
得票数 2
回答已采纳
1
回答
如何使用python
在
html
中
的字符串前插入
标记
、
、
我正在找到html文档
中
的所有文本,我想添加span
标记
,它保存了关于每个文本的一些信息,如下所示 if "childGenerator" in如何在字符串之前插入
标记
。我还尝试获取字符串的父
标记
,并在父
标记
内容之前添加span
标记
,但如果存在嵌套
标记
,则会产生问题,因为我希望
在
每个独立字符串之前都有span
标记
。有可能吗?类似于下面的内容,但在Pytho
浏览 3
提问于2017-07-28
得票数 0
回答已采纳
3
回答
如何删除没有内容的标签
、
、
我正在
处理
一些老的html,它有很多空标签:<i style='mso-bidi-font-style:normal'><span style='font-size:11.0pt;font-family: Univers;mso-bidi-font-family:Arial'><
o
:
p
></
o
:
p
></span></i>。是否有一种方法可以
在
遍
浏览 0
提问于2015-11-03
得票数 11
回答已采纳
1
回答
使用
BeautifulSoup
清除
标记
,但跳过特定的HTML注释
、
在
语义上,我使用
BeautifulSoup
来清除一些HTML,并希望将所有样式、元、链接
标记
移动到head
标记
中
。<!--[if gte mso 9]><xml> <
o
:AllowPNG/> <
o
:PixelsPerInch>96</
o
:PixelsP
浏览 4
提问于2017-05-31
得票数 0
3
回答
BeautifulSoup
:不要在它们重要的地方添加空格,
在
它们不重要的地方删除它们
、
、
/
p
>'''soup =
BeautifulSoup
(document)产生以下输出: </b> </
p
></html> 这是错误的,因为它在每个开始和结束
标记
之前和之后都添加了空格,例如,&l
浏览 2
提问于2014-08-26
得票数 5
1
回答
只对一个HTML类使用get_text() - Python,
BeautifulSoup
、
我试图访问一个类HTML
中
唯一的文本。我试图应用于
BeautifulSoup
,但总是收到相同的错误消息或该
标记
中
的所有项。= soup.findAll("a", {'class' : 'current-page'})
在
结果
中
,我只需要这个'Max niskokalorycznynapój gazowany
o
smaku cola‘。/<em
浏览 0
提问于2018-10-20
得票数 1
回答已采纳
2
回答
python漂亮的汤解析递归
、
我是python/
BeautifulSoup
的初学者,我正在尝试提取<td width="473" valign="top"> -> <strong>
中
的所有内容。<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="pl" lang="pl"> <title>MIEJSK
浏览 0
提问于2016-05-24
得票数 0
1
回答
在
BeautifulSoup
中
处理
'<‘'>’html
标记
的
BeautifulSoup
、
在
字符串
中
,我将字符串
中
的'\r‘字符替换为'<\
p
>’,并将其传递给
BeautifulSoup
进行解析。我似乎与编码有关,但不确定是什么。替换字符串fileString = re.sub('\r
浏览 0
提问于2012-10-07
得票数 1
回答已采纳
1
回答
在
Python中使用Regex查找nbsp字符
、
、
我有一个从Word文档生成的网页(使用word文档
中
的另存为)。它已经生成了一些新的字符。 最初,我使用Regex函数在生成的HTML文本
中
查找"2 General“。mso-spacerun:yes"> </span><span style="mso-spacerun:yes"> </span>General<
o
:
p
&
浏览 32
提问于2020-06-18
得票数 0
2
回答
获取所有
标记
,除了标签列表(
BeautifulSoup
)
、
、
我必须从一个文本边界,即封闭
在
标签内的网站的文本。我想过滤掉所有不想要的标签,比如并从其余的标签
中
获取文本<span>Header</span> &l
浏览 0
提问于2019-06-17
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python黑科技:Web Scraper(一)爬虫与甲鱼汤
机器学习 聚类算法之DBSCAN
BeautifulSoup解析库select方法实例——获取企业信息
python 3 爬起点中文网,简单分析
Python 爬虫(五)
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券