在BeautifulSoup中处理o:p标记_使用BeautifulSoup处理前标记中的尖括号_在p标记CSS中添加空格 - 腾讯云开发者社区

、

但是数据包含在一个标记中，我不知道如何处理它。我发现的一种方法是使用find_all函数，但是有没有像tr.td.span.o:p这样做的方法呢？584" nowrap="" valign="top" style="width:438.0pt;padding:0in 5.4pt 0in 5.4pt; <p"font-size:10.0pt;font-fa

浏览 13提问于2020-01-09得票数 0

回答已采纳

2回答

Python + lxml:如何查找标签的命名空间？

、、

我正在使用python + lxml处理一些HTML文件。其中一些已经用MS Word编辑过了，例如，我们有写成<o:p>&nbsp</o:p>的标签。IE和火狐不会将这些MS标签解释为真正的标签，并且不会在<o:p>标签之前和之后显示换行符，这就是原始编辑器对文件进行格式化的方式，例如，在nbsp的周围没有空格。另一方面，&l

浏览 3提问于2011-09-05得票数 2

3回答

如何使用Python解析带有表的HTML文件

、、、

我想检索表中的值。我尝试了python的HTMLParser库。 if tag == 'tr': if class == 'Table_row' p.feed(ht) <table class="Table

浏览 4提问于2011-05-07得票数 1

回答已采纳

1回答

在BeautifulSoup中解析MS特定的html标记

、、

当试图解析使用MS发送的电子邮件时，我希望能够去掉它添加的恼人的Microsoft标记。其中一个例子是o:p标记。当试图使用Python的BeautifulSoup将电子邮件解析为HTML时，它似乎找不到这些特殊标记。例如：<html> <title>Something to pa

浏览 0提问于2018-02-14得票数 2

回答已采纳

1回答

如何使用BeautifulSoup保持xml文本中的转义字符

、

我正在使用BeautifulSoup处理xml文档。我需要维护标记字符串的所有转义字符，但是BeautifulSoup将转义字符转换为特殊字符。如果我创建一个具有以下字符串的BeautifulSoup对象 MyText并使用.text属性将文本从标记中取出，我在

浏览 4提问于2020-12-06得票数 0

2回答

使用 在标记中使用BeautifulSoup替换换行符

、、、

我想使用HTML解析一些BeautifulSoup，并用 标记替换<blockquote>标记中的任何换行符(\n)。这是特别困难的，因为<blockquote>可能包含其他的HTML标记。我目前的尝试是：Hello<blockq

浏览 4提问于2022-07-07得票数 0

回答已采纳

3回答

用BeautifulSoup在HTML中搜索和替换

、

我知道如何用urllib2打开，然后解析以提取所有的<a>标记。我想要做的是搜索并用结束标记替换结束标记加上中断。任何帮助，非常感谢。我认为这将类似于：find(text="ahh").replaceWith('Hooray')soup.findAll(tag = '</a>').replaceWith

浏览 0提问于2010-01-15得票数 13

回答已采纳

1回答

如何使用BeautifulSoup剥离标记并将文本传递回soup？

、

我正在尝试仅用我的汤中的内容替换任何标记。这是在我使用BeautifulSoup进行的其他处理过程中。示例输入：所需输出：如果我

浏览 2提问于2011-10-08得票数 1

1回答

在我正在抓取的网页中，有很多标题，我需要识别它们，以便在我的数据库中设置一个值。问题是这些标题没有特定的ID或类。Seção II DAS ATRIBUIÇÕES DO CONGRESSO NACIONAL<span style="text-transform: uppercase"&

浏览 0提问于2018-12-12得票数 0

回答已采纳

5回答

BeautifulSoup:不管有多少封闭的标签，只要放在标签里面就行了

、

我正在尝试使用BeautifulSoup从网页中的元素中抓取所有的内部html。有内部标记，但我不关心，我只想得到内部文本。例如，对于：Blue<p</

浏览 1提问于2010-06-02得票数 49

回答已采纳

2回答

BeautifulSoup无法解析嵌套的元素

、

依赖关系: BeautifulSoup==3.2.1In: BeautifulSoup('123') Out: 123<&#

浏览 4提问于2014-04-28得票数 2

回答已采纳

1回答

如何使用python在html中的字符串前插入标记

、、

我正在找到html文档中的所有文本，我想添加span标记，它保存了关于每个文本的一些信息，如下所示 if "childGenerator" in如何在字符串之前插入标记。我还尝试获取字符串的父标记，并在父标记内容之前添加span标记，但如果存在嵌套标记，则会产生问题，因为我希望在每个独立字符串之前都有span标记。有可能吗？类似于下面的内容，但在Pytho

浏览 3提问于2017-07-28得票数 0

回答已采纳

3回答

如何删除没有内容的标签

、、

我正在处理一些老的html，它有很多空标签：<o:p></o:p>。是否有一种方法可以在遍

浏览 0提问于2015-11-03得票数 11

回答已采纳

1回答

使用BeautifulSoup清除标记，但跳过特定的HTML注释

、

在语义上，我使用BeautifulSoup来清除一些HTML，并希望将所有样式、元、链接标记移动到head标记中。<!--[if gte mso 9]><xml> <o:AllowPNG/> <o:PixelsPerInch>96</o:PixelsP

浏览 4提问于2017-05-31得票数 0

3回答

BeautifulSoup:不要在它们重要的地方添加空格，在它们不重要的地方删除它们

、、

/p>'''soup = BeautifulSoup(document)产生以下输出： </html> 这是错误的，因为它在每个开始和结束标记之前和之后都添加了空格，例如，&l

浏览 2提问于2014-08-26得票数 5

1回答

只对一个HTML类使用get_text() - Python，BeautifulSoup

、

我试图访问一个类HTML中唯一的文本。我试图应用于 BeautifulSoup，但总是收到相同的错误消息或该标记中的所有项。= soup.findAll("a", {'class' : 'current-page'}) 在结果中，我只需要这个'Max niskokalorycznynapój gazowany o smaku cola‘。/<em

浏览 0提问于2018-10-20得票数 1

回答已采纳

2回答

python漂亮的汤解析递归

、

我是python/BeautifulSoup的初学者，我正在尝试提取<td width="473" valign="top"> -> 中的所有内容。<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="pl" lang="pl"> <title>MIEJSK

浏览 0提问于2016-05-24得票数 0

1回答

在BeautifulSoup中处理'<‘'>’html标记的BeautifulSoup

、

在字符串中，我将字符串中的'\r‘字符替换为'<\p>’，并将其传递给BeautifulSoup进行解析。我似乎与编码有关，但不确定是什么。替换字符串fileString = re.sub('\r

浏览 0提问于2012-10-07得票数 1

回答已采纳

1回答

在Python中使用Regex查找nbsp字符

、、

我有一个从Word文档生成的网页(使用word文档中的另存为)。它已经生成了一些新的字符。最初，我使用Regex函数在生成的HTML文本中查找"2 General“。mso-spacerun:yes">      General<o:p&

浏览 32提问于2020-06-18得票数 0

2回答

获取所有标记，除了标签列表( BeautifulSoup* )*

、、

我必须从一个文本边界，即封闭在标签内的网站的文本。我想过滤掉所有不想要的标签，比如并从其余的标签中获取文本Header &l

浏览 0提问于2019-06-17得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云