如何在BeautifulSoup中提取包含普通文本和其他HTML标签的<span>内容？

在BeautifulSoup中提取包含普通文本和其他HTML标签的<span>内容，可以使用BeautifulSoup的find_all方法结合正则表达式进行匹配和提取。具体步骤如下：

导入BeautifulSoup库和正则表达式库：

from bs4 import BeautifulSoup
import re

定义HTML文档字符串或者从文件中读取HTML内容：

html_doc = '''
<html>
<head>
<title>BeautifulSoup Example</title>
</head>
<body>
<div>
<span class="text">This is some text <strong>with</strong> <a href="example.com">HTML</a> tags.</span>
<span class="text">This is another <a href="example2.com">link</a> with <em>italic</em> text.</span>
</div>
</body>
</html>
'''

创建BeautifulSoup对象并进行解析：

soup = BeautifulSoup(html_doc, 'html.parser')

使用find_all方法和正则表达式提取包含普通文本和其他HTML标签的<span>内容：

span_tags = soup.find_all('span', text=re.compile('.+'))
for span in span_tags:
    print(span.get_text())

上述代码中，使用find_all方法查找所有<span>标签，并通过正则表达式text=re.compile('.+')指定匹配包含普通文本的<span>标签。然后使用get_text方法获取标签内的文本内容。

答案中不能提及亚马逊AWS、Azure、阿里云、华为云、天翼云、GoDaddy、Namecheap、Google等流行的一些云计算品牌商，因此不提供腾讯云相关产品和产品介绍链接地址。

如何在BeautifulSoup中提取包含普通文本和其他HTML标签的<span>内容？

、、、

使用BeautifulSoup，我试图提取<span>标记之间的内容。我使用string属性来获得所需的输出。如果<span>标记只包含文本，则可以很好地工作。但是，如果标记中除了普通文本之外还有其他一些HTML标记，则它将失败。例如。如果我刮掉了以下内容： <span>El

浏览 44提问于2019-03-10得票数 2

回答已采纳

1回答

从html文档中提取标记内的文本

、、、、

我有一个类似于这样的html文档：，所以我需要在标记<span id="1“和</span内提取文本，但我不知道如何提取。我试着写这段代码： soup = BeautifulSoup(fp,features="html<

浏览 5提问于2021-05-19得票数 3

回答已采纳

3回答

如何使用BeautifulSoup查找第一个锚标签的文本

、

我有一个这样的HTML结构 <a href="abc.com"> </a> <ahref="xyz.com">comments</a></p> 我想提取

浏览 1提问于2016-04-28得票数 1

1回答

使用正则表达式重新字符串匹配提取URL链接- Python

、、、、

我一直在尝试使用re api从文本文件中提取URL。任何以http://、https://和www开头的链接。该文件包含文本以及html源代码，html部分很容易，因为我可以用BeautifulSoup提取它们，但普通文本似乎更具挑战性。我在网上发现这似乎是URL提取的最佳实现，但是它在某些标签</

浏览 0提问于2012-05-07得票数 3

回答已采纳

2回答

从锚标记的内联子节点中提取文本

、

从下面的HTML代码中，我需要提取代码标记和锚标记中的字符串。notranslate"> optparse </code>

浏览 4提问于2021-07-20得票数 1

回答已采纳

1回答

BeautifulSoup不能读文本中的催眠曲吗？

、

我试图用imdb.com中的BeautifulSoup擦拭BeautifulSoup，但是在它的文本中有一些html标记包含“-”，所以系统无法读取它。我想刮的那一页：<span class="certificate">TV-MA</span> 因此，我将使

浏览 0提问于2021-05-22得票数 0

3回答

我正在做网络抓取，我只想从任何网站的文本，所以我使用的Beautiful Soup。最初，我发现get_text()方法也返回了JavaScript代码，因此为了避免遇到应该使用extract()方法的问题，现在我遇到了一个奇怪的问题，在提取script和style标记之后，BeautifulSoup甚至在新的` `html中都无法识别它的主体。我先说清楚我在做这件事 soup = BeautifulSoup

浏览 20提问于2015-07-05得票数 3

回答已采纳

2回答

用BS4 - Python排除span

、、

因此，我试图排除(而不是提取)包含在span中的信息。下面是HTML：这是我的密码： print(description_el.text.repl

浏览 0提问于2022-03-11得票数 0

回答已采纳

1回答

仅获取HTML标记中的顶级文本

、、、

首先，我使用Python和Selenium以及一些BeautifulSoup来进行网络抓取。也许他们不能在一起工作，但这个特殊的问题我到目前为止也无法解决。class="bigLink"><i class="fa fa-upload"></i> Or choose file</span> </div> 实际的HTML还有更多的<em

浏览 23提问于2020-04-14得票数 0

回答已采纳

2回答

使用BeautifulSoup从html中提取文本，但脚本标记的内容除外

、、、

我有这样的html Ages 15 </span>所以我编写了python代码如下from bs4 import BeautifulSoup

浏览 0提问于2018-12-10得票数 3

回答已采纳

3回答

查找文本，但跳过其他元素

、、

目前，我试图从'td‘元素中提取文本，但是其中有更多的元素。所以find()返回td标记中的整个文本。class="some class"> <a href="some/link">some more text</a> <spanclass="some other c

浏览 5提问于2016-06-07得票数 0

回答已采纳

2回答

在Python中获取特定标记之外的数据

、

我在BeautifulSoup4中使用Python3.8。我在Windows 10上，我使用PyCharm。<li> <span class="def">A

浏览 8提问于2022-09-12得票数 2

回答已采纳

2回答

python:美丽的汤提取信息

、

我使用漂亮的汤解析HTML，如下所示：<h3 style="cear: both;"></p>""" 我想提取这笔钱

浏览 6提问于2022-10-28得票数 1

1回答

尽管我在与代码相同的文件夹中打开了该文件，但它无法执行

该程序将使用urllib从下面的数据文件中读取HTML，并解析数据，提取数字并计算文件中数字的总和。你要找到文件中的<

浏览 1提问于2018-05-22得票数 0

2回答

Python抓取BeautifulSoup跨度和p标记-还有如何精确匹配Div名称

、、

我有两个div，我正在尝试抓取，具有相同的名称(但页面上还有其他div也具有部分名称匹配，这是我不需要的)。首先，我只需要每个span元素中的文本。在第二行中，我需要span元素内的文本，对于第一行，我需要行2和3的标签。我甚至不太确定为什么需要在div的末尾进行切片(我认为是因为div类col返回的比2个相

浏览 3提问于2018-10-31得票数 2

3回答

从标签中排除数据

、

我想排除html span标记中的特定文本。在下面的示例中，我只想在a-list-item下使用class从span中获取所有test2文本。我的代码：<span class="a-list-item"&g

浏览 1提问于2019-04-04得票数 3

3回答

关于BeautifulSoup中get_text()的建议

、

我正在使用BeautifulSoup解析html页面中的一些内容。我得到了这样的<

浏览 3提问于2013-04-20得票数 10

回答已采纳

1回答

如何通过寻找标签中的标签来提取标签中的信息？

、、、、

假设我想提取24分钟每集信息或N13信息在评级之下。现在这只是代码的一部分，有些span标记不是dark_text类，而是其他类。但是当我寻找持有评级的标签时，当我找到它时，我无法提取它是什么级别，因为N13现在在div标签下，而不是span下，但是由于我在寻找“等级”或“持续时间”，所以我必须查找“span”标记。美丽汤不允许你做findAll('div').findAll('

浏览 0提问于2018-03-14得票数 0

回答已采纳

2回答

BS4从所有DIV标记内获取文本，但不获取子级

、、

我正在抓取多个网页，但有些网站的内容/文本带有div标签，而不是p或span，因此遇到了问题。以前，该脚本可以很好地从p和span标记中获取文本，但是，如果代码片段如下所示： <div>Hello<p>this is a test</p></div> 使用find_all('div')和.getText()将提供以下输出

浏览 85提问于2020-04-16得票数 2

回答已采纳

1回答

是否有可能在通知文本中产生丰富的文本效果(删除、文本颜色)？

、、

在Android中，有可能在通知中产生丰富的文本效果。在下面的Android屏幕截图中，我们有带有以下附加属性的文本我知道在通知中显示图像是可能的，下面是中描述<em

浏览 2提问于2022-06-01得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在BeautifulSoup中提取包含普通文本和其他HTML标签的<span>内容？

相关·内容

如何在BeautifulSoup中提取包含普通文本和其他HTML标签的<span>内容？

从html文档中提取标记内的文本

如何使用BeautifulSoup查找第一个锚标签的文本

使用正则表达式重新字符串匹配提取URL链接- Python

从锚标记的内联子节点中提取文本

BeautifulSoup不能读文本中的催眠曲吗？

美丽的汤在使用get_text ()后不能使用

用BS4 - Python排除span

仅获取HTML标记中的顶级文本

使用BeautifulSoup从html中提取文本，但脚本标记的内容除外

查找文本，但跳过其他元素

在Python中获取特定标记之外的数据

python:美丽的汤提取信息

尽管我在与代码相同的文件夹中打开了该文件，但它无法执行

Python抓取BeautifulSoup跨度和p标记-还有如何精确匹配Div名称

从标签中排除数据

关于BeautifulSoup中get_text()的建议

如何通过寻找标签中的标签来提取标签中的信息？

BS4从所有DIV标记内获取文本，但不获取子级

是否有可能在通知文本中产生丰富的文本效果(删除、文本颜色)？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐