使用bs4提取包含文本的部分，不带标记

，可以通过以下步骤实现：

导入必要的库和模块：

from bs4 import BeautifulSoup

定义HTML文档：

html_doc = """
<html>
<head>
<title>示例页面</title>
</head>
<body>
<div class="content">
    <h1>标题</h1>
    <p>这是一个示例页面。</p>
    <ul>
        <li>列表项1</li>
        <li>列表项2</li>
        <li>列表项3</li>
    </ul>
</div>
</body>
</html>
"""

创建BeautifulSoup对象：

soup = BeautifulSoup(html_doc, 'html.parser')

使用find_all方法查找包含文本的部分：

text_parts = soup.find_all(text=True)

过滤掉空白字符：

text_parts = [part.strip() for part in text_parts if part.strip()]

打印提取的文本部分：

for part in text_parts:
    print(part)

以上代码将提取HTML文档中所有包含文本的部分，并打印输出。请注意，这里使用的是BeautifulSoup库的html.parser解析器，你也可以根据需要选择其他解析器。

关于bs4的更多信息和用法，你可以参考腾讯云的产品介绍链接地址：BeautifulSoup4

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用bs4提取包含文本的部分，不带标记

相关·内容

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐