从HTML文件中提取文本的过程通常被称为网页抓取(Web Scraping)或HTML解析。Python提供了多种库来帮助完成这项任务,其中最常用的是BeautifulSoup和lxml。
以下是一个使用BeautifulSoup从HTML文件中提取文本的示例代码:
from bs4 import BeautifulSoup
# 假设html_content是HTML文件的内容
html_content = """
<html>
<head><title>Example Page</title></head>
<body>
<h1>Welcome to Example Page</h1>
<p>This is a paragraph of text.</p>
<div>
<p>Another paragraph inside a div.</p>
</div>
</body>
</html>
"""
# 创建BeautifulSoup对象
soup = BeautifulSoup(html_content, 'html.parser')
# 提取所有段落文本
paragraphs = soup.find_all('p')
for p in paragraphs:
print(p.get_text())
# 提取整个页面的文本
full_text = soup.get_text()
print(full_text)
通过以上方法,可以有效地从HTML文件中提取所需的文本内容。
领取专属 10元无门槛券
手把手带您无忧上云