Web抓取包含多个表的页面

在进行Web抓取时，如果目标页面包含多个表格，你可以使用Python的requests库来获取页面内容，并使用BeautifulSoup库来解析HTML。然后，你可以使用pandas库将表格数据转换为数据框进行处理。

以下是一个示例，展示了如何抓取包含多个表格的网页，并将每个表格的数据提取到单独的pandas数据框中。

安装必要的库

首先，确保你已经安装了必要的库。你可以使用pip来安装这些库：

pip install requests beautifulsoup4 pandas

示例代码

以下是一个完整的示例代码：

import requests
from bs4 import BeautifulSoup
import pandas as pd

# 目标URL
url = 'http://example.com/page-with-multiple-tables'

# 发送HTTP请求获取页面内容
response = requests.get(url)
response.raise_for_status()  # 检查请求是否成功

# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(response.content, 'html.parser')

# 查找所有表格
tables = soup.find_all('table')

# 存储所有表格的数据框
dataframes = []

# 遍历每个表格
for table in tables:
    # 提取表格的所有行
    rows = table.find_all('tr')
    
    # 提取表头
    headers = [header.get_text(strip=True) for header in rows[0].find_all('th')]
    
    # 提取表格数据
    data = []
    for row in rows[1:]:
        cells = row.find_all('td')
        data.append([cell.get_text(strip=True) for cell in cells])
    
    # 创建数据框
    df = pd.DataFrame(data, columns=headers)
    dataframes.append(df)

# 打印每个数据框
for i, df in enumerate(dataframes):
    print(f"Table {i+1}:")
    print(df)
    print()

# 如果需要，可以将数据框保存到文件
for i, df in enumerate(dataframes):
    df.to_csv(f'table_{i+1}.csv', index=False)