如何使用Python抓取多页表格并导出为CSV文件？

使用Python抓取多页表格并导出为CSV文件可以通过以下步骤实现：

导入所需的库：首先，需要导入Python的requests库和BeautifulSoup库。Requests库用于发送HTTP请求，BeautifulSoup库用于解析HTML页面。
发送HTTP请求获取页面内容：使用requests库发送HTTP GET请求，获取目标网页的HTML内容。
解析HTML页面：使用BeautifulSoup库解析HTML页面，定位到包含表格的HTML元素。
提取表格数据：根据表格的HTML结构，使用BeautifulSoup库提取表格的行和列数据。
处理多页表格：如果表格分布在多个页面上，可以使用循环或递归的方式依次抓取每个页面的表格数据，并将数据合并到一个数据结构中。
导出为CSV文件：使用Python的csv库将表格数据写入CSV文件。

下面是一个示例代码，演示如何使用Python抓取多页表格并导出为CSV文件：

import requests
from bs4 import BeautifulSoup
import csv

def fetch_table_data(url):
    # 发送HTTP GET请求获取页面内容
    response = requests.get(url)
    html = response.text
    
    # 解析HTML页面
    soup = BeautifulSoup(html, 'html.parser')
    
    # 定位表格元素
    table = soup.find('table')
    
    # 提取表格数据
    data = []
    rows = table.find_all('tr')
    for row in rows:
        cols = row.find_all('td')
        row_data = [col.text.strip() for col in cols]
        data.append(row_data)
    
    return data

def export_to_csv(data, filename):
    with open(filename, 'w', newline='') as csvfile:
        writer = csv.writer(csvfile)
        for row in data:
            writer.writerow(row)

# 抓取多页表格并导出为CSV文件
base_url = 'https://example.com/table?page='
num_pages = 5
all_data = []

for page in range(1, num_pages+1):
    url = base_url + str(page)
    table_data = fetch_table_data(url)
    all_data.extend(table_data)

export_to_csv(all_data, 'table_data.csv')

这段代码通过循环抓取多个页面的表格数据，并将所有数据合并到一个列表中。最后，使用export_to_csv函数将数据导出为CSV文件。你可以根据实际情况修改base_url、num_pages和文件名等参数。