用python从多个不同的网址提取Xpath到excel文件

基础概念

XPath 是一种用于在 XML 文档中查找信息的语言，同样适用于 HTML 文档。它可以通过元素和属性进行导航，从而精确地定位到所需的数据。

Python 是一种高级编程语言，因其简洁易读的语法和强大的库支持，在数据抓取和处理方面非常流行。

Excel 文件 是一种常见的电子表格格式，可以用 Python 中的 pandas 库进行读写操作。

类型与应用场景

类型：数据抓取、网页解析、信息提取。
应用场景：市场数据分析、竞争对手监控、内容聚合等。

示例代码

以下是一个使用 Python 从多个网址提取 XPath 数据并保存到 Excel 文件的示例代码：

import requests
from lxml import etree
import pandas as pd

# 定义要抓取的网址列表和对应的 XPath 表达式
urls = {
    'https://example1.com': '//div[@class="item"]/h2/text()',
    'https://example2.com': '//span[@id="title"]/text()',
}

# 存储提取的数据
data = []

# 遍历网址列表，提取数据
for url, xpath_expr in urls.items():
    try:
        response = requests.get(url)
        response.raise_for_status()  # 检查请求是否成功
        html = etree.HTML(response.text)
        extracted_data = html.xpath(xpath_expr)
        data.append({'url': url, 'data': extracted_data})
    except Exception as e:
        print(f"Error fetching {url}: {e}")

# 将数据转换为 DataFrame 并保存到 Excel 文件
df = pd.DataFrame(data)
df.to_excel('extracted_data.xlsx', index=False)