首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

我想使用2个页面的URL中的10个不同的关键字抓取数据,并使用Python3.6.2和BS4将抓取的数据写入csv

你可以使用Python的requests库来获取网页内容,然后使用BeautifulSoup库(简称BS4)来解析HTML,并将数据写入CSV文件。下面是一个完整的示例代码:

代码语言:txt
复制
import requests
from bs4 import BeautifulSoup
import csv

# 定义要抓取的URL列表
urls = [
    "https://example.com/page1",
    "https://example.com/page2",
    # 添加更多URL...
]

# 定义要抓取的关键字列表
keywords = [
    "关键字1",
    "关键字2",
    # 添加更多关键字...
]

# 创建CSV文件并写入表头
with open("data.csv", "w", newline="", encoding="utf-8") as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(["URL", "关键字", "抓取的数据"])

    # 遍历URL列表
    for url in urls:
        # 发送HTTP GET请求获取网页内容
        response = requests.get(url)
        html = response.text

        # 使用BeautifulSoup解析HTML
        soup = BeautifulSoup(html, "html.parser")

        # 遍历关键字列表
        for keyword in keywords:
            # 在网页中查找关键字
            data = soup.find(text=keyword)

            # 将抓取的数据写入CSV文件
            writer.writerow([url, keyword, data])

print("数据抓取完成并写入CSV文件。")

这段代码会根据给定的URL列表和关键字列表,抓取每个URL中包含的关键字,并将结果写入名为"data.csv"的CSV文件中。你可以根据实际需求修改URL列表和关键字列表。

这个示例中没有提及具体的腾讯云产品,因为抓取数据并写入CSV文件不涉及云计算领域的特定产品。但是,如果你需要将抓取数据存储到云上,你可以考虑使用腾讯云的对象存储服务 COS(腾讯云对象存储)来存储CSV文件。你可以参考腾讯云COS的官方文档了解更多信息:腾讯云对象存储 COS

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

领券