Python -遍历每个页面以获取所有记录

基础概念

在Python中，遍历每个页面以获取所有记录通常涉及到网页抓取（Web Scraping）或API数据获取。网页抓取是指从网页中提取数据的过程，而API数据获取则是通过调用应用程序接口（API）来获取数据。

类型

网页抓取：使用库如requests和BeautifulSoup来解析HTML页面并提取数据。
API数据获取：使用requests库调用API接口获取JSON格式的数据。

应用场景

市场分析：抓取竞争对手的产品信息进行市场分析。
数据挖掘：从网页中提取数据用于机器学习模型的训练。
信息收集：自动收集新闻、天气预报等信息。

示例代码

网页抓取示例

import requests
from bs4 import BeautifulSoup

def scrape_page(url):
    response = requests.get(url)
    if response.status_code == 200:
        soup = BeautifulSoup(response.content, 'html.parser')
        # 假设我们要提取所有的标题
        titles = soup.find_all('h2', class_='title')
        for title in titles:
            print(title.text)
    else:
        print(f"Failed to retrieve data from {url}")

# 遍历多个页面
urls = ['http://example.com/page1', 'http://example.com/page2', 'http://example.com/page3']
for url in urls:
    scrape_page(url)

API数据获取示例

import requests

def get_data_from_api(api_url):
    response = requests.get(api_url)
    if response.status_code == 200:
        data = response.json()
        for record in data['records']:
            print(record)
    else:
        print(f"Failed to retrieve data from {api_url}")

# 调用API获取数据
api_url = 'http://api.example.com/data'
get_data_from_api(api_url)