Python从网站递归下载所有PDF

是一个常见的任务，可以通过编写Python脚本来实现。下面是一个完善且全面的答案：

Python从网站递归下载所有PDF的步骤如下：

导入必要的库：使用Python的requests库来发送HTTP请求，使用BeautifulSoup库来解析HTML页面。
发送HTTP请求：使用requests库发送GET请求，获取网站的HTML页面。
解析HTML页面：使用BeautifulSoup库解析HTML页面，提取出所有的链接。
过滤链接：筛选出所有以".pdf"结尾的链接，这些链接指向PDF文件。
下载PDF文件：使用requests库发送GET请求，下载PDF文件，并保存到本地。
递归下载：对于每个链接，如果链接指向的是一个网页而不是PDF文件，就递归调用下载函数，继续下载该网页中的PDF文件。

下面是一个示例代码：

import requests
from bs4 import BeautifulSoup
import os

def download_pdf(url, save_dir):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 创建保存PDF文件的目录
    if not os.path.exists(save_dir):
        os.makedirs(save_dir)
    
    # 解析HTML页面，提取出所有的链接
    for link in soup.find_all('a'):
        href = link.get('href')
        
        # 筛选出以".pdf"结尾的链接
        if href.endswith('.pdf'):
            pdf_url = url + href
            pdf_name = href.split('/')[-1]
            
            # 下载PDF文件并保存到本地
            response = requests.get(pdf_url)
            with open(os.path.join(save_dir, pdf_name), 'wb') as f:
                f.write(response.content)
            
            print(f"下载成功：{pdf_name}")
        
        # 如果链接指向的是一个网页，递归调用下载函数
        elif href.startswith(url):
            download_pdf(href, save_dir)

# 调用下载函数
url = "https://example.com"  # 网站的URL
save_dir = "pdfs"  # 保存PDF文件的目录
download_pdf(url, save_dir)

这个脚本会从指定的网站开始，递归地下载所有PDF文件，并保存到指定的目录中。你可以根据实际情况修改url和save_dir变量。

这个脚本的优势是可以自动递归地下载所有PDF文件，无需手动点击每个链接进行下载。它适用于需要批量下载网站上的PDF文件的场景，比如学术论文、技术文档等。

腾讯云相关产品和产品介绍链接地址：