使用Beautiful Soup/Requests以HTML格式下载包含不完整URL的PDF

Beautiful Soup是一个Python库，用于从HTML或XML文件中提取数据。它提供了一种简单而灵活的方式来遍历解析HTML或XML文档，并提供了许多有用的方法来搜索、遍历和修改文档树。

Requests是一个Python库，用于发送HTTP请求。它提供了一种简单而优雅的方式来发送HTTP/1.1请求，并处理响应。

使用Beautiful Soup和Requests可以实现以HTML格式下载包含不完整URL的PDF文件的功能。具体步骤如下：

导入Beautiful Soup和Requests库：

from bs4 import BeautifulSoup
import requests

发送HTTP请求获取HTML页面：

url = "待下载PDF的网页URL"
response = requests.get(url)
html = response.text

使用Beautiful Soup解析HTML页面：

soup = BeautifulSoup(html, 'html.parser')

使用Beautiful Soup搜索包含PDF文件的链接：

pdf_links = soup.find_all('a', href=lambda href: href.endswith('.pdf'))

遍历PDF链接列表，下载PDF文件：

for link in pdf_links:
    pdf_url = link['href']
    if not pdf_url.startswith('http'):
        pdf_url = url + pdf_url  # 补全不完整的URL
    response = requests.get(pdf_url)
    with open('下载的PDF文件名.pdf', 'wb') as file:
        file.write(response.content)

这样就可以使用Beautiful Soup和Requests以HTML格式下载包含不完整URL的PDF文件了。

推荐的腾讯云相关产品：腾讯云对象存储（COS）