使用Beautiful Soup/Requests以HTML格式下载包含不完整URL的PDF

Beautiful Soup是一个Python库，用于从HTML或XML文件中提取数据。它提供了一种简单而灵活的方式来遍历解析HTML或XML文档，并提供了许多有用的方法来搜索、遍历和修改文档树。

Requests是一个Python库，用于发送HTTP请求。它提供了一种简单而优雅的方式来发送HTTP/1.1请求，并处理响应。

使用Beautiful Soup和Requests可以实现以HTML格式下载包含不完整URL的PDF文件的功能。具体步骤如下：

导入Beautiful Soup和Requests库：

from bs4 import BeautifulSoup
import requests

发送HTTP请求获取HTML页面：

url = "待下载PDF的网页URL"
response = requests.get(url)
html = response.text

使用Beautiful Soup解析HTML页面：

soup = BeautifulSoup(html, 'html.parser')

使用Beautiful Soup搜索包含PDF文件的链接：

pdf_links = soup.find_all('a', href=lambda href: href.endswith('.pdf'))

遍历PDF链接列表，下载PDF文件：

for link in pdf_links:
    pdf_url = link['href']
    if not pdf_url.startswith('http'):
        pdf_url = url + pdf_url  # 补全不完整的URL
    response = requests.get(pdf_url)
    with open('下载的PDF文件名.pdf', 'wb') as file:
        file.write(response.content)

这样就可以使用Beautiful Soup和Requests以HTML格式下载包含不完整URL的PDF文件了。

推荐的腾讯云相关产品：腾讯云对象存储（COS）

产品介绍链接地址：https://cloud.tencent.com/product/cos
优势：高可用性、高可靠性、高扩展性，支持海量数据存储和访问，提供安全可靠的数据存储服务。
应用场景：适用于存储和管理各种类型的文件，包括图片、音视频、文档等，可用于网站、移动应用、大数据分析等场景。

请注意，以上答案仅供参考，具体的技术实现和产品选择应根据实际需求和情况进行评估和决策。

使用Beautiful Soup/Requests以HTML格式下载包含不完整URL的PDF

python、pdf、beautifulsoup、python-requests、python-requests-html

我想下载https://www.mdpi.com/search?PDF" data-cf-modified-fa685c2bcda960230d46973e-=""></a> href只包含域之后的那部分URL，因此完整的URL为https:/

浏览 12提问于2021-09-27得票数 0

回答已采纳

1回答

访问网页并下载*.ext文件，可在其中设置python脚本

python、parsing、url、urllib2

我有一个python脚本，它可以下载我通过URL指定的特定文件，我想知道是否有一种很好的方法来访问页面，并抓取每个以特定扩展名结尾的文件。示例:转到包含一些.py文件、一些.pdf文件和一些.jpg文件以及文本和其他链接的页面。然后将所有.py文件下载到当前目录。= "http://"+str(urlin) p

浏览 4提问于2013-04-25得票数 0

回答已采纳

2回答

下载网站中的所有文件

python、r、download、webclient-download

我需要下载此链接下的所有文件，只有郊区的名称在每个链接中不断变化此搜索链接下的所有文件：谢谢:)

浏览 29提问于2017-08-07得票数 10

回答已采纳

2回答

如何过滤掉漂亮汤中的文件？

python、beautifulsoup

import osfrom urllib.parse import urljoinif not os.path.exists(folder_location):os.mkdir(folder_location) soup= Beauti

浏览 7提问于2022-04-03得票数 -1

2回答

为什么我的html解析器不能下载整个html文档？

python、python-3.x、web-scraping、beautifulsoup

我正在使用Beautiful Soup来抓取以下页面：result = requests.get(ma

浏览 0提问于2019-06-13得票数 3

1回答

转到子链接并下载PDF文件

python、web-scraping、beautifulsoup

我有一个从指定网页https://webpage.com/products/waste-water/下载PDF文件的代码。在这个页面上有很多https://webpage.com/product/格式的链接，每一页上都有PDF文件。我如何添加功能，以继续每个子页面的链接是格式- https://webpage.com/product&

浏览 0提问于2019-12-26得票数 0

回答已采纳

1回答

Python BeautifulSoup用于提取图像标签

python、python-3.x、web-scraping、beautifulsoup

_V1_UX182_CR0,0,182,268_AL_.jpg">https://www.kaggle.com/carolzhangdc/imdb-5000-movie-dataset line_count += 1

浏览 0提问于2019-11-20得票数 0

3回答

只从html页面上的结束.ece的超链接中使用漂亮的汤。

python、html、web-scraping、beautifulsoup

我写了一段代码，只抓取以.ecm结尾的超链接，下面是我的代码r = requests.get(_URL)urls = []newpath=r'D:\fyp\data s

浏览 29提问于2018-01-08得票数 1

回答已采纳

1回答

Kaggle -完整的主板下载

python、web-scraping、kaggle

我正在尝试下载Kaggle领导板表，该表可以在一个单独的下使用。我使用了，也通过“原始数据”输出使用了，但是表数据是不完整的。下载的表--特别是--不包含关于'# of does‘和'Member (如果可用于竞赛的话)’的信息。我也尝试过刮表(基于可用的代码)，但是代码无法识别网站上的任何表： from bs4 import Beautifu

浏览 0提问于2021-01-27得票数 4

1回答

从CAG下载PDF

python、pdf、web-scraping、beautifulsoup

我试图从CAG网站下载多个PDF(链接)。我使用以下代码- <

浏览 2提问于2022-10-07得票数 0

回答已采纳

3回答

如何使用Python抓取PDF；仅特定内容

python、web-scraping、scrapy、tabula、pdf-scraping

我正在尝试从网站上可用的PDF中获取数据我需要在第12页玉米的数据，我必须为结束股票，出口等创建单独的文件。

浏览 5提问于2019-12-02得票数 3

3回答

为什么BeautifulSoup不能在Google上获得所有html呢？

python、beautifulsoup

我以前见过这个，但我从未见过任何与谷歌相关的东西。当在Google上搜索某物时，所有的链接和标题都会放在h3标签中。然而，如果我尝试使用“美丽汤”，则不会出现任何h3标记，而且似乎丢失了许多标记。q=" + input print (item) 编辑:

浏览 11提问于2020-11-08得票数 0

回答已采纳

2回答

漂亮汤还错了href值

python、beautifulsoup、python-requests、href

我使用下面的代码为SERP做一些SEO，但是当我尝试读取href属性时，我得到了显示页面中其他有线URL的不正确结果，但没有显示预期的结果。我的密码怎么了？import requests URL = "https://www.google.com/search?q=beautiful+soup&rlz=1C1GCEB_enIN

浏览 5提问于2021-11-16得票数 0

回答已采纳

1回答

无法打开下载的PDF文件

file、python-2.7、pdf、download、python-requests

我正在尝试下载与研究人员相关的所需PDF。 from bs4 import BeautifulSoup

浏览 2提问于2015-04-20得票数 0

1回答

从Python的URL中获取HTML

python、html、url

我正在尝试用HTML读取URL的Python内容。要获取URL的URL内容，我会使用模块wget、urllib还是完全不同的模块？回答后:我将使用urllib模块，因为这是默认的Python2.7构建，我无法从这台计算机下载外部模块。获取URL内容的模块列表：Beautiful SoupReq

浏览 6提问于2016-10-04得票数 0

回答已采纳

2回答

为什么解析带有漂亮汤的网页会导致具有base64字符串值的图像的src属性？

python、beautifulsoup、python-requests

我试着用requests下载一个网站的HTML代码，然后用beautiful soup解析它，以获得我想下载的一些图片的源代码。q=gartenstuhl')images = soup.select('div[style]

浏览 10提问于2022-02-02得票数 1

回答已采纳

2回答

BeautifulSoup4 "class_“-没有找到文档

python、beautifulsoup、pycharm

在class_上，我正在努力解决“没有发现文档”的问题。我已经用pip install beautifulsoup4安装了所有东西from bs4 import BeautifulSoup url = 'mywebsite'html = response.content #B

浏览 5提问于2022-03-17得票数 -3

2回答

为什么我不能用这个代码下载pdf呢？

python、pdf、beautifulsoup、valueerror

import requestsfrom urllib.request import urlretrieve response = requests.get(url) soup = BeautifulSoup(resp

浏览 5提问于2022-08-14得票数 -1

1回答

如何通过Python使用World Bank API下载多个PDF文件

python、api、pdf、web-scraping

我正在尝试使用Python从世界银行档案网站下载许多pdf文件(几百个)。API网络链接可以使用任何术语(例如，国家或部门-教育、卫生等)进行定制。我尝试了下面的代码，使用提到的url下载越南教育部门特有的文件。该URL包含具有指定条款的所有pdf链接的操作文档。但是，这些文件无法下载。import requests from

浏览 22提问于2019-06-05得票数 0

回答已采纳

2回答

使用request和lxml从goodreads API读取XML的尝试失败

python、xml、api、python-requests、lxml

Goodreads声称我可以获得以名为<GoodreadsResponse>的根开头的XML，它的第一个孩子是<book>，第八个孩子是image_url。问题是，我无法让它识别正确的根目录(它打印root而不是GoodreadsResponse，并且根本无法识别根目录是否有子目录，尽管响应码是200 )。我更喜欢使用JSON，据称，您可以将其转换为JSON，但我对此一无所获。这是我目前拥有的函数。我哪里错了？res = requests.ge

浏览 5提问于2018-08-28得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用Beautiful Soup/Requests以HTML格式下载包含不完整URL的PDF

相关·内容

使用Beautiful Soup/Requests以HTML格式下载包含不完整URL的PDF

访问网页并下载*.ext文件，可在其中设置python脚本

下载网站中的所有文件

如何过滤掉漂亮汤中的文件？

为什么我的html解析器不能下载整个html文档？

转到子链接并下载PDF文件

Python BeautifulSoup用于提取图像标签

只从html页面上的结束.ece的超链接中使用漂亮的汤。

Kaggle -完整的主板下载

从CAG下载PDF

如何使用Python抓取PDF；仅特定内容

为什么BeautifulSoup不能在Google上获得所有html呢？

漂亮汤还错了href值

无法打开下载的PDF文件

从Python的URL中获取HTML

为什么解析带有漂亮汤的网页会导致具有base64字符串值的图像的src属性？

BeautifulSoup4 "class_“-没有找到文档

为什么我不能用这个代码下载pdf呢？

如何通过Python使用World Bank API下载多个PDF文件

使用request和lxml从goodreads API读取XML的尝试失败

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐