问可以完全下载pdf文件吗？
EN

Stack Overflow用户

提问于 2019-07-11 13:42:11

回答 1查看 75关注 0票数 0

我想从由爬虫抓取的pdf网页链接中下载许多pdf文件，但是当我在filespipeline中使用scrapy.Request(pdf_url)抓取pdf网页时，最终它下载了不完整的pdf文件。除了前几个文件(它们是完整的)之外，所有的pdf文件都是1KB的。我不得不使用requests.get(pdf_url, stream=True)完全下载所有的pdf文件，但它太慢了。我想知道scrapy filespipelines是否有类似的方法？

python

pdf

stream

scrapy

回答 1

Stack Overflow用户

发布于 2019-07-11 13:53:13

我真的不确定scrapy是否能做到这一点。您可以使用wget库进行下载。

import wget
pdf_url = "url_of_the_pdf.pdf"
wget.download(pdf_url)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56982280

复制

相似问题

问可以完全下载pdf文件吗？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问可以完全下载pdf文件吗？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问可以完全下载pdf文件吗？
EN