我想从由爬虫抓取的pdf网页链接中下载许多pdf文件,但是当我在filespipeline中使用scrapy.Request(pdf_url)
抓取pdf网页时,最终它下载了不完整的pdf文件。除了前几个文件(它们是完整的)之外,所有的pdf文件都是1KB的。我不得不使用requests.get(pdf_url, stream=True)
完全下载所有的pdf文件,但它太慢了。我想知道scrapy filespipelines是否有类似的方法?
发布于 2019-07-11 13:53:13
我真的不确定scrapy
是否能做到这一点。您可以使用wget
库进行下载。
import wget
pdf_url = "url_of_the_pdf.pdf"
wget.download(pdf_url)
https://stackoverflow.com/questions/56982280
复制相似问题