scrapy 下载文件 - 腾讯云开发者社区

、

我的项目涉及解析已经通过Scrapy或wget下载的文件。我知道我可以使用XPath选择器，但是到目前为止，我看到的示例涉及到在Scrapy的解析方法中调用XPath选择器，因此只对Scrapy下载的文件起作用。有没有一种方法可以直接对下载的文件使用XPath？我是Python和Scrapy的新手，所以我找不到在独立的非Scrapy Python脚本中调用XPath的方法。

浏览 2提问于2013-01-13得票数 0

1回答

如何使用scrapy通过扩展名为链接的链接下载文件

、

我正在使用scrapy来抓取一个网站，我可以从页面下载文件，但是所有正在下载的都是纯文本文件。如何使用扩展类型下载？我正在下载脚本，因此，在我的下载上有适当的扩展类型是必要的。例如，如果我从exploit-db下载漏洞，我去下载它们的链接应该是：，我从那里提取的下载链接是，如果我正常点击它，它将下载一个ruby文件。但是通过scrapy，它被保存

浏览 0提问于2016-06-20得票数 0

2回答

根据的说法，Scrapy的文件管道和图像管道都“避免重新下载最近下载的媒体”。我有一个爬虫，我正在使用 (JOBDIR)运行它，以便暂停和恢复爬行。最初，我在不下载文件的情况下抓取项目；后来，我添加了一个Files Pipeline。然而，在使用管道重新运行爬行器之前，我忘记了删除JOBDIR。我担心的是，JOBDIR中的requests.seen文件将包含已被抓取的项目的指纹，但没有抓取的文件(因为当它们被抓取时，管道还没有到位)。我正在考虑做的是

浏览 0提问于2017-05-19得票数 3

1回答

安装Scrapy和pyOpenSSL时Cmd退出状态1错误

、、

我正在尝试安装scrapy，到目前为止，我已经安装了Twisted，OpenSSL，也许还有一两个其他的。我正在使用easy install，当我输入以下命令时我得到了这个错误。C:\Users\Joel>easy_install ScrapyBest match: scrapy 0.24.2scrapy

浏览 2提问于2014-08-08得票数 3

3回答

在Windows 64位上安装Scrapy时出错

、、、

我正试图在我的Windows 7 64位计算机上安装Scrapy。首先，我遵循了Scrapy文档中的说明。它们指出，您应该解压缩二进制文件，并将BIN文件夹的内容放在C:\WINDOWS之类的路径中。是我干的。但是，在再次尝试安装Scrapy之后，我继续收到相同的错误。我遗漏了什么吗？

浏览 1提问于2016-01-26得票数 2

1回答

使用网站上多个搜索栏中的单个搜索栏的Python脚本

、、

我想写一个python脚本来从中为每个组提取文件。我想让脚本迭代地搜索"Cell Parameters and Symmetry“搜索选项中的所有空间组，然后下载某个结构的文件(比如第一个)。

浏览 0提问于2020-01-14得票数 0

1回答

尝试在Pycharm中使用Scrapy下载PDF

、、、、

我一直在尝试让Scrapy从一个网站下载所有的PDF文件，但是我似乎无法让它真正下载这些文件。爬虫运行得很好，可以访问url的所有页面，但是没有任何内容被下载。我遵循了Scrapy网站和其他网站上的一些教程和演练，但我就是不能理解它。此外，我也想只下载包含"spec_sheet“的文件，如果可能的话(位于下载部分的任何灯的网站，并也命名的PDF是什么，他们在网站上，而不是一个随机的字母和数字字符串，当他们<

浏览 43提问于2021-01-19得票数 2

1回答

无法安装scrappy

、

我正在使用PyCharm，并希望创建一个Hello World项目。我也不能安装scrappy。Collecting ScrappyCollecting guessit (from Scrappy) Using cached https://file

浏览 17提问于2019-08-02得票数 2

1回答

从网站下载json文件？

、、、

我试着创建一个爬行器从一个网站下载一些json文件- name = 'spiderWords'

浏览 2提问于2021-12-20得票数 -1

回答已采纳

2回答

Scrapy:如何获取文件下载状态

、

我是新来Scrapy的，请耐心听我说。-->现在，我正在努力找出一个文件是否已经下载或者是‘最新的’。如果下载了一个文件，我会从日志中看到： 2017-08-22 17:25:16 [scrapy.statscollectors]

浏览 24提问于2017-08-23得票数 1

回答已采纳

1回答

如何下载一个文件，其中下载按钮会弹出一个刮刀弹出？

、、

我正在尝试从等网站下载APK。当您单击“下载APK”按钮时，在Tor浏览器中会弹出一个弹出窗口，让您可以选择打开或保存文件(见下文)。我想保存这个文件。在items.py中，我按照包含了所需的字段 image_urls = scrapy.Field': 1 IMAGES_STORE = '/tmp/apkmi

浏览 1提问于2017-05-19得票数 0

回答已采纳

4回答

在PyCharm中安装Scrapy库时出错

、

我可以安装其他包，但不能安装Scrapy。我得到以下错误： warning: build_py: byte-compiling is disabled, skipping.

浏览 7提问于2017-06-01得票数 2

1回答

不带文件扩展名的图像的抓取和下载

、、、

我正在尝试使用Scrapy的图像/文件pipeline来下载不带任何文件扩展名的图像。我试过将".jpg“附加到url的末尾，但不起作用。我如何下载这些类型的图像？使用适当的文件扩展名从其他URL下载可以正常工作，并且我可以看到图像被<em

浏览 2提问于2018-11-13得票数 0

1回答

Scrapy:使用python 3.6在windows 10上安装scrapy，并发现缺少MSVCP140.dll文件

、、

当我在PC上安装scrapy框架时，我遇到了错误“命令' cl.exe‘没有这样的文件或目录失败”，并且在我通过在visual studio 14中导入cl.exe路径来修复它之后，我不会再次看到这个错误(命令'cl.exe’失败没有这样的文件或目录)，但是我遇到了一个新的错误，它是关于文件MSVCP140.dll的。

浏览 2提问于2017-08-03得票数 2

1回答

下载图片会导致值重复并给出错误

、

Spider运行正常，并将数据保存在mongodb中，但突然开始在数据库、json和csv中保存重复的值，我删除了下载图像的代码，它工作得很好，但我需要图像，有人能帮我吗？提前谢谢。items.pyclass BucketItem(scrapy.Item):store_name= scrapy.Field()sub_category = <e

浏览 0提问于2019-11-05得票数 0

1回答

可以完全下载pdf文件吗？

、、、

我想从由爬虫抓取的pdf网页链接中下载许多pdf文件，但是当我在filespipeline中使用scrapy.Request(pdf_url)抓取pdf网页时，最终它下载了不完整的pdf文件。除了前几个文件(它们是完整的)之外，所有的pdf文件都是1KB的。我不得不使用requests.get(pdf_url, stream=True)完全下载所有的pdf文件，但它太慢了。我想知道scrapy filespipeli

浏览 19提问于2019-07-11得票数 0

3回答

在Scrapy中下载文件时出现错误302

、

[scrapy] WARNING: File (code: 302): Error downloading file from <GET <url> referred in <None> 'FILES_STORE': 'C:\\Users\\User\\Downloads\

浏览 5提问于2016-05-22得票数 1

1回答

使用Scrapy:如何从一些提取的链接下载pdf文件

、

我已经创建了一些从网站中提取链接的代码(PDF链接)，现在我需要下载这些PDF文件，但是我很难做到这一点。这是代码： name = "all5" next_link = response.urljoin(link)

浏览 0提问于2019-07-28得票数 0

回答已采纳

1回答

从刮刮处下载的图像比预期的要小(jpegs)或不可读(tifs)

、、、

本质上，我使用刮擦脚本下载的文件与我手动下载的文件不匹配。所有文件(即使是最小的jpeg图像)都会缩小大小。当我打开Photoshop中的图片时，'tif‘文件是一种无法识别的格式。木桩开得很好。此外，我下载的文件被下载为灰度文件，而我的脚本抓取的文件是RGB文件。据我所知，上的文档几乎都是用来处理带有刮痕的图像的，但它确实提到它使用枕头库进行处理。我的想法是，它在默认

浏览 0提问于2018-08-04得票数 2

回答已采纳

1回答

刮取检查是否刮过url，返回任何可下载的文件

、、

我是新来的Scrapy公司，到目前为止还没有找到任何帮助。我想要做一个小的刮刀，它可以刮除页面上所有的Url，然后一个一个地点击它们，如果Url返回任何可下载的任何扩展名文件，然后下载并保存到指定的位置。下面是我编写的代码：items.py file = scrapy.Field()spid

浏览 3提问于2016-05-19得票数 1

点击加载更多