使用scrapy下载完整页面-不使用指定的url路径

Scrapy是一个基于Python的开源网络爬虫框架，用于快速、高效地从网页中提取数据。它提供了强大的工具和库，可以帮助开发人员轻松地构建和管理爬虫程序。

要使用Scrapy下载完整页面，可以按照以下步骤进行操作：

安装Scrapy：首先，确保已经安装了Python和pip包管理器。然后，在命令行中运行以下命令来安装Scrapy：

pip install scrapy

创建Scrapy项目：在命令行中，使用以下命令创建一个新的Scrapy项目：

scrapy startproject project_name

其中，project_name是你想要给项目起的名称。

创建Spider：进入项目目录，使用以下命令创建一个Spider：

scrapy genspider spider_name domain.com

其中，spider_name是你想要给Spider起的名称，domain.com是你要爬取的网站域名。

编写Spider代码：打开生成的Spider文件（位于project_name/spiders目录下），在parse方法中编写解析网页的代码。可以使用Scrapy提供的选择器（Selector）来提取所需的数据。
配置下载中间件：为了下载完整页面，需要在Scrapy项目的配置文件（settings.py）中启用相应的下载中间件。找到DOWNLOADER_MIDDLEWARES配置项，并添加以下中间件：

'DownloaderMiddlewares.DownloadFullPageMiddleware': 543,

这个中间件会修改Scrapy的默认行为，使其下载完整页面。

运行爬虫：在命令行中，使用以下命令运行爬虫：

scrapy crawl spider_name

其中，spider_name是你之前创建的Spider的名称。

通过以上步骤，你就可以使用Scrapy下载完整页面了。Scrapy提供了丰富的功能和灵活的配置选项，可以满足各种爬取需求。如果想要了解更多关于Scrapy的信息，可以参考腾讯云的相关产品文档：Scrapy产品介绍。

使用scrapy下载完整页面-不使用指定的url路径

、、、

我想下载https://en.wikinews.org/w/index.php?title=Category:Politics_and_conflicts&from=F的内容我可以从其他页面下载它，比如https://en.wikinews.org/wiki/Category:Politics_and_conflicts我刚接触scrapy，不明白为什么我不能使用第一个链接。filename = &

浏览 23提问于2020-04-03得票数 1

0回答

使用scrapy下载完整页面

、、

我想用scrapy下载整个页面的内容。这很容易做到：reload(sys) from selenium import webdriver driver.get(url) conten

浏览 8提问于2016-07-07得票数 10

回答已采纳

1回答

尝试下载文件，而不启动刮除项目，但从.py文件。在python文件中创建自定义管道，此错误如下所述

、

scrapy.Spider): url = 'https://kern.humdrum.org/cgi-bin/browse?( headers = self.headers, process.craw

浏览 3提问于2021-05-28得票数 1

回答已采纳

2回答

从相对路径构造绝对路径的非重复列表

、、、、

img src问题：如何使用Scrapy从标记下的相对路径创建一个非重复的绝对路径列表？img src背景：我尝试使用Scrapy爬行站点，在标记下提取任何链接，将相对路径转换为绝对路径，然后生成CSV或列表数据类型中的绝对路径。我计划将上述功能与实际使用Scrapy下载文件并同时爬行链接结合起来，但当我到达它时，我将跨过这座桥

浏览 16提问于2018-01-01得票数 1

回答已采纳

1回答

如何关闭scrapy的ImagesPipeline自动创建完整的文件夹？

、

当使用scrapy的ImagesPipeline下载图片时，我已经设置了保存路径，但是我仍然会在保存路径中为我创建一个新的完整文件夹。我不想让它为我创造一个完整的。我怎么才能把它关起来？我在scrapy的settings.py中设置了图像存储的路径。

浏览 1提问于2018-10-23得票数 0

回答已采纳

1回答

刮取检查是否刮过url，返回任何可下载的文件

、、

我是新来的Scrapy公司，到目前为止还没有找到任何帮助。我想要做一个小的刮刀，它可以刮除页面上所有的Url，然后一个一个地点击它们，如果Url返回任何可下载的任何扩展名文件，然后下载并保存到指定的位置。下面是我编写的代码：items.py f

浏览 3提问于2016-05-19得票数 1

1回答

可以完全下载pdf文件吗？

、、、

我想从由爬虫抓取的pdf网页链接中下载许多pdf文件，但是当我在filespipeline中使用scrapy.Request(pdf_url)抓取pdf网页时，最终它下载了不完整的pdf文件。除了前几个文件(它们是完整的)之外，所有的pdf文件都是1KB的。我不得不使用requests.get(pdf_url, stream=True)完全下载所

浏览 19提问于2019-07-11得票数 0

1回答

当包含子内容时，父屏幕看起来会中断。

在编写“用Moqui制作应用程序”一书的教程时，在第1部分“尝试子内容”下，我的tutorial.xml屏幕如下所示： <subscreens-active/> </screen> 位于url localhost的子屏幕:8080/app/apps

浏览 5提问于2014-08-13得票数 1

回答已采纳

3回答

在scraper.http.HtmlResponse类构造函数中"body“的意义是什么？

、

这可能是一个超级菜鸟question...forgive我，如果它是....我读到过这样一个构造HtmlResponse类的例子：body=html是做什么的？它是否指定了源html？为什么即使已经指定了url，也需要源html？

浏览 0提问于2018-12-14得票数 0

1回答

不带文件扩展名的图像的抓取和下载

、、、

我正在尝试使用Scrapy的图像/文件pipeline来下载不带任何文件扩展名的图像。我试过将".jpg“附加到url的末尾，但不起作用。我如何<em

浏览 2提问于2018-11-13得票数 0

1回答

抓取在URL中看到的具有相应名称的图像

、、

基本上，我已经收集了数千张图片，并设法将它们放入按名称分类的文件夹中。在这些文件夹中，图像被标记为大量随机数字。我想知道是否有一种方法可以从Url中提取标签来命名图像。此链接的对应图片被标记为为此，我使用了scrapy。

浏览 0提问于2021-01-15得票数 1

1回答

Scrapy不爬行于start中包含的数据。

、、

我试图抓取整个网站使用刮刮。根据scarpy的文件因此，根据这个定义，scrapy应该遍历start_urls下提到的页面上<

浏览 3提问于2014-10-29得票数 2

回答已采纳

1回答

如何在python中从网页中获取链接？

、

我如何去链接并获得它的子链接，然后再次获得它的子子链接?

浏览 8提问于2020-05-04得票数 0

回答已采纳

1回答

如何使Selenium脚本更快地工作？

、、、、

我使用和Scrapy来爬行网站。Crawled 1 pages (at 1 pages/min)def start_requests(self):def parse(self

浏览 4提问于2016-08-19得票数 3

回答已采纳

1回答

Scrapy暂停和恢复爬网，结果目录

、、

我已经使用简历模式完成了一个抓取项目。但我不知道结果在哪里。scrapy crawl somespider -s JOBDIR=爬行/somespider-1 我看了看https://docs.scrapy.org/en/latest/topics/jobs.html，但它没有显示任何有关它的信息？包含结果的文件在哪里？] INFO: Dumping Scrapy stats: {'bans/er

浏览 30提问于2020-09-11得票数 1

回答已采纳

1回答

如何用粗糙的框架刮网页？

、、

我是网络抓取的新手。我已经开始学习scrapy框架。import scrapy name = "clothes"但我没有得到预期的结果。当我打开clothes.html时，html-

浏览 2提问于2017-12-18得票数 0

回答已采纳

1回答

抓取解析网页，提取结果页，并下载图像。

、、、、

我已经用python编写了一个web爬虫，使用了Beautiful，并请求为一个项目抓取图像，但是速度很慢。我听说Scrapy要快得多，所以我安装了它并阅读了大量教程，但是我不知道如何在爬行器脚本的parse函数中实现爬虫。如果我提供到搜索结果的第一页的链接，它应该： 'id' 通过分析特定类的<a>标记来查找搜索结果中的页数，并根据特定类的<a>标记分析Get链接，并根据特定的从这些链接中

浏览 3提问于2020-05-17得票数 1

回答已采纳

1回答

使用Scrapy API的简单抓取器

我正在使用Scrapy在一个更大的项目中编写一个刮板，并且我试图使它尽可能地最小化(而不是创建一个完整的scrapy项目)。这段代码正确地下载了一个URL： import scrapy class WebsiteSpider(scrapy.Spidername = 'my_website_scraper&

浏览 12提问于2021-01-26得票数 0

1回答