为什么scrapy返回给我原始的url？

Scrapy返回原始的URL可能是因为以下几个原因：

重定向（Redirect）：当服务器返回重定向响应时，Scrapy默认会跟随重定向并返回最终的URL。但有时候你可能想要获取原始的URL，可以通过设置REDIRECT_ENABLED为False来禁用重定向，这样Scrapy就会返回原始的URL。
域名规范化（Canonicalization）：Scrapy会对URL进行规范化处理，即将URL中的相对路径转换为绝对路径，去掉多余的斜杠等。如果你需要获取原始的URL，可以通过response.request.url来获取未经过规范化处理的URL。
URL过滤（URL Filtering）：在Spider中可以使用allowed_domains属性来设置允许爬取的域名，如果URL不在该列表中，则会被过滤掉。如果你需要获取原始的URL，可以通过设置dont_filter为True来禁用URL过滤，这样即使URL不在allowed_domains中，也会被爬取并返回原始的URL。
请求处理中间件（Downloader Middleware）：Scrapy的请求处理中间件可以对请求进行修改或过滤。如果你使用了自定义的请求处理中间件，可能会对URL进行处理或过滤导致返回的URL不是原始的。可以检查请求处理中间件的代码，确保没有对URL进行修改。

总结起来，如果Scrapy返回给你原始的URL，可能是由于重定向、域名规范化、URL过滤或请求处理中间件的原因。你可以根据具体情况调整Scrapy的配置或检查代码，以获取原始的URL。

刮除:图像管道，下载图像

、、、

下面是：教程，我制作了一个简单的图像爬虫(擦拭Bugattis的图像)。在下面的示例中说明了这一点。然而，按照指南给我留下了一个没有功能的爬虫！它会找到所有的urls，但不会下载图片。我找到了一个鸭带解决方案:替换ITEM_PIPELINES和IMAGES_STORE，这样； ITEM_PIPELINES['scrapy.pipeline.images.FilesPipeline'] = 1和 IMAGES_STORE -> FILES_STORE 但我不知道这是为什么？我想使用刮刮记录的ImagePipeline。示例 settings.py BOT_NAME =

浏览 14提问于2016-07-26得票数 6

回答已采纳

2回答

抓取/Python的产量和继续处理可能吗？

、、、

我正在尝试这个示例代码 from scrapy.spiders import Spider, Request import scrapy class MySpider(Spider): name = 'toscrapecom' start_urls = ['http://books.toscrape.com/catalogue/page-1.html'] urls = ( 'http://books.toscrape.com/catalogue/page-{}.html'.format(i + 1

浏览 0提问于2019-04-17得票数 0

2回答

使用scrapy从网站中提取表格

、、

我想从表中抓取文本，他们会给我数据，但是他们不会给我这些数据，如图所示。 from scrapy import Spider from scrapy.http import Request class AuthorSpider(Spider): name = 'book' start_urls = ['https://blogsrl.it/gb/4-no-food'] def parse(self, response): books = response.xpath("//h3/a/@href"

浏览 0提问于2022-02-11得票数 0

回答已采纳

1回答

刮不动桌子，空空如也

、、

嗨，im试图在以下网址中从表(id:datatable-1)中刮取一些数据：我的蜘蛛里有个密码： import scrapy class ScrapeTableSpider(scrapy.Spider): name = "scrape-table" allowed_domains = ['https://www.timeshighereducation.com/world-university-rankings/2021/world-ranking#!/page/0/length/25/sort_by/scores_overall/sort_ord

浏览 0提问于2020-10-26得票数 0

回答已采纳

2回答

Scrapy:爬行器不返回任何内容

、、、、

这是我第一次创建一个爬虫，尽管我努力了，但它仍然没有给我的csv导出带来任何回报。我的代码是： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import Selector class Emag(CrawlSpider): name = "emag" allowed_domains = ["emag.ro"]

浏览 2提问于2014-06-19得票数 0

1回答

动态设置scrapy请求回调

、

我在和刮伤一起工作。我希望在每个请求的基础上旋转代理，并从返回单个代理的api中获得代理。我的计划是向api发出请求，获得一个代理，然后使用它来根据以下内容设置代理： http://stackoverflow.com/questions/39430454/making-request-to-api-from-within-scrapy-function 我有以下几点： class ContactSpider(Spider): name = "contact" def parse(self, response): .... PR = Request(

浏览 3提问于2016-09-19得票数 1

回答已采纳

1回答

解析中的scrapy回调未调用

、

我正在尝试刮伤，结果被卡住了。我希望这个脚本能够运行回调。 import scrapy from scrapy.spiders import Spider class ASpider(Spider): name = 'myspider' allowed_domains = ['wikipedia.org','en.wikipedia.org'] start_urls = ['https://www.wikipedia.org/'] def parse(self, response):

浏览 5提问于2016-05-31得票数 1

回答已采纳

1回答

scrapy.Request不进入下载中间件，它返回请求而不是响应

、

我正在使用scrapy.Spider来搜索，并且我希望在回调函数中使用请求(在start_requests中)，但是该请求不起作用，它应该返回一个响应，但它只返回请求。我跟踪调试断点，发现在类请求(Object_ref)中，请求只完成了初始化，但没有像预期的那样进入Request = next(slot.start_requests)开始请求，因此只返回请求。以下是我的代码： class ProjSpider(scrapy.Spider): name = 'Proj' allowed_domains = ['mashable.com']

浏览 1提问于2019-08-25得票数 0

1回答

Scrapy parse返回的是一个空数组，这与收益率无关

、

我是一个全新的Scrapy新手，我可以在这里给你一些提示。我意识到有很多类似的问题，但似乎没有一个能解决我的问题。我有以下代码为一个简单的网络刮板写的： import scrapy from ScriptScraper.items import ScriptItem class ScriptScraper(scrapy.Spider): name = "script_scraper" allowed_domains = ["https://proplay.ws"] start_urls = ["https://proplay

浏览 15提问于2020-06-12得票数 0

回答已采纳

1回答

将真实URL通过Scrapy-Splash传递到字典

、、

当试图通过('url‘：response.request.url)将url保存到字典中时，Scrapy从Scrapy中保存所有相同的url () 我尝试过添加额外的参数，这些参数将传递真正的URL，但没有效果。 from scrapy import Spider from scrapy.http import FormRequest from scrapy.utils.response import open_in_browser from scrapy import Request import scrapy from scrapy_splash import SplashReque

浏览 2提问于2019-02-01得票数 2

回答已采纳

2回答

在刮除输出中包含Excel工作表的原始URL

、、

我在用Scrapy爬几页。我指的是start_urls的excel表，我希望这些正确的开始urls出现在结果中，而不是重定向的urls中。我需要原件，以便处理Excel查找。问题是，我似乎只能得到一个给出目标url的输出。我的代码如下； from scrapy.spiders import Spider from scrapy.selector import Selector from ICcom5.items import ICcom5Item from scrapy.linkextractors import LinkExtractor from scrapy.utils.respon

浏览 7提问于2020-02-03得票数 0

回答已采纳

2回答

抓取下一页的抓取循环

、、、

你好，我正在尝试进入单词抓取器和爬虫，但是我不明白为什么我的代码不能转到下一页和循环。 import scrapy from scrapy import* import scrapy from scrapy import* class SpiderSpider(scrapy.Spider): name = 'spider' start_urls = ['https://www.thehousedirectory.com/category/interior-designers-architects/london-interior-desi

浏览 27提问于2021-03-31得票数 0

回答已采纳

1回答

我想将Image存储在excel工作表CSV中，但给我以下数据:image/

、、、

我想将图像存储在excel工作表CSV中，但是给我这个"data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw=="而不是图像url class NewsSpider(scrapy.Spider): name = "articles" def start_requests(self): url = input("Enter the article url: ") yield scrapy.R

浏览 5提问于2022-10-11得票数 0

回答已采纳

1回答

Scrapy-Splash如何将返回变量添加到响应

、、

我想运行一个启动脚本，它在lua中做一些事情，然后将结果返回给我的scrapy机器人。但是，我只能接收html主体，而不能接收return语句中的任何变量。 splash:go(...) --lua/splash stuff test = 500 return { -- another SO thread stated that these have to be in JSON format? doesn't work either way though test = test } 我尝试使用JSON-endpoint，但结果相同。Scrapy-Splash文档也没有真正解释如何获取

浏览 14提问于2020-09-26得票数 1

1回答

为什么在产生请求时不调用自定义回调，而是调用解析方法？

、、

我想在中浏览页面，我编写了下面的代码， pageNav.py： #! /usr/bin/env python # -*- coding: utf-8 -*- from scrapy.spider import Spider from scrapy.selector import Selector from scrapy.http import Request class pageNaviSpider(Spider): name = 'navi' start_urls = ['https://itunes.apple.com/us/genre/ios-

浏览 4提问于2014-05-04得票数 0

回答已采纳

1回答

为什么Scrapy只抓取一个页面？

我正在尝试测试抓取网页的Scrapy，我不明白为什么我的爬虫只抓取一个页面，我尝试评论规则和allowed_domains都没有成功。我想我遗漏了一些愚蠢的东西如果能帮上忙我会很感激的。 from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.spider import BaseSpider from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor class NYSpider(CrawlSpider): name = "ny

浏览 3提问于2012-03-21得票数 1

回答已采纳

3回答

Scrapy - TypeError:参数必须是字节或unicode，获取“list”

、、、、

这是我的第一个Scrapy spider项目。我是Python的新手，所以请原谅我的无知。基本上，我想从www.doritos.com/products/页面抓取图像。我将使用这些图像进行目标检测项目，因此我正在构建我的训练数据集。以下是到目前为止的代码： import scrapy from scrapy.contrib.spiders import Rule, CrawlSpider from scrapy.contrib.linkextractors import LinkExtractor from doritos.items import DoritosItem

浏览 157提问于2019-01-06得票数 0

1回答

物品装载机在刮擦中不能正常工作

、

我试着研究项目加载器，下面的代码不能正常工作:它只给我"start_url“值，而不是"SUBJECT”和"CREATOR2“值(它们根本不出现，不只是一个空槽)。我搞不懂它为什么这么做。我需要使用项目加载器，特别是用于"CREATOR2“值，这个值有时在xpath上，有时在另一个上。 import scrapy from bibtime.items import BibtimeItem, BibtimeLoader from scrapy.loader import ItemLoader from scrapy.contrib.loader.processo

浏览 0提问于2016-05-16得票数 3

回答已采纳

1回答

如何在scrapy 1.7.3中覆盖file_path函数？

、、

在不覆盖file_path函数的情况下，爬行器下载具有默认“request URL hash”文件名的所有图像。然而，当我试图重写这个函数时，它就是不起作用。默认的输出属性image中没有任何内容。我尝试了settings.py中IMAGES_STORE变量的相对路径和绝对路径，以及file_path函数，但都无济于事。即使我用完全相同的默认file_path函数重写file_path函数，图像也不会下载。任何帮助都将不胜感激！ settings.py BOT_NAME = 'HomeApp2' SPIDER_MODULES = ['HomeApp2.spide

浏览 28提问于2019-12-07得票数 1

回答已采纳

1回答

下载图像并将其存储到单独的文件中

、

我想从网上下载图片，并根据图片的标题名称将它们存储到单独的文件中。我开发了一个刮刀器来获取到这些图像的链接，但是当我包含files_pipeline时，我不能在下载每个图像时将.png附加到每个图像中，而不能将名称从SHA1哈希码更改为我在title中提取的名称。到目前为止，我的情况如下： import scrapy from scrapy_playwright.page import PageCoroutine from scrapy.item import Field from scrapy.loader import ItemLoader from itemloaders.proces

浏览 8提问于2022-02-23得票数 0

1回答

刮除Xpath输出为空

、、、

我想在这个网站上提取数据：，我正在学习python，以及如何使用Scrapy，我的问题是:为什么我不能用Xpath检索数据？当我在浏览器中测试Xpath时，我的xpath看起来很好，它会返回正确的值。(谷歌Chrome) import re from scrapy import Spider from scrapy.selector import Selector from stack.items import StackItem class StackSpider(Spider): name = "stack" allowed_domains = ["poke

浏览 2提问于2016-06-28得票数 3

回答已采纳

1回答

如何在Scrapy start_url中找到当前的CrawlSpider？

、、、

当从自己的脚本运行Scrapy (从DB加载URL并遵循这些网站上的所有内部链接)时，我会遇到一个小问题。我需要知道当前使用的是哪个start_url，因为我必须保持与数据库(SQL )的一致性。但是:当Scrapy使用名为“start_urls”的内置列表来接收要跟踪的链接列表时，这些网站就会立即重定向，就会出现问题。例如，当Scrapy启动并且start_urls正在被爬行，并且爬虫跟踪在那里找到的所有内部链接时，我以后只能确定当前访问的URL，而不是Scrapy开始运行的start_url。其他来自网络的答案是错误的，因为去年Scrapy的代码似乎发生了变化，因此对于其他用例或废弃的答

浏览 1提问于2018-09-10得票数 2

回答已采纳

1回答

为什么scrapy返回给我原始的url？

、、

它花了一段时间，但我终于明白了差异来自哪里！带有url https://www.meetup.com/Google-Cloud_Meetup_Singapore_by_Cloud-Ace/events/264513425/attendees/的抓取MeetupGetParticipants [s] scrapy scrapy module (contains scrapy.Request, scrapy.Selector, etc) [s] crawler <scrapy.crawler.Crawler object at 0x04E0BD30> [s]

浏览 16提问于2019-09-29得票数 0

1回答

当Scrapy遍历一个href列表时，为什么不按顺序显示刮取的项？

当Scrapy迭代在页面上找到的href列表时，为什么它开始在列表中间的某个位置显示已刮过的项，而不是使用第一个href呢？我从这个页面上找到的链接列表中提取状态库信息：。我使用的xpath如下： //div/div/div/table/tr/td/a/@href 代码似乎运行良好，但我想知道为什么，当刮擦的项目显示，似乎从肯塔基州，路易斯安那州，密西西比州或密苏里州开始。实际上它首先显示的是不一致的，但它最终显示了所有的状态(只是没有按页面上的顺序显示)。为什么不从阿拉巴马开始呢？这和线程有关吗？如果是这样的话，有没有办法强迫Scrapy按照它们在初始页面上出现的顺序显示它们？蜘蛛代

浏览 0提问于2015-11-19得票数 1

回答已采纳

1回答

在scrapy中禁用递归刮取

、

几个月来，我一直在使用scrapy来验证我网站上的链接，它非常适合爬行我的整个站点。现在我试图更新我的脚本以禁用递归，我只想刮一组特定的URL，到目前为止我还没有成功。这是siteScrape.py的内容 import scrapy from scrapy.http import HtmlResponse from scrapy.linkextractors import LinkExtractor from scrapy.selector import Selector from scrapy.spiders import CrawlSpider, Rule from my_scrape.

浏览 2提问于2021-02-26得票数 0

1回答

如何正确测试Scrapy spider Python生成器函数？

、、、

我有一个Scrapy XMLFeedSpider，我正在尝试测试以下parse_node函数： def parse_node(self, response, selector): date = selector.xpath('pubDate/text()').extract_first() url = selector.xpath('link/text()').extract_first() if date < self.cutoff_date: # TEST VALIDITY OF THE DATE

浏览 9提问于2016-05-05得票数 1

回答已采纳

2回答

想刮飞毛腿

、、、

简而言之，我必须刮除Flipkart并将数据存储在Mongodb中。首先，使用为自己提供一个免费的托管Mongodb服务器。测试您是否能够使用python的库pymongo连接到它。其次，安装并使用它的文档使自己对使用Scrapy的刮取更友好。然后，转到以下两个urls 男装女鞋每一页有40个产品，你必须从每个开始的Url抓取多达25页(大约。2000产品)并将数据存储在Mongodb (数据库：，集合: flipkart)中。数据应该直接从Scrapy框架中使用Scrapy管道插入到Mongodb中。你刮到的每一个产品都应该有以下数据： name存储为字符串 brand存

浏览 5提问于2021-04-28得票数 2

回答已采纳

1回答

Scrapy ProgrammingError:不是所有参数都在SQL语句中使用

、、、、

我面临的问题是，Scrapy代码，特别是管道，给我提供了一个编程错误mysql.connector.errors.ProgrammingError: Not all parameters were used in the SQL statement'。这是我的管道代码： import csv from scrapy.exceptions import DropItem from scrapy import log import sys import mysql.connector class CsvWriterPipeline(object): def __init__(

浏览 3提问于2015-01-21得票数 0

回答已采纳

1回答

scrapy下载机中间件中的重试请求

、、、、

在抓取的过程中，我使用了scrapoxy来实现IP旋转。我有一个状态代码的列表BLACKLIST_HTTP_STATUS_CODES，它指示当前IP被阻塞。问题：一旦在BLACKLIST_HTTP_STATUS_CODES中获得了状态代码的响应，那么，报废下载中间件就会引发IgnoreRequest，然后更改IP。结果，我的脚本跳过了其响应得到错误状态代码的url。日志示例： [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.some-website.com/profile/190> (referer: No

浏览 6提问于2020-02-05得票数 1

回答已采纳

2回答

未能用抓取蜘蛛爬行特定网站的元素

、、、

我想要一些作业的网站地址，所以我写了一个刮擦蜘蛛，我想用xpath://article/dl/dd/h2/a[@class="job-title"]/@href,获得所有的值，但是当我使用命令执行这个蜘蛛时： scrapy spider auseek -a addsthreshold=3 用来保存值的变量"urls"是空的，有人能帮我弄清楚吗，这是我的代码： from scrapy.contrib.spiders import CrawlSpider,Rule from scrapy.selector import Selector from scrapy.c

浏览 7提问于2014-06-26得票数 1

回答已采纳

2回答

在downlaoder中间件中创建新请求

如何使用代理设置active middlewares.py创建新请求 from urllib.parse import urlencode from scrapy.http import Request def get_url(url): payload = {'api_key': 'my_api', 'url': url} proxy_url = 'http://api.scraperapi.com/?'+urlencode(payload) return

浏览 25提问于2020-07-06得票数 2

回答已采纳

1回答

抓取和维基百科，得到空字符串

、、

我是个Python初学者，这是我的第一个问题。我试图从这个中抓取标题和urls，并将它们存储在.json中。在scrapy shell中的初步xpath测试 sel.xpath('//tr[@style="vertical-align: top;"]//a') 在终端中显示标签中的urls和标题，但是完整脚本返回空字符串的.json文件，如下所示： [{"url": [], "title": []}, {"url": [], "title": []}, {"url": [],

浏览 0提问于2014-03-07得票数 4

回答已采纳

2回答

CrawlerRunner不使用钩针抓取页面

、、、

我正在尝试使用CrawlerRunner()从脚本启动一个剪贴画，以便在AWS Lambda中启动。我在Stackoverflow中看了钩针库的解决方案，但它对我不起作用。链接：代码如下： import scrapy from scrapy.crawler import CrawlerRunner from scrapy.utils.project import get_project_settings from scrapy.utils.log import configure_logging # From response in Stackoverflow: https://st

浏览 0提问于2019-01-29得票数 0

1回答

在代码中在item对象中追加一个字符串URL

、

我想在项目中追加字符串url： object(item['urls'] = sel.xpath('a/@href').extract()) 示例： item['urls'] = "http://lakmeindia.com" + sel.xpath('a/@href').extract() # Item class import scrapy class LakmeSampleItem(scrapy.Item): urls = scrapy.Field() catagory = scrapy

浏览 3提问于2014-08-19得票数 1

回答已采纳

1回答

Python requests.post的刮伤版

、、、

我正在对特定端点执行请求，使用python请求添加一些头和json。但是，由于我正在编码的存储库的体系结构是基于scrapy的，所以我想提出相同的请求，但要翻译为scrapy 我的Json数据 json_data = { 'query': '', 'page_size': 20, # IMPORTANT FIELD 'page_token': '0', # IMPORTANT FIELD 'sponsored_results_max': 2, # IMP

浏览 5提问于2022-10-11得票数 0

1回答

为什么不给出所有的结果和规则部分也不起作用？

、、、、

此脚本只提供给我第一个结果或.extract()[0]，如果我将0更改为1，则为下一项。为什么不再迭代整个xpath？规则部分也不起作用。我知道问题出在response.xpath。怎么处理呢？我的另一个脚本正在运行，但这不是 import scrapy from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.selector import Selector from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from urlparse i

浏览 1提问于2015-06-02得票数 1

回答已采纳

1回答

Scrapy.request没有获得新的url

、

嗨，我下面有这段代码(我删除了很多if循环，并将其简化为易于理解)。problem是这个刮伤，擦伤只是网站的第一页。我发现hte scrapy.request并没有得到新的url，并且在项目‘url’中总是只有基url被追加并因此下载。 import scrapy from collections import Counter from scrapy.selector import Selector from Mycode.items import * class ExampleSpider(scrapy.Spider): name = "full_sites"

浏览 6提问于2016-12-14得票数 1

回答已采纳

3回答

刮擦标签返回一个空的答案，但里面有文本

、、、、

我试着废除和爬行一个网站。数据在tbody标记(事件名)中。当我检查google控制台时，tbody标记有文本数据，但是当我试图将它报废时，它会返回一个空答案(也是在scrapy shell中测试的)。我检查了AJAX方法，因为它可以对脚本进行bug，但它似乎没有。，您知道为什么答案是空的，而tbody标记在源代码中有文本吗? 这里是我的代码 nom_robot = 'ListeCAP' domaine = ['www.justrunlah.com'] base_url = [ "https://www.justrunlah.com/run

浏览 0提问于2018-03-08得票数 2

回答已采纳

1回答

刮擦爬行器只刮一个项目，而不是全部。

、、

我试图使用下面的代码从中从A开始抓取项目。 import scrapy from scrapy.selector import Selector from ..items import RozeepkItem class JobcatsSpider(scrapy.Spider): name = 'jobcats' allowed_domains = ['www.rozee.pk'] start_urls = ['https://www.rozee.pk/jobs-by-industry'] def p

浏览 3提问于2020-06-27得票数 1

回答已采纳

1回答

Scrapy https教程

、、、

所有人！我是Scrapy框架的新手。我需要解析wisemapping.com。起初，我阅读了官方的Scrapy教程，并试图访问一个"wisemap“，但得到了一个错误： [scrapy.core.engine] DEBUG: Crawled (404) <GET https://app.wisemapping.com/robots.txt> (referer: None) [scrapy.downloadermiddlewares.retry] DEBUG: Gave up retrying <GET https://app.wisemapping.com/c/m

浏览 0提问于2017-07-01得票数 1

2回答

Python不重试超时连接

、、、

我用了一些代理程序来爬行一些网站。下面是我在settings.py做的事情： # Retry many times since proxies often fail RETRY_TIMES = 10 # Retry on most error codes since proxies fail for different reasons RETRY_HTTP_CODES = [500, 503, 504, 400, 403, 404, 408] DOWNLOAD_DELAY = 3 # 5,000 ms of delay DOWNLOADER_MIDDLEWARES = {

浏览 6提问于2013-12-12得票数 9

回答已采纳

1回答

Python脚本- AttributeError：'dict‘对象没有属性'urljoin’

、、

下面是执行scrapy以填充dynamodb的urls，这是刮取的结果。我发现了一个错误： AttributeError：“dict”对象没有属性“urljoin” 但是，我不清楚为什么。 ############################################## # Script: Prep storage for chemtrail # # Author: James # # Purpose: # # Version:

浏览 0提问于2019-06-24得票数 0

2回答

只在刮伤中返回特定的urls

、

我正在使用刮除从一个网站的网址。目前，它返回所有的urls，但我希望它只返回包含单词“download”的urls。我该怎么做？ from scrapy.selector import HtmlXPathSelector from scrapy.spider import BaseSpider from scrapy.http import Request import scrapy DOMAIN = 'somedomain.com' URL = 'http://' +str(DOMAIN) class MySpider(scrapy.Spider):

浏览 5提问于2017-03-27得票数 1

回答已采纳

1回答

查找链接的XPath表达式提供"TypeError: Request必须是str或unicode，got“

、、

我试着用刮擦来刮，但是我一直在找错误 raise TypeError('Request url must be str or unicode, got %s:' % type(url).__name__) TypeError: Request url must be str or unicode, got NoneType 我试图寻找类似的问题，但没有得到答案，为什么刮刮给我这个错误。这是我的蜘蛛 from scrapy import Spider from lawn.items import LawnItem import scrapy import re cl

浏览 1提问于2019-11-27得票数 0

回答已采纳

1回答

无法通过管道重命名下载的映像而不使用item.py

、、、、

我创建了一个脚本，使用python的scrapy模块从一个洪流站点下载并重命名多个页面上的电影图像，并将它们存储在桌面文件夹中。在下载这些图像并将其存储在桌面文件夹中时，我的脚本也是一样的。然而，我现在所要做的是动态地重命名这些文件。由于我没有使用item.py文件，而且我也不希望这样做，我很难理解pipelines.py文件的逻辑将如何处理重命名过程。我的蜘蛛(It downloads the images flawlessly)： from scrapy.crawler import CrawlerProcess import scrapy, os class YifySpider(s

浏览 0提问于2019-02-17得票数 0

回答已采纳

1回答

刮除表单请求不返回任何数据

、、、

我在向一个网站申请表格。请求是成功的，但它没有返回任何数据。日志： 2020-09-05 22:37:57 [scrapy.core.engine] DEBUG: Crawled (200) <POST https://safer.fmcsa.dot.gov/query.asp> (referer: https://safer.fmcsa.dot.gov/) 2020-09-05 22:37:57 [scrapy.core.engine] DEBUG: Crawled (200) <POST https://safer.fmcsa.dot.gov/query.asp>

浏览 4提问于2020-09-05得票数 0

回答已采纳

2回答

是否有可能在scrapy中执行此代码模式？

、、

使用scrapy，我想先从一些页面收集urls，然后解析找到的每个urls并生成项目。例如，代码如下所示： def parse(self, response): # collect urls first urls = self.collect_urls(response) # parse urls found for url in urls: self.parse_url(url) # will yield Item inside def collect_urls(reponse): urls = response.meta.ge

浏览 7提问于2014-12-25得票数 0

回答已采纳

2回答

(Python3)蜘蛛必须返回请求，BaseItem，dict或None，得到“生成器”

、、

我正在编写一个很粗糙的脚本，从的NYT博客中提取最新的博客文章。该项目进展顺利，但是，当我进入实际尝试提取数据的阶段时，我仍然会遇到同样的问题： ERROR: Spider must return Request, BaseItem, dict or None, got 'generator' in <GET https://krugman.blogs.nytimes.com/more_posts_jsons/page/1/?homepage=1&apagenum=1> 我正在使用的代码如下： from scrapy import http from scr

浏览 3提问于2017-09-11得票数 6

回答已采纳

2回答

刮擦安装错误pip和easy_install

、、、、

我试图在Windows上安装Scrapy，并按照Scrapy安装指南中的步骤安装所有依赖项。然而，当我尝试使用easy_install时，我得到了以下错误消息 Download error on https://pypi.python.org/simple/Scrapy/: **[Errno 10061] No connection could be made because the target machine actively refused it -- Some packages may not be found!** Couldn't find index page for

浏览 3提问于2014-06-30得票数 2

1回答

如何将响应传递给我的解析函数？

、、

我正在使用cloudscraper来抓取一个cloudflare保护的url，它的工作方式是： scraper = cloudscraper.create_scraper() response = scraper.get(url).text 如何将这个响应以scrapy形式传递给我的parse函数？我可以以某种方式将它放在scrapy.Request()中吗？

浏览 0提问于2021-02-04得票数 0