Scrapy referer未返回可读的url_Python Scrapy返回不同的url_Python Scrapy:返回抓取的URL列表 - 腾讯云开发者社区

python-3.x、scrapy

在抓取网站时，我想要获取指向404的引用。def parse_item(self, response): Do something with this > referer=response.request.headers.get('Referer', None) 它在某种程度上是有效的，但返回的引用总是类似于： \x68747470733a2f2f7777772e6162752d64

浏览 26提问于2021-02-01得票数 0

2回答

抓取Python循环到下一个未擦伤的链接

python、scrapy、scrapy-spider

我试图让我的蜘蛛浏览一个列表，刮掉所有的url--它可以在它们后面找到，抓取一些数据，然后返回到下一个未刮掉的链接上--如果我运行这个蜘蛛--我可以看到它返回到起始页面，但是尝试再次抓取相同的页面，然后退出对，但我希望它继续使用下一个未刮掉的链接2016-07-18 12:11:20 [scrapy] DEBUG: Crawled (200) <GET http://ww

浏览 3提问于2016-07-18得票数 0

回答已采纳

1回答

可读性IXML xpath不工作。

python、scrapy

当我通过可读性和刮伤性阅读一些项目时，我试图检索它们。introduction']/text()")但是，当我在这一行的可读性文档上运行\python27\lib\site-packages\scrapy-1.3.1-py2.7.egg\scrapy\spidermidd

浏览 2提问于2017-02-15得票数 0

2回答

刮点标识

python、python-3.x、web-scraping、scrapy、scrapy-spider

我有网站，我想刮他们的标志。yield LogoScrapeItem(url=url, file_url=file_url)#yield LogoScrapeItem(url=url, file_url=file_url) 2017-12-25 11:09:32 [scrapy.core.eng

浏览 6提问于2017-12-25得票数 0

回答已采纳

1回答

在爬行网页时有相同数据的问题

scrapy

我正在尝试抓取一个网页，以获得该网页的评论和评级。但是我得到的数据和输出数据是一样的。import scrapyfrom scrapy.spiders import Spider name ="rate" for i in range(1, 10): url = "

浏览 0提问于2019-03-26得票数 0

回答已采纳

3回答

如何在“抓取”中按顺序提出几个请求？

scrapy、python-requests、yield

我需要发送我的请求，以便与Scrapy。]我的问题是，这些请求不是按顺序排列的。我读过，但它没有正确的答案。 link = urljoin(path,elem) yield Request(link,

浏览 0提问于2018-11-16得票数 0

回答已采纳

2回答

抓取句柄302响应代码

redirect、scrapy、web-crawler、scrapy-spider

我使用一个简单的CrawlSpider实现来抓取网站。默认情况下，Scrapy跟随302重定向到目标位置，并且某种程度上忽略了最初请求的链接。在一个特定的站点上，我遇到了一个302重定向到另一个页面的页面。我的目标是记录原始链接(响应302)和目标位置(在header中指定)，并在CrawlSpider的CrawlSpider方法中处理它们。请引导我，我怎样才能做到这一点？默认情况下，scrapy忽略page1，跟踪page2并对其进行处理。我想在page1和page2

浏览 6提问于2016-02-11得票数 4

回答已采纳

1回答

Scrapy Debug爬行了200，但没有返回任何结果

python、web-scraping、scrapy、web-crawler、scrapy-spider

我正在做一个爬行项目，并试图获得乐队的每个背书链接。它没有返回任何内容。但是，如果我将乐队的每个URL放在start_url中，它会工作得很好。但是我很难手动将我想要的所有URL放在start_url字段中，因为我甚至不确定有多少…… 有人能帮上忙吗？提前感谢！

浏览 6提问于2018-11-21得票数 0

1回答

不使用CrawlSpider保存数据的Scrapy CrawlerProcess

python、python-3.x、web-scraping、scrapy、scrapy-spider

将执行以下代码，创建没有错误的文件。但是，它不会保存到json文件中。SETTINGS = {} process.crawl(MySpider)编辑：抓取器正在获取日志中显示

浏览 4提问于2017-11-21得票数 3

1回答

Scrapy:将参数传递给cookie

python、web-scraping、scrapy

如果我正确理解了地理位置，就必须绕过这个站点的所有位置，地理位置是通过url ( )中的ID参数和cookie中的ID参数('BITRIX_SM_CITY_ID'：loc_id)传输的。)2022-06-05 17:32:46 [scrapy.core.engine]

浏览 9提问于2022-06-05得票数 0

回答已采纳

1回答

有没有一种方法可以得到一个链接的URL？

scrapy

我写了一个蜘蛛，它会爬行我的网站并抓取一堆标签。我现在正尝试让它返回在其上发现链接的URL。当scrapy从/product/123中抓取信息时，我希望有一个"Scraped From“字段并返回/page/2。对于抓取的每个URL，我希望找到URL所在的原始页面。

浏览 16提问于2020-02-14得票数 1

回答已采纳

4回答

scrapy如何设置referer url

screen-scraping、scrapy

我需要设置引用url，在抓取网站之前，该网站使用引用url的身份验证，所以它不允许我登录，如果引用是无效的。有人能告诉我如何在Scrapy中做到这一点吗？

浏览 3提问于2012-10-25得票数 11

回答已采纳

1回答

Post请求返回405

python-2.7、http、scrapy

我必须做一个post，但是我得到了错误405使用下面的代码，我在"Escolha o Exercício:“import scrapy class ScpiSpider(scrapy.Spider):

浏览 39提问于2019-08-07得票数 0

1回答

无法让Scrapy解析并遵循301,302重定向

python、scrapy

我试图写一个非常简单的网站爬虫，列出网址，参考和状态代码200,301,302和404 http状态代码。结果是，Scrapy工作得很好，我的脚本正确地使用它来爬行网站，并且可以在没有问题的情况下列出带有200和404状态代码的urls。在handle_htt

浏览 6提问于2016-09-29得票数 5

1回答

刮除表单请求不返回任何数据

python、web-scraping、scrapy、http-post

请求是成功的，但它没有返回任何数据。> (referer: https://safer.fmcsa.dot.gov/) 2020-09-05 22:37:57 [scrapy.core.engine] DEBUG: Crawled (20037:59 [scrapy.core.engine] DEBUG: Crawled (200) <POST https://safer.fmcsa.dot.gov/query.asp> (<e

浏览 4提问于2020-09-05得票数 0

回答已采纳

1回答

刮破壳和刮痕没有收到403，但刮刮爬行工程。

python、scrapy

我正在刮一个需要referer的网站。 'Referer': 'http://www.referer.com'当我在项目文件夹中尝试scrapy shell url时(其中一个文件夹有scrapy.cfg)，这意味着它在settings.py文件中使用相同的设置，我可以看到referer在请求中

浏览 3提问于2018-09-06得票数 0

1回答

Scrapy -无法跟随特定链接或使用自定义处理程序进行分析

python、scrapy、scrapy-spider

我一直在使用Scrapy，并试图跟随示例，只跟随与某种正则表达式匹配的url。目前，我只想使用一个自定义解析器的任何URL，其中包含‘朋友’。[scrapy.core.engine] DEBUG: Crawled (200) <GET http://q

浏览 0提问于2017-07-30得票数 0

回答已采纳

1回答

在引用url时调用Scrapy - POST请求，而不是初始请求。

python、scrapy、web-crawler

robots.txt> (referer:> <POST httpscrapy.http import FormRequest >>> url = 'http://www.australianschoolsdirectory.com.au/search-result.phpr = FormRequest

浏览 3提问于2017-05-21得票数 1

回答已采纳

2回答

如何添加报头到抓取的CrawlSpider请求？

python、scrapy

我正在使用CrawlSpider类来抓取网站，我想修改在每个请求中发送的头部。具体地说，我想将引用添加到请求中。根据的说法，我检查了在我的响应中，解析函数和Referer头不存在。我假设这意味着Referer没有在请求中被提交(除非网站没有返回它，我不确定)。我还不知道如何修改请求的头部。同样，我的爬行器是从CrawlS

浏览 2提问于2013-01-09得票数 10

回答已采纳

1回答