Scrapy make_requests_from_url(url) - 腾讯云开发者社区

、

如果您尝试通过URL ()直接访问语言版本，则会出现问题并返回服务器错误。from scrapy.spider import BaseSpiderfrom scrapy.contrib.spidersimport CrawlSpider, Rule from scrap

浏览 2提问于2012-05-20得票数 21

2回答

Scrapy和cookie处理

、、

我正在学习如何使用scrapy。尤其是处理cookie时会抓狂。问题是，我找不到一大堆的例子、教程或文档来帮助我完成这项工作。如果有人能提供任何材料，我将不胜感激。为了向你展示我有多迷茫，下面的代码应该显示我缺乏理解；from scrapy.http.cookies import CookieJar

浏览 0提问于2013-06-06得票数 2

回答已采纳

1回答

从start_requests(self)解析刮取发送条件

、、、

第一区块码from scrapy.spiders import Spider url= 'http://www.nevermind.com/info/'

浏览 1提问于2016-07-28得票数 0

回答已采纳

1回答

scrapy未处理的异常

、、

我在linux上使用的是scrapy 0.16.2版本。我在运行：我得到了这个错误，它阻止了scrapy (挂起并且不会自动完成，只有^C停止它[-] Unhandled Error Traceback (most recent call last): File "/usr/lib/python2.7/site-packages/

浏览 2提问于2012-11-20得票数 2

回答已采纳

4回答

scrapy如何停止重定向(302)

、、

我正在尝试用Scrapy抓取一个url。但它会将我重定向到不存在的页面。item['price'] = prc item['description'] = description return item

浏览 30提问于2013-03-18得票数 24

4回答

解析中的Scrapy get请求url

、、

如何在Scrapy的parse()函数中获取请求url？我在start_urls中有很多urls，其中一些将我的爬虫重定向到主页，因此我有一个空项目。所以我需要像item['start_url'] = request.url这样的东西来存储这些urls。我在用BaseSpider。

浏览 268提问于2013-11-20得票数 52

回答已采纳

1回答

动态start_urls值

、、

) File "/usr/lib/python2.7/dist-packages/scrapy/http&#x

浏览 6提问于2014-06-16得票数 2

1回答

刮伤的DEFAULT_REQUEST_HEADERS不起作用

、

下面是HotSpider： import scrapy class HotSpider(scrapy.Spider):def parse(self, response):如果我更改代码以覆盖make_requests_from_url# -*- coding: utf-8 -*- import scrapy</e

浏览 2提问于2016-07-04得票数 4

回答已采纳

1回答

刮伤:使用start_requests()的正确方法是什么？

、

'custombot' start_urls = ['http://www.domain.com/some-url) return Request('http://www.domain.com/some-other-url', callback=self.do_so

浏览 0提问于2014-02-11得票数 12

4回答

如何在抓取的CrawlSpider中访问特定的start_url？

、、

我正在使用Scrapy，特别是Scrapy的CrawlSpider类来抓取包含某些关键字的web链接。web链接模型与起始url模型具有多对一关系，即web链接模型具有指向起始url模型的外键。为了将抓取的web链接正确地保存到数据库中，我需要告诉CrawlSpider的parse_item()方法，抓取的web链接属于哪个起始url。我该如何做呢?Scrapy的DjangoItem类在这方面没有帮助，因为我仍然必须显式地定义使用的起始url。换句话说，我如何将当前使用

浏览 1提问于2012-05-15得票数 7

回答已采纳

1回答

使用scrapyd api为蜘蛛提供url

、、、

schedule.json",当我检查日志时，我得到了以下错误代码： return Request(url, dont_filter=True) File "/u

浏览 1提问于2014-08-24得票数 4

回答已采纳

1回答

将cookie传递给CrawlSpider中的后续请求

、、、

为了解决这个问题，我尝试将cookie保存在一个全局变量中，并重写make_requests_from_url()，将cookie传递给蜘蛛发出的所有后续请求。但是它仍然返回登录页面的主体。我的代码：from scrapy.spiders import Rulefromm=h&h=acbl&d=ACBL&o=acbh", cookies=bbo_cookies)

浏览 3提问于2016-02-13得票数 2

1回答

如何通过获取结果来抓取这个ajax网站

、、、、

换句话说，从scrapy执行ajax调用。我做了这个：from scrapy.http import FormRequestfrom scrapy.http import Requestclass MySpider(Spiderin self.start_urls

浏览 0提问于2015-08-02得票数 2

1回答

ValueError:请求中缺少的方案url: h

、、

()是items.py代码和setup( nameusr/local/lib/python2.7/site-packages/scrapy/spiders/init.py"，self.make_requests_from_url(url) start_requestsself.

浏览 0提问于2017-02-14得票数 0

回答已采纳

1回答

是否可以同时运行管道和爬行多个URL？

、、

我的蜘蛛长得像这样from scrapy.spiders import CrawlSpider, Rulefrom scrapy.http import Request item['2'] = respons

浏览 2提问于2016-04-13得票数 0

回答已采纳

3回答

刮擦用飞溅只刮1页

、、

在任何情况下都会显示start_urls中的最后一个URL。对我做错了什么有什么想法吗？name = "heat" start_urls = ['https://www.expedia.com/Hotel-Search?运行这段代码后，我的csv如下所示：每个url都有一行，这是应该的，但是只有一行填充了信息。class HeatSpider(scrapy<

浏览 4提问于2016-11-01得票数 2

回答已采纳

2回答

Scrapy crawler提取urls，但未命中一半回调

、、、

这是日志： 2015-12-25 09:02:55 Scrapy INFO:存储csv feed (107项)位置: test.csv 2015-12-25 09:02:55 scrapy INFO:转储scrapy stats：'downloader/request_bytes'：68554，'downloader/request_count'：217，'downloader/request_method_count

浏览 3提问于2015-12-25得票数 1

1回答

使用aspx页面进行Scrapy身份验证

、、、

我相信抓取部分可以正常工作，因为我已经在一个模拟页面上尝试过了，但我之前没有做过身份验证，而且我发现网站正在重定向到一个搜索url。我唯一能想到的就是scrapy触发了搜索框？这个站点是howdidido.co.uk，我的爬行器代码如下：from scrapy.selector importSelectorfrom scrapy</em

浏览 1提问于2013-12-12得票数 0

1回答

是否有一种方法可以从数据库中获取初始URL的ID，其中包含一些函数，make_requests_from_url

我正在从数据库中提取start URL，还需要ID与URL相关联，这样我就可以将其传递到items管道中，并与条目一起存储在表中。我使用"make_requests_from_url(row1)“传递start URL的"start_urls = []”，这构成了启动URL的列表。下面是我的蜘蛛代码：import mysql.connector class

浏览 1提问于2019-08-13得票数 0

回答已采纳

1回答

如何使刮伤蜘蛛基于CSV文件向项添加信息

、、

我用熊猫在文件中阅读，并根据标题为学者生成URL。每当一个给定的URL被抓取时，我的蜘蛛就会浏览学者的网页，获取标题、出版物信息，并引用该页面上列出的每一篇文章。q=allintitle%3A"+entry) start_urls = linksimport reimport urllib from s

浏览 2提问于2014-03-02得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在scrapy中覆盖/使用cookie

Scrapy和cookie处理

从start_requests(self)解析刮取发送条件

scrapy未处理的异常

scrapy如何停止重定向(302)

解析中的Scrapy get请求url

动态start_urls值

刮伤的DEFAULT_REQUEST_HEADERS不起作用

刮伤:使用start_requests()的正确方法是什么？

如何在抓取的CrawlSpider中访问特定的start_url？

使用scrapyd api为蜘蛛提供url

将cookie传递给CrawlSpider中的后续请求

如何通过获取结果来抓取这个ajax网站

ValueError:请求中缺少的方案url: h

是否可以同时运行管道和爬行多个URL？

刮擦用飞溅只刮1页

Scrapy crawler提取urls，但未命中一半回调

使用aspx页面进行Scrapy身份验证

是否有一种方法可以从数据库中获取初始URL的ID，其中包含一些函数，make_requests_from_url

如何使刮伤蜘蛛基于CSV文件向项添加信息

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐