使用带有规则的start_requests进行抓取

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

3回答

、

我找不到任何使用带有规则的start_requests的解决方案，我也没有在互联网上看到这两个的例子。我的目的很简单，我想重新定义start_request函数，以获得捕获所有异常的能力，并在请求中使用meta。www.oreilly.com/library/view/practical-postgresql/9781449309770/ch04s05.html&#x

浏览 31提问于2019-06-23得票数 3

回答已采纳

1回答

字符串中匹配单词的SgmlLinkExtractor和正则表达式

、、

我正在使用scrapy中的SgmlLinkExtractor功能来解析特定的urls。Start_requests(自我)：.....放弃请求(url.strip()，callbackA)规则=规则(SgmlLinkExtractor(allow=())，callback=cal

浏览 1提问于2012-07-20得票数 0

1回答

start_urls的Scrapy CrawlSpider -错误恢复

我正在使用带有errback的规则链接提取器的CrawlSpider。我使用parse_start_url来解析start_urls，但我也需要errback来解析它们。return self.my_parse(response) # parse responses 我面临的问题是，只有提取的链接才会调用errback，而不是start_urls。我不能使用

浏览 21提问于2020-09-23得票数 0

1回答

Scrapy:如何使用start_requests向每个请求添加参数？

我正在使用scrapy 2.1，我从分类页面中抓取内容，这些页面被分页。默认结果集是20，我希望将其增加到1000，以便请求查看器页面。/category1规则： # parse all index pages LinkExtractor),

浏览 16提问于2020-06-01得票数 0

1回答

crawlSpider似乎没有遵循规则

、、、、

这是我的密码。实际上，我遵循了"“中的例子，似乎我在某个地方犯了一个错误。import scrapy from scrapy.spiders import CrawlSpider, Rulerestrict_xpaths=('//*[contains(@class, "next_

浏览 6提问于2015-12-17得票数 0

回答已采纳

1回答

我能用Scrapy提取这个XHR数据吗？

、

例如，我希望使用page=1遍历这些<a href=\"/@eberhardgross\">\n，比如前100个页面，并提取urls的每个实例。最终，只是尝试获取用户名，但是页面上还有其他<a href="">，但是如果我可以提取用户名，那就太好了，但是如果我必须获取所有的<a href="">，那就好了，我可以对它们进行排序，只获取@。import scrapy

浏览 0提问于2019-12-18得票数 0

1回答

刮伤:使用start_requests()的正确方法是什么？

、

这就是我的蜘蛛是如何建立起来的 name = 'custombot' ) def start_requests(self):start_urls中指定的url是需要通过

浏览 0提问于2014-02-11得票数 12

2回答

Scrapy不会抓取整个网站

我试着用认证系统抓取整个网站。没有我的auth函数，一切都可以正常工作。当我使用我的auth函数时，只抓取登录和抓取主页。为什么它不抓取规则部分中定义的所有链接？login.php' Rule(LinkExtractor(), callback='parse_item', follow=True), def start_reque

浏览 22提问于2019-06-03得票数 0

回答已采纳

1回答

无法从爬行器获取urls计数(Scrapy)

、、、

我正在尝试获取要在SitemapSpider中抓取的urls数量。我试图重写start_requests方法，但它输出0。我有一个包含数以千计的urls的sitemap_url。我想要计算这些urls的数量。 r = super(

浏览 0提问于2017-10-22得票数 0

1回答

从数据库中获取start_urls

、、

作为我的数据库保存这些链接和标题2: link : 'http://test.com/id, title : 'english' 如果我能

浏览 4提问于2014-11-18得票数 2

2回答

我正在写一个抓取许多urls作为输入的爬虫，并将它们分类为类别(作为项目返回)。这些URL通过我的爬虫提供给爬虫start_requests()方法。有些网址可以在不下载的情况下进行分类，所以我想yield直接使用Item为他们在start_requests()，这是scrapy所禁止的。我怎么才能绕过这一步呢？我曾考虑过在自定义中间件中捕获这些请求，这将使它们变成虚假的Response对象，然后我可以将它们转换为I

浏览 105提问于2016-02-10得票数 5

回答已采纳

1回答

TypeError：“_csv.reader”对象不可调用

、、

你好，我是一个相对的初学者，我正在抓取一个网站。我想使用csv文件中的urls来抓取一个网站，但我在这方面做得很失败。TypeError is not callable data = csv.reader(l) for urls in dat

浏览 0提问于2018-08-31得票数 0

1回答

如何在旋转代理中使用scrapy splash？

、、、、

我仅通过使用以下内容作为请求才能成功抓取js内容。def start_requests(self): yield scrapy.Request(, ) 如何在抓取</e

浏览 10提问于2017-08-14得票数 1

2回答

使用scrapy从不同的站点提取信息

、

我刚开始接触scrapy，我花了一整晚的时间试图弄清楚如何在我的项目中使用它。假设我有以下网站: www.amazon.com www.ebay.com www.buydirect.com谢谢

浏览 4提问于2013-07-10得票数 2

回答已采纳

3回答

刮痕在壳中起作用，但当我叫蜘蛛时就不行了。

、、

在过去的几个小时里，我一直在研究这个问题，但是我不知道我做错了什么。当我使用scrapy中的选择器运行xpath状态时，该语句将按预期工作。然而，当我试图在我的蜘蛛中使用相同的语句时，我会得到一个空集。有人知道我做错了什么吗？

浏览 6提问于2014-02-19得票数 1

回答已采纳

1回答

Scrapy和rules

、、

我是从Scrapy开始的，我成功地制作了几个蜘蛛攻击同一个网站。第一个获取整个站点中列出的产品，除了它们的价格(因为价格对未登录的用户是隐藏的)，第二个登录网站。我的问题看起来有点奇怪，当我合并两个代码时:结果不起作用！主要的问题是规则没有被处理，就像它们不被Scrapy调用一样。因为程序必须登录到网站，所以我必须覆盖start_requests，但当我覆盖它时，规则不会被处理。我正在研究文档，但我不明白框架是如何

浏览 15提问于2020-06-05得票数 0

回答已采纳

1回答

在实际抓取数据之前，scrapy是否有可能导航链接？

、

我一直在学习一些粗糙的教程，我有一个问题(我对这个问题非常陌生，所以如果这是个愚蠢的问题，我很抱歉)。到目前为止，我所看到的大部分内容都涉及到：3)告诉刮刮者如何找到要刮的“下一页” 我想知道的是，当数据本身不在起始页面时，我是否能够使用scrapy刮取数据？例如，我有一个链接，去一个论坛。该论坛包含几个子论坛的链接。每个子论坛都有几个线程的链接。每个线程

浏览 0提问于2018-10-18得票数 0

回答已采纳

1回答

在scrapy中启动请求中的http://url调用

、、、

我正在使用scrapy从网站上抓取数据 request = scrapy.Request(url="http://www.xxxxx.com",callback=self.parse ,dont_filter = True,)从start_requests请求url时，我遇到错误2018

浏览 2提问于2018-06-11得票数 1

1回答

抓取登录imdb

、、、

我有一个scrapy代码，查找与给定标题相关的列表，然后从每个列表的第一页下载其他标题评级。它工作得很好。然而，有没有可能我可以让这个代码用我的imdb登录登录，然后从这些列表中下载我自己的评级？

浏览 6提问于2020-05-05得票数 0

1回答

在scrapy中处理启动请求操作

、

当我提交请求时，我面临着奇怪的行为，理想情况下，每个请求都会在6秒后产生，但实际发生的情况是，在60 (6*10)秒后，所有请求都会同时发出，我能够通过CONCURRENT_REQUESTS=1解决这个问题open_in_browser name = 'Test' def start_requests(我正在使用time.sl

浏览 3提问于2020-02-07得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云