为什么Scrapy在抓取主url之前先抓取一些其他的url？_使用存储在csv中的Scrapy抓取URL_在分析抓取爬行器中的URL之前，如何抓取表示网站中最大页数的数字？ - 腾讯云开发者社区

python、web-scraping、scrapy、web-crawler

我想要抓取的主http://192.168.1.1/robots.txt是http://192.168.1.1/adslconfig.htm，但是它首先尝试抓取这个url URL，并且失败了，状态代码为401，并且它的referer头也被设置为None，所以它只是浪费了几秒钟的时间。这并不是唯一的一个，它还试图抓取我想要的主</em

浏览 17提问于2021-09-28得票数 0

1回答

如何使用scrapy抓取内层url？

python、scrapy

我在看一些在线视频的时候创建了一个抓取蜘蛛。它从网站上抓取个人资料url。我想扩展这一点，以报废数据，如地址，姓名，电话，网站网址从每个配置文件网址抓取。我在考虑创建分离的刮板。一个用于抓取配置文件url。以及从抓取的第一url中抓取数据的第二个url。有没有其他的解决方

浏览 22提问于2019-04-14得票数 1

回答已采纳

1回答

如何确保在我的Scrapy爬行器中解析每个URL

python、beautifulsoup、scrapy、web-crawler

我尝试在美食博客上抓取食谱列表的每一页，抓取每一页上的食谱URL，然后将它们全部写入一个.txt文件。我已经添加了一个.log()来检查urls是否确实包含了我试图从其中抓取的所有正确的URL，当我在命令提示符中执行Scrapy时，我得到了以下确认： 2019-01-31 22:16:17 [recipes我当前的代码： import scrapy</em

浏览 21提问于2019-02-01得票数 1

1回答

Scrapy，Xpath，没有结果？

html、python-3.x、xpath、web-scraping、scrapy

我正在尝试抓取的URL： https://www.controller.com/listings/aircraft/for-sale/list?SortOrder=23&scf=False&page=1 我刚接触Scrapy和编程，但在此之前，我仍然能够抓取一些网站。当我第一次尝试抓取上面的URL时，我总是遇到代码403。经过一些研究，我能

浏览 48提问于2020-07-11得票数 0

回答已采纳

1回答

Scrapy不跟随提取的链接

python、web-scraping、scrapy、data-extraction

Scrapy不遵循抓取的链接。当我调用这个函数时，它应该从之前抓取的链接中提取详细信息，但它不起作用，而是从start_urls中抓取内容。import scrapy name = 'olx' start_urls = ['https://www.olx.plparse(self, response):

浏览 2提问于2021-04-17得票数 0

1回答

抓取的递归爬虫问题

python、recursion、scrapy

我试图爬行viagogo.com我想爬行的每一个显示从页面：我能够得到第一页的显示，但当我试图移动下一页它就是不爬行！下面是我的代码：from scrapy.contrib.linkextractors importViagogoItem class viagogoSpider(CrawlS

浏览 1提问于2014-12-13得票数 0

1回答

Scrapy停止抓取，但继续爬行

python、scrapy、web-crawler

我试图从一个网站的几个页面中抓取不同的信息。在第16页之前，一切正常:页面被抓取，抓取，我的数据库中的信息存储，但是在第16页之后，它停止抓取，但继续抓取。HTML标签是一样的，所以我不明白为什么它会停止抓取。Python： url_list = [

浏览 0提问于2018-01-24得票数 4

1回答

为什么Scrapy只抓取一个页面？

scrapy

我正在尝试测试抓取网页的Scrapy，我不明白为什么我的爬虫只抓取一个页面，我尝试评论规则和allowed_domains都没有成功。我想我遗漏了一些愚蠢的东西如果能帮上忙我会很感激的。from scrapy.contrib.spiders import CrawlSpider, Rulefrom scrapy</e

浏览 3提问于2012-03-21得票数 1

回答已采纳

1回答

使用Scrapy对网站进行分页和获取价格

python、python-3.x、scrapy

我开始关注Scrapy，想要一个蜘蛛来获得MTG卡的一些价格。首先，我不知道我是否100%正确地使用了在函数开始时选择所有可用卡片的链接：allowed_domains = ['www.bazardebagda.com.br2-然后，如果你访问网站，我找不到如何获得卡的单位和价格，它们是空白的DIV的…titles =

浏览 0提问于2019-12-07得票数 0

3回答

Scrapy pause/resume是如何工作的？

scrapy

有人能给我解释一下Scrapy中的暂停/恢复功能是如何工作的吗？没有提供太多细节。我将DOWNLOAD_DELAY设置为10 seconds，这样就可以在处理请求之前停止爬行器。我本以为下次运行爬行器时，请求将不会重新生成。事实并非如此。我在我的scrapy_cache文件夹中看到一个名为requests.queue的文件夹。但是，这始终是空<em

浏览 0提问于2015-03-04得票数 8

3回答

我有12000个已知的URL，用Python抓取它们最快的方法是什么？

python、web-scraping、scrapy

因此，我有一个从数据库中提取的URL列表，我需要抓取和解析每个URL的JSON响应。一些URL返回null，而其他URL返回发送到csv文件的信息。我目前使用的是Scrapy，但它需要大约4个小时来抓取这12000个URL。我研究过像、和这样的东西，但我不确定它们是否适合我的用例，因为它们似乎是围绕着抓

浏览 0提问于2020-08-25得票数 0

1回答

抓取-在不下载文件的情况下从URL获取文件大小和类型？

python、header、request、web-scraping、scrapy

在Scrapy中，我想抓取一些有大型.zip文件的页面，并检索一些数据(大小、url等)。关于那些文件。我可以这样做的一种方法是生成对这些urls的请求，但我认为这会下载文件。如何从zip的URL中只获得标题？最好不要抓取我想要标题的URL，而是以其他方式检索它吗？

浏览 8提问于2014-12-22得票数 2

回答已采纳

0回答

Scrapy跟随链接未获取数据

python、web-scraping、scrapy

我试图用一个简单的抓取蜘蛛来跟踪一个链接列表，并从每个链接中删除数据，但我遇到了麻烦。在scrapy shell中，当我重新创建脚本时，它会发送新url的get请求，但是当我运行爬网时，我没有从链接中得到任何数据。我得到的唯一数据是从链接之前抓取的起始url。如何从链接中抓取数据？import scrapy class QuotesSpider(

浏览 4提问于2017-11-26得票数 0

回答已采纳

9回答

BeautifulSoup和Scrapy* crawler有什么区别？*

python、beautifulsoup、scrapy、web-crawler

我想做一个网站，显示亚马逊和易趣产品价格的比较。其中哪一个会工作得更好?为什么？我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

1回答

使用Xpath提取值时来自Scrapy的空列表

python、xpath、web-scraping、scrapy

真的需要这个社区的帮助。我的问题是，当我使用python中的代码时要提取scrapy shell中的供

浏览 2提问于2018-02-12得票数 2

1回答

如何报废网站上的所有页面(第1页直到无穷大)

python、xpath、web-scraping、css-selectors、scrapy

伙计们，我想从上抓取一切都好，我抓取它的成功import datetimeimport socketfrom scrapy</e

浏览 1提问于2016-07-25得票数 0

回答已采纳

1回答

这只刮伤的蜘蛛怎么了？只刮最后一个url

python、web-scraping、scrapy、web-crawler

在方法parse()中，蜘蛛爬行4个url，然后发送给parse_dir_contents()方法来抓取一些数据，但是只有第4个url被抓取，我不明白为什么它不刮其他3个url？import scrapyimport json name =):

浏览 0提问于2016-06-25得票数 0

回答已采纳

1回答

使用Python/Scrapy/Urllib2进行屏幕抓取似乎被阻止

python、web-scraping、scrapy、urllib2

为了帮助我学习Python，我决定从ESPNFC网站的'live‘页面(比如)上截取足球评论。 breaki = getIn

浏览 0提问于2013-12-11得票数 0

5回答

Scrapy -如何识别已经抓取的urls

python、web-crawler、scrapy

我每天都在用scrapy抓取一个新闻网站。如何限制scrapy抓取已抓取的URL。此外，在SgmlLinkExtractor上是否有明确的文档或示例。

浏览 1提问于2010-10-06得票数 15

1回答

使用scrapy抓取重定向的urls

python、scrapy

我正在尝试使用抓取来抓取www.mywebsite.com。这里的问题是scrapy忽略了重定向，最终结果是抓取了0个页面。我如何告诉scrapy我需要它来抓取重定向的url？我只需要它来爬行重定向的网址，而

浏览 1提问于2016-11-27得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云