scrapy python CrawlSpider不爬行

文章/答案/技术大牛

发布

1回答

、、

import scrapy from scrapy.linkextractors importLinkExtractor name = 'genericSpider' ),

浏览 11提问于2019-04-24得票数 0

1回答

是否有可能根据用户提供的CrawlSpider生成一个函数？

、、

在接受用户的url输入后，是否有可能生成一个CrawlSpider？通常，当我们创建一个蜘蛛时，我们会物理地给出或指定一个特定的url。是否有可能从用户那里获取一个url，并基于该url创建一个爬行器？

浏览 2提问于2013-12-05得票数 0

回答已采纳

1回答

尝试使用Scrapy解析JSON文件

、、、

这是我的代码：import json from scrapy.http import Requestfrom scrapy.contrib.spiders import CrawlSpider, Rule name = "dmozself.min_lat, self.max_lat): for j

浏览 8提问于2015-05-06得票数 0

回答已采纳

1回答

按IP地址抓取本地网站

、、

我还在尝试Scrapy，并且我正试图在我的本地网络上爬行一个网站。该网站的IP地址为192.168.0.185。，我将执行以下shell命令来运行爬行器：我得到了一个非常难看、不可读的错误信息： pkg_resources.run_script('Scrapy==0.14.0', 'scrap

浏览 0提问于2012-02-11得票数 2

1回答

为什么我无法在Srapy中恢复爬网？

我尝试恢复使用以下命令执行的爬网(后来尝试恢复)：但它不会恢复，而是显示以下日志输出：2013-07-17 12:36:58+0530 [scrapy] DEBUG: Enabled extensions: AutoThrottle

浏览 0提问于2013-07-17得票数 1

回答已采纳

2回答

在scrapy中抓取大量静态html.gz文件

、、、、

import CrawlSpider import gzip name = "info_extract" File "/usr/local/l

浏览 0提问于2017-03-14得票数 0

1回答

我正在使用Scrapy CrawlSpider类来抓取电子商务网站的分类页面。问题是，大约5%的请求在5次重试后被拒绝，并且不会达到100%的已知类别。我的解决方法涉及到第二个爬行器(scrapy.Spider)，它从数据库中获取丢失的已知URL，并简单地重新抓取它们。这样我就达到了100%的成绩。问题是，这是两个不同的爬虫，它们位于两个不同的python文件中，需要由cron作业分别触发。class myspider(CrawlSpider): name = 'cat

浏览 1提问于2021-08-07得票数 1

1回答

我输入了‘`scrapy* version`，但它触发或加载了文件夹中的其他爬行器*

我对Scrapy比较陌生，我只是像下面这样输入scrapy version；但它确实触发了文件夹中的爬虫。显然，我正在开发一些爬行器，例如，一个爬行器在init方法中打开Chrome web驱动程序，只需输入Scrapy version就可以打开Chrome浏览器。为什么Scrapy要加载文件夹中的所有蜘蛛？如何避免这种情况？(django_corp_data):~/sherlockit$ scrapy version ['version'

浏览 11提问于2020-04-01得票数 0

1回答

CrawlSpider无法解析Scrapy中的多页

、

我创建的CrawlSpider没有正确地完成它的工作。它解析第一页，然后停止，而不继续到下一页。有些事我做错了但没能察觉到。希望外面的人给我一个提示，我该怎么做才能纠正它。"items.py“包括：class CraigslistScraperItem(Item): Link = Field()from scrapy<

浏览 4提问于2017-04-04得票数 1

回答已采纳

1回答

Python Scrapy不爬行网站

、、、

我对python很陌生，并试图通过一个小例子，但是我遇到了一些问题！我只能抓取第一个给定的网址，但我不能抓取超过一个网页的或整个网站的问题！请帮助我，或给我一些建议，我如何可以爬行整个网站或更多的网页，在一般情况下.import scrapy title = scrapy.Field()import scrapy from w

浏览 4提问于2016-05-19得票数 0

2回答

抓取爬行器没有收集第一页数据，并且每页上的第一项可能也不正确

、

这个爬行器从Funny subreddit页面上拉出标题。我认为问题可能出在允许的url上，因为/funny主页与此不匹配。如果我在允许的列表中添加“/r/ from /”，它会变得疯狂，爬行太多。from scrapy.spiders import CrawlSpider, Rulefrom scrapy.http.response

浏览 0提问于2017-05-28得票数 0

1回答

在有刮痕的网站上爬行所有评论

、

我试图抓取所有的评论在一个购物网站上使用Scrapy。我找到了这个密码：from scrapy.spiders import CrawlSpider, Rulename = 'deneme's

浏览 0提问于2018-05-23得票数 0

回答已采纳

1回答

防止某些网页的链接被刮掉

、

from scrapy.contrib.spiders import CrawlSpider, Rule excep

浏览 3提问于2013-08-15得票数 0

2回答

Python:列出没有索引的网站的所有URL

、、

我可以单独访问以下每个URL：http://www.example.com/{.*}.html有没有一种方法可以列出托管在该域下的HTML页面的所有URL？

浏览 4提问于2016-06-15得票数 2

回答已采纳

1回答

如何使用meta从网站中的所有链接获取数据

、

因为我是python的新手，所以我需要你的帮助。我需要从一个网站的所有链接爬行数据。我使用meta进入链接并获取数据。当我使用我的代码时，我只能从一个链接获得。import scrapyfrom scrapy.selector import Selectorimport mysql.connector from mysql.connector impor

浏览 0提问于2016-01-18得票数 0

3回答

在Scrapy中爬行通过身份验证的会话

、

在我的中，我对我的问题不太明确(用Scrapy的认证会话进行抓取)，希望能够从更一般的答案中推断出解决方案。我可能宁愿使用crawling这个词。到目前为止，这是我的代码： name = 'myspider'问题是，为了登录，我试图覆盖的parse函数，现在不再进行必要的调用来刮取更多的页面(我假设)。我不知道如何保存我创建的

浏览 6提问于2011-05-01得票数 33

回答已采纳

1回答

刮刀、爬行器和蜘蛛在抓取中的区别

、、

试着阅读Scrapy的代码。“替罪羊”、“爬虫”和“蜘蛛”这几个词令人困惑。例如scrapy.crawler有人能在Scrapy的背景下解释这些术语的含义和差异吗？提前谢谢。

浏览 3提问于2015-12-14得票数 11

回答已采纳

1回答

使用芹菜时不遵循链接的刮伤蜘蛛

、、、、

我是一个用Python编写的爬虫，它可以抓取给定域中的所有页面，作为特定领域搜索引擎的一部分。我用Django，Scrapy和芹菜来达到这个目的。WebSpider继承自CrawlSpider，我现在使用它来测试功能。.items import HTMLPageItemfrom scrapy.contrib.spiders import Rule, CrawlSpider class WebSpider(<em

浏览 0提问于2014-06-15得票数 4

回答已采纳

1回答

Scrapy -解析给定域的所有子页面

、、

我想使用scrapy解析kickstarter.com项目，但是不知道如何在start_urls下创建没有显式指定的爬行器搜索项目。到目前为止，以下是有效的部分：from scrapy.contrib.spiders import CrawlSpider

浏览 1提问于2013-03-14得票数 5

回答已采纳

2回答

Scrapy反转url Python中的参数顺序

、、、

办公室名册地址如下所示： --但是Scrapy爬行，这是一个死页面。 .aspx后的两个部分被交换。代码示例： allowed_domains

浏览 4提问于2015-04-21得票数 0

回答已采纳

点击加载更多