文章/答案/技术大牛

发布

Scrapy返回0个项目和0个爬网页面

Scrapy是一个用于网络爬虫的开源Python框架，它允许开发者从网站中提取结构化的数据。如果你在使用Scrapy时遇到了返回0个项目和0个爬网页面的情况，可能是由以下几个原因造成的：

基础概念

Scrapy项目：一个Scrapy项目包含多个组件，如爬虫（Spiders）、管道（Pipelines）、中间件（Middlewares）等。
爬虫（Spider）：负责定义如何抓取网站并提取数据的类。
项目（Item）：定义了你想从网页中提取的数据结构。
管道（Pipeline）：处理被提取的项目，如清洗、验证和存储数据。

可能的原因及解决方法

爬虫未正确配置或运行
- 确保你已经创建了爬虫并且它被正确地添加到了项目中。
- 使用命令行运行爬虫，例如：scrapy crawl myspider。

爬虫没有找到起始URL
- 检查爬虫的start_urls属性是否设置正确。
- 示例代码：
- 示例代码：
网页解析错误
- 确保你的解析方法（如parse）正确无误。
- 使用调试工具检查网页内容是否符合预期。
网站的反爬虫机制
- 有些网站可能会阻止自动化工具的访问。尝试设置合理的下载延迟或使用代理。
项目配置问题
- 检查settings.py文件中的配置，确保没有禁用Item Pipeline或其他关键设置。
日志输出
- 查看Scrapy的日志输出，它通常会提供有关失败原因的详细信息。

示例代码

以下是一个简单的Scrapy爬虫示例，它抓取一个网页并提取标题：

import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com/']

    def parse(self, response):
        title = response.xpath('//title/text()').get()
        yield {'title': title}

应用场景

Scrapy广泛应用于数据挖掘、信息处理和历史档案数字化等领域。它适合抓取网站并从中提取结构化的数据。

优势

高效率：支持并发下载，加快数据抓取速度。
高扩展性：拥有丰富的插件系统，易于扩展和维护。
高模块化：各个组件之间解耦，便于分工合作。

类型

通用爬虫：抓取整个网站的数据。
聚焦爬虫：只抓取特定主题或内容的数据。

解决问题的步骤

检查爬虫代码和配置。
使用Scrapy shell测试XPath或CSS选择器。
查看日志文件以确定错误信息。
调整请求频率或使用代理以避免被封禁。

通过以上步骤，你应该能够诊断并解决Scrapy返回0个项目和0个爬网页面的问题。如果问题仍然存在，建议进一步检查网络连接或目标网站的结构是否有变化。

页面内容是否对你有帮助？

有帮助

没帮助

简陋的CSV写作

、、、

作为新用户，我设法使一个蜘蛛可以轻而易举的电子商务网站，提取标题和每个产品的变化和输出CSV文件和产品线，但我会希望这是一个由行的变化，请有人能帮助我在我的项目前进。我的蜘蛛：from w3lib.html import remove_tags name = "demosto

浏览 1提问于2016-07-24得票数 2

3回答

Scrapy似乎不是在做DFO

、、

a、b和c中的每一个都由不同的解析函数处理，相应的urls在请求对象中创建并生成。(self,response)然而，我发现抓取的顺序似乎是a1，a2，a3，b1，b2，b3，c1，c2，c3，这很奇怪，因为我认为Scrapy顺序不一定要严格，但我抓取的站点有一个限制，所以Scrapy需要在5个B级抓取之前尽快开始抓取c级。如何才能做到这一点？

浏览 1提问于2012-03-04得票数 11

回答已采纳

1回答

我正在尝试用一个粗糙的CrawlSpider抓取一个网站，问题是这个网站一直在随机地重定向我，这意味着一个url有时可能会加载，有时会被重定向到某个页面。如果有人能帮我度过难关，我将不胜感激2017-11-06 02:11:14 [scrapy.core.engine] INFO: Spider opened 2017-11-06 02:11:14 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (

浏览 2提问于2017-11-06得票数 0

1回答

Scrapy不工作(新手级别)-0个页面已爬网，0个项目已爬网

、

我一直在尝试遵循Scrapy教程，但我坚持下来了，并且不知道哪里出了错。C:\Users\xxx\allegro>scrapy crawl AllegroPrices2017-12-10 22:25:14 [scrapy.u

浏览 1提问于2017-12-11得票数 0

1回答

Scrapy:抓取后返回ids列表

、

我编写了一个自定义爬虫来递归浏览网站的页面，并将每次爬行的详细信息存储在我的postgres数据库中： name = 'my_spiderself.start_urls = ['http://www.example.com'] yield scrapy.requestyield scrapy.Request(url=full_

浏览 0提问于2016-04-12得票数 0

1回答

Scrapy CrawlSpider后处理:求平均值

、、

假设我有一个类似以下示例的爬网爬行器:从scrapy.contrib.spiders导入CrawlSpider，从scrapy.contrib.linkextractors.sgml导入SgmlLinkExtractor从scrapy.selector导入HtmlXPathSelector从scrapy.item导入项目 name = 'example.com] = hxs.select(&#x

浏览 1提问于2011-03-27得票数 0

回答已采纳

1回答

Scrapy返回0个项目和0个爬网页面

、、

我每次都有0个项目被抓取。我使用了user_agent，还在settings.py中设置了robot_txt = False，但仍然不起作用。爬行器代码： import scrapy from scrapy.spiderscrawl battery 2020-08-29 21:17:27 [scrapy.utils.log] INFO: Scrapy 2.1.0

浏览 19提问于2020-08-30得票数 0

回答已采纳

1回答

scrapy似乎没有在depth_limit上进行优化

、、

我刚接触scrapy，似乎还没有人问过这个问题。然而，在阅读日志后，我发现即使在depth_limit=1时，爬虫仍然检查很多首页的外链(大约100000)和所有返回的depth > 1，这是浪费时间，因为首页上的所有链接都是深度1，那么生成的链接肯定会深度

浏览 2提问于2013-10-22得票数 1

3回答

抓取爬行器在第一个重复的项目处停止

、、

我使用的是scrapy 0.20和python 2.7我不想在命令行中使用JOBDIR as参数。我的问题当蜘蛛找到第一个重复的项目时，它将停止工作。

浏览 3提问于2014-03-04得票数 3

3回答

可以在scrapy中设置动态下载延迟吗？

、、

爬虫能够抓取大约10个页面。在此之后，目标页面将返回类似“您的请求太频繁”之类的信息。我想要做的是将download_delay保持为0。一旦在html中发现了“请求太频繁”的msg。

浏览 4提问于2014-12-03得票数 4

2回答

如何使用Scrapyd和ScrapydWeb在集群中分布爬虫？

、、、

我在一个使用Scrapy的爬虫项目中工作，我需要将我的爬虫分布在集群中的不同节点上，以使过程更快。

浏览 6提问于2020-05-07得票数 2

1回答

python中的Scrapy TCP连接超时问题

我正在使用代理和端口从另一个网站抓取数据。但是我得到了： urls = [settings['OBERWIL_NEWS_URL']] request = <em

浏览 25提问于2020-02-06得票数 0

2回答

Sharepoint 2003/MOSS 2007是否能够返回包含搜索词的文档片段？

、、

有没有一个搜索API可以获取包含搜索词的简短文本，以便我可以用来显示给用户？

浏览 0提问于2009-07-08得票数 0

回答已采纳

5回答

使用Visual Studio进行抓取调试

、、

我是Scrapy和Python的新手，我很喜欢它。可以使用Visual Studio调试scrapy项目吗？如果可能，如何实现？

浏览 0提问于2014-07-21得票数 4

9回答

BeautifulSoup和Scrapy crawler有什么区别？

、、、

我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

2回答

如何让crawler4j更快地从页面下载所有链接？

、

我所做的是：一定有更快的方法，当我访问页面时，我可以直接下载链接？谢谢！

浏览 3提问于2012-01-10得票数 6

回答已采纳

1回答

download_delay在硒中的应用研究

、、

我正在使用scrapy和Selenium，这是爬行器的轮廓 start_urls = ["问题是，在爬取了不同数量的页面(有时是100，有时是200)之后，我得到了111个连接错误，所以我实现了download_delay和自动节流，这非常酷。但是selenium并不与中间件通信，我也没有真正使用从中间件返回的响应。所以我将不得不实现我自己的dow

浏览 0提问于2014-12-11得票数 1

1回答

获取scrapy上不同部分的数据列表

、、、

因此，我需要将dict "customer“的结果与"orders”列表和"itens“列表连接起来。('path to order id').extract_first() yield scrapy.FormRequestitems_details": order_item.xpath("path to items details&qu

浏览 2提问于2018-09-28得票数 1

3回答

为了使用Scrapy正确发送电子邮件，我忘记了什么

、、、

我想使用Scrapy发送电子邮件from scrapy.mail import MailSender我需要使用Scrapy框架，而不是纯Python我不想通过使用mailer = MailSender.from_settings(settings)来应用默认设置，因为正如你所见

浏览 0提问于2015-03-19得票数 5

5回答

在脚本文件函数中获取Scrapy crawler输出/结果

、、、、

我使用脚本文件在scrapy项目中运行爬行器，并且爬行器记录爬虫的输出/结果。但是我想在脚本文件中使用爬行器输出/结果，在某些函数中，.I不想将输出/结果保存在任何文件或DB中。下面是从获取的脚本代码from scrapy.crawler import CrawlerRunnerfrom scrapy.uti

浏览 3提问于2016-10-25得票数 12

点击加载更多