Xpath是正确的，但Scrapy爬行器不起作用

Xpath是一种用于在XML文档中定位和选择节点的语言。它通过使用路径表达式来描述节点的位置关系，可以非常灵活地定位和提取所需的数据。Xpath广泛应用于Web数据抓取、数据提取和数据处理等领域。

Scrapy是一个基于Python的开源网络爬虫框架，它提供了一套强大的工具和机制，用于快速、高效地开发和部署爬虫程序。Scrapy框架支持使用Xpath来解析和提取网页中的数据，通过编写爬虫规则和定义数据提取规则，可以实现自动化的数据抓取和处理。

如果Scrapy爬行器不起作用，可能有以下几个可能的原因和解决方法：

网络连接问题：首先需要确保网络连接正常，可以尝试访问其他网站来确认网络是否正常工作。如果网络连接存在问题，可以检查网络设置、代理设置等。
爬虫配置问题：检查Scrapy爬虫的配置文件，确保配置正确。包括目标网站的URL、请求头、请求参数等信息是否正确配置。
网页结构变化：如果目标网站的网页结构发生了变化，可能导致Xpath无法正确解析和提取数据。需要检查目标网站的网页结构是否发生了变化，并相应地修改Xpath表达式。
反爬虫机制：有些网站会设置反爬虫机制，例如验证码、IP封禁等，这可能导致Scrapy爬虫无法正常工作。可以尝试使用代理IP、设置请求头、处理验证码等方式来绕过反爬虫机制。
日志和错误信息：查看Scrapy爬虫的日志和错误信息，可以帮助定位问题所在。根据错误信息进行排查和调试。

总结起来，当Scrapy爬行器不起作用时，需要检查网络连接、爬虫配置、网页结构变化、反爬虫机制等可能的原因，并根据具体情况进行相应的调试和解决。

做一个好公民，抓取网络

python、screen-scraping、scrapy

我有一个两部分的问题。首先，我正在使用Scrapy编写一个基于爬行器的网络爬行器。我的目标是抓取一个有数千条(可能是数十万条)记录的网站。这些记录从起始页往下埋了2-3层。所以基本上我让爬虫从某个页面开始，爬行直到它找到特定类型的记录，然后解析html。我想知道的是，有什么方法可以防止我的爬行器使站点过载？有没有可能在不同的请求之间增加或暂停？其次，与之相关的是，有没有一种使用Scrapy的方法可以在不对网站施加过多压力的情况下测试爬虫？我知道你可以在程序运行的时候杀死它，但是有没有办法让脚本在遇到像第一页这样的页面时停止呢？任何建议或资源都将非常感谢。

浏览 0提问于2011-12-17得票数 6

回答已采纳

1回答

修改现有的爬虫网站实现了验证码--如何获取弹出的图像进行解码并继续？

python、scrapy、captcha、web-crawler

我有一个现有的抓取公共记录网站的爬虫，蜘蛛工作得很好，但他们添加了一个验证码弹出窗口，打破了蜘蛛(原始程序员不可用)。我正在尝试修改现有的爬行器来处理这个问题。例如，来自：如果我点击Accept按钮，一个验证码表单就会弹出来。我可以在浏览器中右键单击并保存图像，实际上我可以通过浮动在那里的decaptcha apis之一对其进行解码。但我对scrapy非常陌生，所以我需要一些帮助来了解如何提取图像并处理它。我需要一些帮助:)

浏览 2提问于2013-09-07得票数 0

1回答

在包含"sometext“的网页中获取链接的xpath

python、xpath、scrapy

我正在使用scrapy (网络爬行框架)。是否可以在网页中获取某个元素(包含"sometext")的xpath，以便提取具有类似xpath的元素？我不希望我的xpath被硬编码，因为我将爬行多个网站。我刚开始刮擦，我已经找了好几天了，什么也找不到

浏览 2提问于2016-01-16得票数 0

回答已采纳

1回答

如何提高抓取抓取的速度？

python、scrapy

我正在使用Scrapy抓取网站并将数据提取到json文件中，但我发现对于某些网站，爬虫需要很长时间才能抓取整个网站。我的问题是:如何最大限度地减少爬行所需的时间？

浏览 3提问于2013-10-01得票数 4

1回答

当有许多重复链接时，如何提高抓取速度

python、scrapy、web-crawler

我正在使用Scrapy抓取一个有数百万个页面的网站，我需要关注这些页面并从中提取信息。爬虫目前每分钟只抓取200页，我需要加快速度。对于每个页面，爬虫提取其链接并跟踪它们。问题是每个页面大约有600个链接，其中大部分都在所有页面上，我认为这就是为什么爬虫需要这么长时间才能完成的原因，因为爬虫正在为所有链接调用请求函数，即使它们是重复的。以下是我的代码的简化版本： def parse_data(self, response): item = URL() outlinks_extrated = [l.url for l in LinkExtractor(allow_dom

浏览 24提问于2020-01-28得票数 0

回答已采纳

3回答

链接Scrapy后的问题

python、scrapy

尝试让我的网络爬虫抓取从网页中提取的链接。我用的是Scrapy。我可以用我的爬虫成功地拉取数据，但不能让它爬行。我认为问题出在我的规则部分。Scrapy新手。提前感谢您的帮助。我正在抓取这个网站： http://ballotpedia.org/wiki/index.php/Category:2012_challenger 我尝试使用的链接在源代码中如下所示： /wiki/index.php/A._Ghani 或 /wiki/index.php/A._Keith_Carreiro 下面是我的爬行器的代码： from scrapy.spider import BaseSpider from sc

浏览 3提问于2013-02-12得票数 0

1回答

Scrapy:网站正在减慢我的请求

python、scrapy

我用scrapy写了一个蜘蛛。每次我尝试抓取一个特定的网站时，爬虫在一开始都运行得很好。但是当我下降到500-600个请求时，蜘蛛开始爬行得非常慢。我检查了内存和cpu设置，但这不是问题所在。我很确定这个网站正在放慢我的请求。如何调整scrapy以快速一致地抓取？

浏览 2提问于2020-07-30得票数 0

3回答

智能爬虫，可以根据关键字对来源进行优先排序？

scrapy、web-crawler、nutch

我正在尝试创建一个网络爬虫，不断爬行网页，寻找包含某些关键字的网页。有很多开源的解决方案(Nutch，Scrapy等)，但我需要一个智能的解决方案，可以优先考虑“丰富”的来源。我想让机器人从某一页开始，f.e.，提取所有链接并继续抓取它们。现在，如果页面包含某个关键字f.e.。‘'foo'，则应将此url发送到数据库。现在，最难的部分来了。如果我创建并运行这样的机器人，爬虫可能需要很长时间才能找到包含指定关键字的新页面，因为它是在整个网络上爬行。如果蜘蛛能够识别出它经常在哪个领域找到关键字，那么这个过程就会大大加快，这样就可以更频繁地爬行这些关键字。有没有一个开源的解决方

浏览 1提问于2012-11-07得票数 1

4回答

在多个网站上使用一个Scrapy爬虫

python、web-crawler、scrapy

我需要创建一个用户可配置的网络蜘蛛/爬虫，我正在考虑使用Scrapy。但是，我不能硬编码域和允许的URL regex:es --这将在GUI中配置。如何(尽可能简单地)使用Scrapy创建一个爬行器或一组爬行器，其中域和允许的URL regex:es是动态可配置的？例如，我将配置写到一个文件中，然后爬行器以某种方式读取它。

浏览 2提问于2010-03-07得票数 12

回答已采纳

1回答

web抓取设计-最佳实践

web-scraping、web-crawler、workflow、raw-data

在我的过去，我已经实施了几个网络抓取项目--从小到中等大小(大约100.000页)。通常，我的出发点是一个索引页面，它链接到几个页面，其中包含我想要抓取的详细信息。最后，我的项目大部分时间都在工作。但是我总是觉得我可以改进工作流程(特别是在减少被刮掉的网站的流量和连接到这个主题的挑战:被禁止的风险:D)。这就是为什么我想知道你的(最佳实践)的网页刮板设计方法(为中小型项目)。通常，我会建立我的网络抓取项目，像这样： I标识一个起点，其中包含我希望从其中刮取数据的urls。起点有一个相当可预测的结构，这使得刮除变得很容易。我浏览了一下我想要刮的端点，并找出一些函数来抓取和处理数据。我收集

浏览 4提问于2021-02-24得票数 0

回答已采纳

1回答

抓取生成的内容并提取链接

javascript、python、xpath、scrapy-spider

在Stack Overflow中有许多Q/A页面，其中的结论似乎是使用javascript的网页不可能使用爬虫来爬行和提取。或者说，在某些情况下，如果可能的话，至少这个动作是有限的和缓慢的。我想知道我想要做的事情是不是可以用蜘蛛爬行，如果不可能的话，可以用其他方法来实现我的目标。我有以下爬行器的代码，但我不知道允许我提取这个网页上的垃圾场url的第一页的xpath (如果有)：我有以下代码，如果我知道在xpath中放入什么内容来提取“site”的位置，这些代码就可以正常工作。 # -*- coding: utf-8 -*- from __future__ import unicode_li

浏览 0提问于2016-05-25得票数 0

1回答

使用Solr Nutch抓取特定数据

solr、web-scraping、web-crawler、nutch

我看到一些像这样的搜索网站，我想知道他们是如何在price，image和description等其他网站上抓取数据并将其显示在他们的网站上的。我正在考虑使用Solr来索引数据，使用Nutch来抓取数据。我是网络爬行和索引的新手，到目前为止，我只能抓取网页的内容。 Solr Nutch能做这种爬行吗？又是如何做到的？

浏览 1提问于2015-08-28得票数 0

1回答

在此网站上使用Scrapy登录时出现问题

python、authentication、scrapy

我正在尝试创建一个爬虫，首先登录到网站，然后继续爬行到其他页面。该网站为折腾了一下之后，我想出了这个(我已经导入了库和其他东西)： class CrawlSite(scrapy.Spider): name = 'WebCrawl' start_urls = ('https://login.globo.com/login/6668?url=https://valor.globo.com/') def login_valor(self, response): return FormRequest.from_response(response,

浏览 11提问于2020-07-30得票数 0

回答已采纳

1回答

将请求传递给不同的蜘蛛

python、python-3.x、scrapy

我正在开发一个使用两种不同蜘蛛的网络爬虫(使用scrapy)：非常通用的蜘蛛，可以抓取(几乎)任何网站使用一串启发式提取数据。专门的蜘蛛，能够爬行一个特定的网站A，不能与一般蜘蛛爬行，因为网站的特殊结构(该网站必须被爬行)。到目前为止，一切都运行得很好，但是网站A包含到其他“普通”网站的链接，这些网站也应该被刮掉(使用蜘蛛1)。是否有一种将请求传递给蜘蛛1的方法？我想过的解决办法：将所有的功能移到蜘蛛1，但这可能会变得非常混乱，蜘蛛1的代码已经很长也很复杂，如果可能的话，我想让这个功能保持独立。按照中的建议保存到数据库的链接有更好的办法吗？

浏览 2提问于2017-08-09得票数 1

1回答

如何在检测响应状态中的代码500时自动增加scrapy的DOWNLOAD_DELAY

web-scraping、scrapy、web-crawler、delay

我将编写数百个爬虫来抓取不同的静态网页，所以我选择Scrapy来帮助我完成我的工作。在工作过程中，我发现大多数网站都很简单，不会防蜘蛛。但是我发现很难在scrapy.setting.py文件中设置一个套装DOWNLOAD_DELAY。有太多的爬行器要编码，为每个爬行器找到合适的DOWNLOAD_DELAY会耗尽我的时间。我想知道哪些型号的爬虫加载和使用DOWNLOAD_DELAY参数，以及如何编写程序在检测服务错误时自动增加DOWNLOAD_DELAY (爬虫请求太频繁)。

浏览 2提问于2019-01-17得票数 1

1回答

从一个页面中抓取多篇文章，每篇文章都有单独的href

python-3.x、scrapy

我是个新手，写了我的第一个爬虫，为类似的网站做了一个爬虫。我想要抓取标题，然后导航到每篇文章，抓取每篇文章的文本内容。我已经尝试使用规则和链接提取器，但它不能导航到下一页和提取。我得到错误:爬行器错误处理 (referer: None) 下面是我的代码 import scrapy from scrapy.spiders import Rule from scrapy.linkextractors import LinkExtractor class MedicalSpider(scrapy.Spider): name = 'medical' allowe

浏览 1提问于2019-07-09得票数 1

1回答

如何在一个python脚本中调用2个Scrapy爬虫？

python、scrapy

我正在使用Scrapy CrawlSpider类来抓取电子商务网站的分类页面。问题是，大约5%的请求在5次重试后被拒绝，并且不会达到100%的已知类别。我的解决方法涉及到第二个爬行器(scrapy.Spider)，它从数据库中获取丢失的已知URL，并简单地重新抓取它们。这样我就达到了100%的成绩。问题是，这是两个不同的爬虫，它们位于两个不同的python文件中，需要由cron作业分别触发。此外，我只是简单地将parse_item函数复制到另一个刮除器，如果需要的话，现在需要在这两个刮除器上进行更改。 class myspider(CrawlSpider): name = '

浏览 1提问于2021-08-07得票数 1

1回答

如何确定Scrapy在Pipeline.close_spider()方法中是否遇到错误？

scrapy、scrapy-pipeline

我有一个抓取蜘蛛和管道设置。我的爬行器从网站提取数据，管道的process_item()方法将提取的数据插入到一个临时数据库表中。最后，在管道的close_spider()方法中，我对临时数据库表运行一些错误检查，如果一切正常，则使临时表成为永久表。但是，如果Scrapy在调用管道的close_spider()方法之前遇到异常，则提取的数据可能不完整。有没有办法检查Scrapy是否在管道的close_spider()方法中遇到异常？如果有错误(表明提取的数据可能不完整)，我不想使临时表成为永久性的。我使用CLOSESPIDER_ERRORCOUNT设置为1的CloseSpider扩展

浏览 1提问于2017-10-27得票数 1

4回答

加快web抓取器速度

python、performance、web-scraping、scrapy、scrapy-spider

我用一个相当简单的网络刮刀用scrapy抓取了23770个网页。我对scrapy甚至python都是新手，但还是设法写了一个爬虫来完成这项工作。然而，它真的很慢(它需要大约。28小时爬行23770页)。我已经查看了scrapy网页、邮件列表和stackoverflow，但我似乎找不到初学者可以理解的编写快速爬虫的通用建议。也许我的问题不是爬虫本身，而是我运行它的方式。欢迎所有建议！如果需要的话，我在下面列出了我的代码。 from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector fro

浏览 1提问于2013-06-11得票数 18

回答已采纳

1回答