Scrapy xpath不工作--只与css-selector结合使用？

Scrapy是一个用于网络爬虫的Python框架，它提供了多种方式来提取网页上的数据，包括XPath和CSS选择器。如果你发现Scrapy的XPath不工作，而CSS选择器却可以正常工作，可能是以下几个原因：

基础概念

XPath：是一种在XML文档中查找信息的语言，也可以用于HTML。它使用路径表达式来选取节点。
CSS选择器：是一种用来指定网页上想要样式化的HTML元素的工具。

可能的原因

XPath语法错误：可能是XPath表达式写错了，比如拼写错误、使用了不存在的轴等。
HTML结构变化：网页的结构可能在你编写爬虫之后发生了变化，导致XPath无法匹配。
编码问题：网页的编码可能不是UTF-8，这可能会导致解析错误。
Scrapy设置问题：可能是Scrapy的某些设置影响了XPath的解析。

解决方法

检查XPath语法：确保你的XPath表达式是正确的。可以使用在线XPath测试工具来验证。
查看网页源码：检查网页的HTML源码，确认结构是否发生了变化，并相应地调整XPath。
设置正确的编码：在Scrapy的settings.py文件中设置正确的编码，例如：
设置正确的编码：在Scrapy的settings.py文件中设置正确的编码，例如：
使用Scrapy Shell调试：使用Scrapy Shell来调试你的XPath表达式，确保它们能够正确地提取数据。
使用Scrapy Shell调试：使用Scrapy Shell来调试你的XPath表达式，确保它们能够正确地提取数据。
然后在shell中尝试你的XPath表达式：
然后在shell中尝试你的XPath表达式：
结合CSS选择器使用：如果XPath确实有问题，可以尝试使用CSS选择器来提取数据。

示例代码

假设我们要从一个网页中提取所有的标题，可以这样写：

import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    start_urls = ['http://example.com']

    def parse(self, response):
        # 使用XPath
        titles = response.xpath('//h1/text()').getall()
        print("Titles from XPath:", titles)

        # 使用CSS选择器
        titles_css = response.css('h1::text').getall()
        print("Titles from CSS:", titles_css)

参考链接

通过以上步骤，你应该能够诊断并解决Scrapy XPath不工作的问题。如果问题依然存在，可能需要进一步检查网页的特定部分或者Scrapy的日志来获取更多信息。

Xpath选择只返回第一个响应结果。

、、、、

我还没开始刮擦呢。当尝试从quotes.toscrape，读取数据时，我在使用xpath选择器时不会得到任何内容。一旦我使用css选择器，一切都按预期工作。我只是找不到错误，即使这个例子非常简单。 quotes.py import scrapy from quotes_loader.items import QuotesLoaderItem as QL class QuotesSpider(scrapy.Spider): name = 'quotes' allowed_domains = ['quotes.toscrape.com']

浏览 3提问于2021-03-30得票数 0

1回答

如何解决下面的python-scrapy错误？

、

它在执行过程中没有显示错误，但我得到了一个空白文件，用于蜘蛛的output.My代码如下所示： from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from example.items import exampleItem class MySpider(BaseSpider): name = "eg" allowed_domains = ["timeanddate.com"] start_urls = [&#

浏览 2提问于2017-05-07得票数 1

回答已采纳

2回答

为什么我的破蜘蛛什么都不刮？

、、、、

我不知道问题在哪里，可能是超级容易解决，因为我是新刮刮。谢谢你的帮忙! 我的蜘蛛： from scrapy.spiders import CrawlSpider, Rule from scrapy.selector import HtmlXPathSelector from scrapy.linkextractors import LinkExtractor from scrapy.item import Item class ArticleSpider(CrawlSpider): name = "article" allowed_domains = [

浏览 3提问于2016-02-04得票数 1

回答已采纳

3回答

爬虫不会刮任何东西

、

from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor #scrapy crawl dmoz -o items.json -t json from scrapy.http import Request from urlparse import urlpa

浏览 3提问于2013-01-30得票数 0

回答已采纳

1回答

物品装载机在刮擦中不能正常工作

、

我试着研究项目加载器，下面的代码不能正常工作:它只给我"start_url“值，而不是"SUBJECT”和"CREATOR2“值(它们根本不出现，不只是一个空槽)。我搞不懂它为什么这么做。我需要使用项目加载器，特别是用于"CREATOR2“值，这个值有时在xpath上，有时在另一个上。 import scrapy from bibtime.items import BibtimeItem, BibtimeLoader from scrapy.loader import ItemLoader from scrapy.contrib.loader.processo

浏览 0提问于2016-05-16得票数 3

回答已采纳

2回答

如何消除Scrapy Spider数据中的空白

、

我正在用Scrapy编写我的第一个爬虫，并尝试遵循文档。我已经实现了ItemLoaders。爬行器提取数据，但数据包含许多行返回。我尝试了许多方法来删除它们，但似乎都不起作用。replace_escape_chars实用程序应该可以工作，但我不知道如何在ItemLoader中使用它。还有一些人使用(unicode.strip)，但同样，我似乎不能让它工作。一些人试图在items.py中使用它们，而另一些人则在爬虫中使用它们。如何清除这些行返回的数据(\r\n)？我的items.py文件只包含项目名称和字段()。爬虫代码如下： from scrapy.spider import BaseSpid

浏览 2提问于2013-04-16得票数 5

回答已采纳

1回答

Scrapy不会从电子商务站点获得产品

我试着学习Scrapy，并设法爬行一些我失败的网站，例如:我尝试爬行：我创建了一个测试蜘蛛，它将获取页面中的所有产品。当我运行蜘蛛，我知道它没有找到任何产品。有人能帮助我理解我做错了什么吗?这与CSS：：and和::after有关吗？我怎样才能让它发挥作用？ Spider代码(无法在页面中获取产品) # -*- coding: utf-8 -*- import scrapy from scrapy.selector import Selector class PolySpider(scrapy.Spider): name = "poly" allowed_

浏览 2提问于2016-01-19得票数 0

回答已采纳

1回答

项序列化器不工作。函数从未被调用

、、

我试图在项中使用序列化器属性，就像文档中的示例：爬行器工作时没有任何错误，但是序列化不会发生，函数中的打印也不会打印。这就像remove_pound函数从未被调用过一样。 import scrapy def remove_pound(value): print('Am I a joke to you?') return value.replace('£', '') class BookItem(scrapy.Item): title = scrapy.Field() price = scrapy.Field(

浏览 0提问于2020-11-14得票数 0

回答已采纳

2回答

试图使用python/scrapy提取数据，但无法找到正确的xpath

、、、

我想刮一下网站。我想要提取标题位置公司发布的职位。我尝试了很少xpath的位置，公司和头衔，但没有任何工作。我还试图把它写到CSV文件中。所有的位置，公司和头衔都是空白的。我认为我的xpath是不正确的 import scrapy class JobItem(scrapy.Item): # Data structure to store the title, company name and location of the job title = scrapy.Field() company = scrapy.Field()

浏览 0提问于2019-04-22得票数 0

回答已采纳

2回答

刮除: USER_AGENT和ROBOTSTXT_OBEY设置正确，但我仍然得到了错误403

、、

您好，提前感谢您的帮助或指导。这是我的刮刀： import scrapy class RakutenSpider(scrapy.Spider): name = "rak" allowed_domains = ["rakuten.com"] start_urls = ['https://www.rakuten.com/deals?omadtrack=hp_deals_viewmore'] def parse(self, response): for sel in response.xpath(

浏览 0提问于2017-11-15得票数 3

2回答

无法将您的要求解析为可安装的软件包集。- Symfony项目

、、、

我试图从我必须维护的项目中安装依赖项，但每次我尝试安装编写器时，我都会得到这个错误：“您的需求无法解析为可安装的软件包集。”给了我这个错误： Warning: The lock file is not up to date with the latest changes in composer.json. You may be getting outdated dependencies. Run update to update them. Your requirements could not be resolved to an installable set of pack

浏览 3提问于2019-10-07得票数 3

回答已采纳

1回答

Scrapy Craigslist脚本

、、、、

我想创建一个Scrapy脚本来抓取任何craigslist子域中的计算机音乐会的所有结果:例如：这个查询返回了许多文章的列表，我试图用CrawlSpider和linkExtractor抓取每个结果的标题和href (不仅仅是第一页上的结果)，但没有任何结果，但是脚本什么也没有返回。我会在这里粘贴我的脚本，谢谢 import scrapy from scrapy.spiders import Rule,CrawlSpider from scrapy.linkextractors import LinkExtractor class CraigspiderSpid

浏览 3提问于2016-03-13得票数 0

2回答

试图解析一个刮伤的python for循环

如果可能的话，我想要求一些帮助刮一些细节从一个网页。结构如下我可以使用以下命令检索所有歌曲： response.css("div.trk-cell.title a").xpath("@href").extract() 或 resource.xpath("//div[@class='trk-cell title']/a/@href").get() 我可以使用以下命令检索所有艺术家： response.css("div.trk-cell.artists a").xpath("@href").e

浏览 6提问于2021-12-29得票数 0

回答已采纳

2回答

抓取0页(0页/分钟)，刮0项(0项/分钟)

、

我正在学习刮伤，我想从这个页面上刮几个项目：为了避免使用robots.txt策略等，我在hd上保存了页面，并使用scrapy测试了xpath。它们似乎像预期的那样起作用。但是，当我使用scrapy crawl basic命令运行我的蜘蛛时(正如我正在阅读的书中推荐的那样)，我得到了以下输出： 2017-09-27 12:05:02 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: properties) 2017-09-27 12:05:02 [scrapy.utils.log] INFO: Overridden settings

浏览 2提问于2017-09-27得票数 0

回答已采纳

1回答

Python和Scrapy，并试图将数据刮入MariaDB/MYSQL数据库

、、、、

我知道下面的代码是未完成的，但我所做的只是将这些结果输入到我的MARIADB中。我花了太多的时间仔细梳理Stackoverflow，寻找这个答案。代码工作得很好，我可以手动添加最后的条目，以便在数据库中输入带有静态信息的内容，但是我已经在for循环中尝试了所有可能的方法。我只需要最后几行代码就可以解决这个问题，我相信我可以继续进行最后的数据抓取。 import scrapy import mysql.connector from scrapy.selector import Selector mydb = mysql.connector.connect( host="local

浏览 3提问于2020-07-07得票数 1

回答已采纳

1回答

管道文件中存在一个问题，因为它没有获取图书名。相反，使用None.jpg为每次爬行保存一个随机映像。

、、

items.py文件正如我所知道的，image_urls和图像字段。它没有造成任何问题。 import scrapy from scrapy.loader.processors import TakeFirst class BooksToScrapeItem(scrapy.Item): image_urls = scrapy.Field() images = scrapy.Field() book_name = scrapy.Field( output_processor = TakeFirst() ) pipelines.py文件我认为get

浏览 0提问于2020-02-20得票数 2

回答已采纳

1回答

python 3.6中的xpath和scrapy不起作用

、、

我正在努力使这段代码正常工作，这样我就可以从下面的网站：中抓取表中的一些列。为了工作，我一直试图修改很多东西，但是没有成功，有人能告诉我我做错了什么吗？我也把日志放了。提前谢谢。 ps:我读过很多类似我的帖子，但是我找不到原因，很抱歉这个帖子被重复了。 from scrapy import Spider from scrapy.selector import Selector from stack.items import StackItem class StackSpider(Spider): name = "stack" allowed_domains

浏览 0提问于2018-02-10得票数 0

回答已采纳

1回答

Xpath不从Scrapy Shell中的<p>标记返回文本

、、、

链接：我正在尝试从上面的链接中抓取描述。XPath看起来是正确的，但它没有返回scrapy shell中的值。(请看下面的截图)。我尝试了所有的方法，比如get()，getall()，extract()，extract_first()，extractall()，但是我得到了一个空列表。请帮我找出错误。谢谢..。

浏览 17提问于2020-05-09得票数 0

回答已采纳

1回答

选择器response.xpath和response.css之间的输出差异是什么？

、、、

我在python工作，在Scrapy库的帮助下制作爬虫。当我使用选择器response.xpath和response.css获取数据时，结果就不同了。就像我使用xpath时一样，它没有显示结果，如果我用css替换xpath，那么它将显示结果。请帮助我理解这个概念。 xpath查询 img = response.xpath('//div[@class="product-images"]//img/@src').extract() css查询 img = response.css('div.product-images img::attr(src)

浏览 1提问于2017-08-01得票数 1

1回答

如何利用Scrapy和Selenium从亚马逊网站上提取产品信息？

、、

我想用Scrapy和Selenium从亚马逊网站上提取产品的信息。下面的源代码连接到Amazon网站，然后通过字母"A“进行搜索。然后恢复搜索结果集的链接。但是，当我循环到每个搜索结果时，什么都不会发生(它只是连接到第一个结果)。谢谢你帮我更正这段代码。源代码“蜘蛛” from scrapy.contrib.spiders import CrawlSpider from selenium import webdriver from selenium.webdriver.support.select import Select from time im

浏览 3提问于2015-07-20得票数 0

1回答

抓取一些Facebook数据，但不是全部？Scrapy/Splash/Python

、、、

我有一只蜘蛛，看起来像这样： import scrapy from scrapy_splash import SplashRequest class BarkbotSpider(scrapy.Spider): name = 'barkbot' start_urls = [ 'http://www.facebook.com/pg/TheBarkFL/events/?ref=page_internal/' ] custom_settings = { 'FEED_URI': 'o

浏览 1提问于2018-12-31得票数 0

2回答

重复抓取的数据

、、

我是python的新手，但由于工作原因需要擦除。我在scrapy上花了一两个星期，我最终对它感到满意，除了下面的代码，而不是输出一行数据，而是重复它五次。下面是一个示例(仅使用1个url)：导入scrapy class AdamSmithInstituteSpider(scrapy.Spider): name = "adamsmithinstitute" start_urls = [ "https://www.adamsmith.org/research?month=March-2018", ] def parse(self, response):

浏览 2提问于2018-07-10得票数 1

1回答

使用regex查找字符串中的re.match不工作

、、

我尝试在同一个域中爬行许多url。我必须在字符串中列出列表。我想在字符串中搜索regex并找到urls。但是re.match()总是不返回任何内容。我测试了我的正则表达式，它起作用了。这是我的密码： # -*- coding: UTF-8 -*- import scrapy import codecs import re from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy imp

浏览 0提问于2015-04-30得票数 0

回答已采纳

1回答

XPath选择器工作在XPath帮助控制台，但不工作于刮伤

、、、

我用刮刮来分析的利率我还使用Google中的Xpath扩展来查找必要的XPath选择器。下面我在XPath帮助控制台中使用的选择器完全符合我的需要。由于某种原因，相同的查询在我的蜘蛛中不起作用，即使它导航到页面。你可以在下面看到我的蜘蛛代码。 import scrapy import urllib.parse class RatesSpider(scrapy.Spider): name = 'rates' allowed_domains = ['cbr.ru'] start_urls = ['https://

浏览 0提问于2018-10-12得票数 1

回答已采纳

1回答

Python3抓取网爬虫

、、、、

对于我的工作，我必须写一个爬虫，它只保存页面的标题，交付状态和产品的数量。以下是我的默认蜘蛛代码： import scrapy class QuotesSpider(scrapy.Spider): name = "quotes" def start_requests(self): urls = [ 'https://www.topart-online.com/de/Ahorn-japan.%2C-70cm%2C--36-Blaetter----Herbst/c-KAT282/a-150001HE'

浏览 2提问于2020-07-20得票数 0

回答已采纳

2回答

在“刮”中删除“无”项中的属性

、、、

我正在使用Scrapy爬行一个网站。我正在从页面中提取5个项目。以下是我的档案 items.py class ParseItem(scrapy.Item): a = scrapy.Field() b = scrapy.Field() c = scrapy.Field() d = scrapy.Field() e = scrapy.Field() 我正在解析蜘蛛目录中的数据，这是我使用的函数。 parser.py def parse_page(self, response): item = ParseItem() item['a

浏览 3提问于2017-12-24得票数 2

回答已采纳

2回答

我的Scrapy没有刮任何东西(空白csv文件)

、、

我正在尝试从国际商会网站上废弃前100名t20击球手，但是我得到的csv文件是空白的。我的代码中没有错误(至少我不知道)。这是我的项目文件 import scrapy class DmozItem(scrapy.Item): Ranking = scrapy.Field() Rating = scrapy.Field() Name = scrapy.Field() Nationality = scrapy.Field() Carer_Best_Rating = scrapy.Field() dmoz_spider文件 import scrapy fr

浏览 2提问于2016-05-22得票数 0

回答已采纳

2回答

运行结果很差

刚刚开始使用Scrapy，我希望能在正确的方向上有所作为。我想从这里抓取数据：这就是我到目前为止所知道的： import scrapy import re class BlogSpider(scrapy.Spider): name = 'sportstats' start_urls = ['https://www.sportstats.ca/display-results.xhtml?raceid=29360'] def parse(self, response): headings = [] r

浏览 2提问于2016-05-12得票数 0

1回答

在Scrapy中，如何使用嵌套的项加载器而无需进一步的“add_xpath”调用

、

我正在尝试利用重构一只抓取蜘蛛。我已经从一个XPath表达式中提取的数据中填充了几个字段，为了简洁起见，我想使用。这是目前为止的蜘蛛： from scrapy.spiders import SitemapSpider from apkmirror_scraper.items import ApkmirrorScraperItem, ApkmirrorItemLoader class ApkmirrorSitemapSpider(SitemapSpider): name = 'apkmirror-spider' sitemap_urls = ['htt

浏览 2提问于2017-04-25得票数 2

2回答

Scrapy在给定选择器列表时仅返回最后一个元素

、、、

我遇到了一个问题，那就是我组装的一只蜘蛛。我试图从上的文字记录中抓取各行文本以及相应的时间戳，并找到了我认为合适的选择器，但在运行时，爬行器的输出只是最后一行和时间戳。我见过其他几个有类似问题的人，但还没有找到解决我的问题的答案。这就是蜘蛛： # -*- coding: utf-8 -*- import scrapy from this_american_life.items import TalTranscriptItem class CrawlSpider(scrapy.Spider): name = "transcript2" allowed_doma

浏览 0提问于2017-10-20得票数 0

2回答

即使在我使用加载程序时，也不能从scrapy中提取普通字符串。

、

我似乎不能从抓取一个网站中提取字符串，即使我使用的是一个加载程序。当使用一个加载程序时，一切正常(用于评论)，但问题似乎在于我正在使用的第二个加载程序(ProductDescriptionLoader)。下面是代码文件名items.py from scrapy.item import Item, Field from scrapy.contrib.loader import XPathItemLoader from scrapy.contrib.loader.processor import TakeFirst, MapCompose, Join,Compose class Flipka

浏览 3提问于2013-12-12得票数 0

回答已采纳

1回答

用xpath提取Python顺序中的抓取

、、

我是，用中的蜘蛛从页面中抓取一些文本，输出是一个.csv文件。一切正常，除了某些记录的顺序之外，它在.csv文件中按不同的顺序生成，这与我在spider.py中放置的内容不同：我得到的是：但这是我需要的顺序，并传递给spider.py (颜色为倒置的行)：我不知道为什么它不尊重数据的顺序，刮。出于某种原因，它尊重相同的顺序，数据出现在网页上，但如果我传递它的顺序不同的网页，为什么蜘蛛忽略我？我的代码： import scrapy from scrapy.spiders import Spider from scrapy.linkextractors import L

浏览 5提问于2020-04-24得票数 0

回答已采纳

1回答

Scrapy用规则爬行所有链接吗？

、

代码来源：是python和scrapy的新手。我搜索递归蜘蛛并找到了这个。我有几个问题：接下来是怎么做的？它只是从页面中获取href链接并将其添加到请求队列中吗？抓取是从网页的哪一部分抓取的？下面的代码会刮掉网页上的所有链接吗？让我说我想从这个网站抓取和下载每一个文件我可能会这样做的方式是刮刮这个网站上的每一个链接，并检查URL的内容标题和下载，如果它是一个文件。这可行吗？抱歉，如果这是个糟糕的问题..。 from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.

浏览 0提问于2016-03-24得票数 0

3回答

尝试使用Scrapy从表中提取数据

、、

我在Vista64位上使用的是Python.org 2.7版本。我有目前的Scrapy代码，现在可以很好地提取文本，但我有点卡住了，因为我不知道如何从网站的表格中获取数据。我已经在网上找过答案了，但我还是不确定。举个例子，我想获取下表中包含的韦恩·鲁尼的得分统计数据：我目前的代码是这样的： from scrapy.spider import Spider from scrapy.selector import Selector from scrapy.utils.markup import remove_tags from scrapy.cmdline import execute impo

浏览 0提问于2014-07-13得票数 1

1回答

从未使用Scrapy调用的回调函数

、、、

我是Scrapy和python的新手。我花了几个小时尝试调试并寻找有用的响应，但我仍然卡住了。我正在尝试从www.pro- from reference.com中提取数据。这是我现在拥有的代码 import scrapy from nfl_predictor.items import NflPredictorItem class NflSpider(scrapy.Spider): name = "nfl2" allowed_domains = ["http://www.pro-football-reference.com/"] start_

浏览 0提问于2016-01-14得票数 0

3回答

Scrapy - TypeError:参数必须是字节或unicode，获取“list”

、、、、

这是我的第一个Scrapy spider项目。我是Python的新手，所以请原谅我的无知。基本上，我想从www.doritos.com/products/页面抓取图像。我将使用这些图像进行目标检测项目，因此我正在构建我的训练数据集。以下是到目前为止的代码： import scrapy from scrapy.contrib.spiders import Rule, CrawlSpider from scrapy.contrib.linkextractors import LinkExtractor from doritos.items import DoritosItem

浏览 157提问于2019-01-06得票数 0

1回答

Python ValueError: XPath错误:未注册的函数

、、、

<img alt="MediaMarkt" border="0" e-editable="img" src="http://news-de.mediamarkt.de/custloads/298149669/vce/mediamarkt.png" style="display:block;" width="169"/> 我正在尝试从HTML，我有alt的值，然后使用它，我试图获得图像 company_name = "mediamarkt" response.xpath(

浏览 73提问于2020-06-25得票数 2

回答已采纳

3回答

抓取蜘蛛代码不运行是因为语法？

、、、

因此，我的项目似乎总是因为同样的原因而失败。我有语法错误。我正在使用anaconda和可视化代码工作室，我认为环境设置是正确的。我使用的代码如下： import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule class BestMoviesSpider(CrawlSpider): name = 'best_movies' allowed_domains = ['imdb.com']

浏览 4提问于2022-02-10得票数 0

回答已采纳

1回答

scrapy空csv文件

、

我正在尝试运行我的抓取爬虫，它没有返回任何错误，但输出了一个空的csv文件我通过命令行scrapy crawl AnimeReviews -o AnimeReviews.csv -t csv启动爬行器这是我用过的库 import scrapy import json from functools import reduce from scrapy.selector import Selector from AnimeReviews.items import AnimereviewsItem last_page = 1789 这是我的蜘蛛 class AnimeReviewsSpider(s

浏览 0提问于2018-06-22得票数 1

1回答

不能从多个页面中刮除评论，它只是在(新的行距)间隔之前刮掉评论

、、、

提前谢谢你抽出时间。我真的很感激。我试图从亚马逊的产品评论，评级和其他信息。下面是相同的代码。我得到的问题是：第一页有10个评论。在爬行的数据中，所有的评论只来自这10个客户。 10行评论数据，然后空行，然后再这10，等等。共有196条线路以同样的方式。此外，如果任何评论中有“输入”用户在其中使用的间隔，那么只有文本之前的间隔是在审查中。如下图中以黄色突出显示的那样。链接到刮除- 我的代码： import scrapy class ReviewspiderSpider(scrapy.Spider): name = 'reviews

浏览 3提问于2020-06-23得票数 0

2回答

在所有页面被刮掉之前的刮擦整理过程

我坐了一个测试刮刀，它看起来是这样的： import scrapy class testSpider(scrapy.Spider): name = 'test' start_urls = ['https://www.realestate.com.kh/buy/'] def parse(self, response): nr_pages = response.xpath('//div[@class="desktop-buttons"]/a[@class="css-1en2dru"]

浏览 4提问于2020-10-22得票数 0

回答已采纳

1回答

某些站点上的Scrapy超时

、、

在我自己的机器上我试过 > scrapy fetch http://google.com/ 或 > scrapy fetch http://stackoverflow.com/ 工作完美，不知何故，www.flyertalk.com不能很好地处理scrapy。我一直收到超时错误(180秒)： > scrapy fetch http://www.flyertalk.com/ 但是，curl工作得很好，没有任何问题 > curl -s http://www.flyertalk.com/ 非常奇怪。下面是完整的转储： 2015-11-20 17:35:07 [scra

浏览 0提问于2015-11-21得票数 1

2回答

如何从网站上抓取所有的数据？

、、

我的代码只给了我44个链接数据，而不是102个。有人能告诉我为什么要这样提取吗?我很感谢你的help.How，我可以正确地提取它吗？ import scrapy class ProjectItem(scrapy.Item): title = scrapy.Field() owned = scrapy.Field() Revenue2014 = scrapy.Field() Revenue2015 = scrapy.Field() Website = scrapy.Field() Rank = scrapy.Field() Employe

浏览 45提问于2017-05-13得票数 1

回答已采纳

1回答

抓取蜘蛛不能正确抓取数据

、、、、

我正在尝试从我的大学网站上抓取关于循环的数据，使用scrapy进行一个项目，但我的爬虫没有正确地抓取数据。有很多空白元素，而且由于某些原因，我无法抓取通知的'href‘属性。我假设我的CSS选择器是错误的，但我无法找出我到底做错了什么。我用'Selector Gadget‘Chrome扩展复制了我的CSS选择器。我一直在学习scrapy，所以如果你能解释我做错了什么，那就太好了。我正在抓取数据的网站是：https://www.imsnsit.org/imsnsit/notifications.php 我的代码是： import scrapy from ..items imp

浏览 10提问于2020-11-21得票数 0

1回答

我是不是对LinkExtractor属性(restrict_xpath)做错了什么？不做回调

、

我正在测试规则，在网站上设置一个蜘蛛，以便输入每个项目的url，从每个条目获取信息，然后按照分页，在这种情况下是无限滚动。但是首先，我想为回调创建一个规则，以便每次它找到一个项目时都会被调用，但问题是，它不需要回调。我也试过用一个最小的表达式来允许()，但仍然一无所获。唯一能得到任何信息的是，如果允许()和restric_xpaths()都为空的话。 # -*- coding: utf-8 -*- import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkE

浏览 0提问于2019-05-16得票数 0

回答已采纳

1回答

下载图片会导致值重复并给出错误

、

Spider运行正常，并将数据保存在mongodb中，但突然开始在数据库、json和csv中保存重复的值，我删除了下载图像的代码，它工作得很好，但我需要图像，有人能帮我吗？提前谢谢。 items.py 导入scrapy class BucketItem(scrapy.Item): # define the fields for your item here like: store_name = scrapy.Field() category = scrapy.Field() sub_category = scrapy.Field() name = scrapy.Field() unit = s

浏览 0提问于2019-11-05得票数 0

2回答

Scrapy Spider错误处理正确的链接

、

这个爬行器中的start_url似乎引起了一个问题，但我不确定原因。这是项目的细目。 import scrapy from statements.items import StatementsItem class IncomeannualSpider(scrapy.Spider): name = 'incomeannual' start_urls = ['https://www.marketwatch.com/investing/stock/A/financials'] def parse(self, response):

浏览 46提问于2019-03-17得票数 0

回答已采纳

1回答

用Scrapy进行Python递归抓取

、、、、

我试图做一个刮刀，将拉链接，标题，价格和张贴在craigslist上的主体。我已经得到了价格，但是它返回页面上每个列表的价格，而不仅仅是特定行的价格。我也无法让它转到下一页，继续刮。这是我正在使用的教程- 我尝试过这个线程中的建议，但仍然不能让它工作- 我要刮的那一页是- 在链接价格变量中，如果删除// span@class="l2“，它将不返回价格，但如果我将其放在那里，则会包含页面上的每个价格。对于规则，我尝试使用类标记，但它似乎挂在第一页。我想我可能需要单独的蜘蛛类？这是我的代码： #------------------------------------------

浏览 1提问于2014-03-07得票数 2

回答已采纳

2回答

刮伤教程示例

、、、

看看是否有人能为我指明在python中使用Scrapy的正确方向。几天来，我一直在努力学习这个例子，但仍然无法达到预期的输出。使用Scrapy教程，甚至从github下载一个确切的项目，但是我得到的输出不是本教程所描述的。 from scrapy.spiders import Spider from scrapy.selector import Selector from dirbot.items import Website class DmozSpider(Spider): name = "dmoz" allowed_domains = ["dmoz.org

浏览 6提问于2016-08-31得票数 1

回答已采纳

2回答

使用scrapy创建Xpath

、、、

import scrapy from scrapy.http import Request from scrapy.crawler import CrawlerProcess class TestSpider(scrapy.Spider): name = 'test' start_urls = ['https://rejestradwokatow.pl/adwokat/list/strona/1/sta/2,3,9'] custom_settings = { 'CONCURRENT_REQUESTS_PER_DO

浏览 14提问于2022-06-30得票数 0

回答已采纳