在Scrapy中使用嵌套解析器时保存的重复项_在嵌套的df中查找重复项_在使用ng重复时覆盖json中的项。 - 腾讯云开发者社区

、、、

是否有web抓取工具或库可以自动检测重复的HTML块并抓取块中的文本内容，从而消除了人工输入规则- CSS选择器或xpath来查找内容的需要？这是基于这样的假设:现代内容网站是由PHP或Python等服务器端语言动态生成的。内容几乎总是由模板中的for循环呈现，因此总是可以找到重复的HTML块。举个例子： <div id="content"> <div class="blog entry"> <div class="title"> <h1>1st post</h2&

浏览 3提问于2012-07-25得票数 0

1回答

抓取增量抓取以过滤重复项目

、、

我想定期运行Scrapy来获取所有新内容。生成的项目存储在数据库中。当Scrapy再次爬行时，验证已经生成的项目是否没有存储为重复项的最佳方法是什么？给项目一个哈希值是验证这一点的好方法吗？我不想在我的数据库中有重复的项目。谢谢!

浏览 3提问于2018-01-31得票数 1

1回答

scrapy中解析JSON的Spider

、、

我使用scrapy已经有一段时间了，我想知道解析JSON的最佳方法是什么。在scrapy中有专门为XML和CSV设计的蜘蛛。XMLFeedSpider和CSVFeedSpider.JSON也有这样的蜘蛛吗？

浏览 2提问于2015-08-04得票数 1

回答已采纳

1回答

CSV出口不起作用

、、、、

这是我的蜘蛛课： import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.selector import HtmlXPathSelector from scrapy.http.request import Request from scrapy.crawler import CrawlerProcess from scrapy.linkextractors.sgml import SgmlLinkExtractor import csv class StackItem(scrapy.Item):

浏览 1提问于2015-08-13得票数 0

回答已采纳

1回答

刮伤法，不叫

、

当我用刮子解析网页时遇到了一个问题，我的custome方法不是由scrapy调用的。url是：，代码是： import scrapy from shufa.items import DuilianItem class DuilianSpiderSpider(scrapy.Spider): name = 'duilian_spider' start_urls = [ {"url": "http://www.duilian360.com/chunjie/117.html", "category_name

浏览 1提问于2019-11-09得票数 2

回答已采纳

1回答

抓取--从嵌套字典到JSON文件--不起作用

、、、、

编辑正如Georgiy所建议的，我试图生成dict而不是Item，结果是一样的。编辑端试图将Scrapy输出导出到JSON文件。项目应采用以下格式： {'name':'Peter', 'attrs':{'attr1':<VAL>, 'attr2':<VAL>}} 问题是Scrapy只呈现name。原因可能是attrs是一本字典。 class CookieBotItem(scrapy.Item): name = scrapy.Field() attrs = scrapy.

浏览 7提问于2021-06-04得票数 1

回答已采纳

2回答

如何在scrapy中实现嵌套项？

、、

我正在抓取一些具有复杂层次信息的数据，需要将结果导出到json。我将这些项定义为 class FamilyItem(): name = Field() sons = Field() class SonsItem(): name = Field() grandsons = Field() class GrandsonsItem(): name = Field() age = Field() weight = Field() sex = Field() 当爬行器运行完成时，我将得到一个打印的项目输出，如下所示 {'nam

浏览 0提问于2012-06-25得票数 26

3回答

过滤重复项目

、

我希望防止Scrapy保存到DB重复项。为此，我使用了Scrapy教程中的“重复筛选器”部分中显示的相同策略，可以找到。我写的是： id = str(item['product'] + item['price']) print id if id in self.ids_seen: raise DropItem("Duplicate item found!") else: self.ids_seen.add(id) self.collection.insert(dict(item))

浏览 5提问于2015-08-14得票数 1

回答已采纳

1回答

刮擦-如何防止输出行与空白元素？

、、

使用一个非常基本的Scrapy脚本，我希望确保我的输出行中没有一个包含空白项。也就是说，如果我有标准 items = [] for list in lists: item = TypeItem() item['thing1'] = list.select('h1/text()').extract() item['thing2'] = list.select('h2/text()').extract() item['thing3'] =

浏览 4提问于2013-10-20得票数 0

回答已采纳

1回答

对于Scrapy，如何从robots.txt文件中检查单个页面上的链接？

、

使用Scrapy，我将刮除单个页面(通过脚本，而不是从控制台)来检查这个页面上的所有链接(如果robots.txt文件允许的话)。在scrapy.robotstxt.RobotParser抽象基类中，我找到了方法，但我不知道如何使用它。 import scrapy class TestSpider(scrapy.Spider): name = "TestSpider" def __init__(self): super(TestSpider, self).__init__() def start_re

浏览 0提问于2020-10-23得票数 3

1回答

为什么在scrapy print中多次使用“return”？

、、、

当在命令行中运行爬虫时，它会重复返回如此多的时间。当我在'items.append(item)‘前添加一个代码'items'i is’= i‘时，结果是最后一个数字，并且重复相同的时间。所以这可能是使用return的问题。什么才是正确的？ # -*- coding: utf-8 -*- from a.items import Item from scrapy.selector import Selector import scrapy import json class ASpider(scrapy.Spider): name = "A" a

浏览 0提问于2016-11-03得票数 0

1回答

如何在Scrapy项目中使用PyMongo MongoDB插入新记录时删除重复项

、、、、

在我的Scrapy项目中，我使用PyMongo将抓取的数据存储在MongoDB中。在以逐页的方式抓取网页时有重复的记录，我只想删除那些在插入到数据库中时具有相同名称的重复记录。请给我推荐最好的解决方案。下面是我用"pipelines.py"编写的代码。请指导我如何去除"process_item"方法中的重复项。我发现在互联网上很少有从数据库中删除重复项的查询，但我想要一个Python解决方案。 from pymongo import MongoClient from scrapy.conf import settings class MongoDBPipelin

浏览 13提问于2018-08-21得票数 1

3回答

Scrapy:对同一个URL运行多个嵌套搜索

、

我对Python非常陌生，对Scrapy非常陌生。我正在尝试构建一个蜘蛛，它将转到给定的URL，并在该站点中运行多个嵌套搜索。例如，如果我正在搜索一家在线商店，我首先会请求，然后在站点内的3层子菜单中搜索各种产品，这些产品在运行时通过CSV输入文件指定。在每个级别的脑膜下，我正在寻找目标类别，并发出一个请求，以获得该子类别，直到我到第3级时，我分析结果寻找一个特定的项目。存储基本URL ->家庭->厨房->电器:解析结果寻找“搅拌器”。存储基本URL ->家庭->厨房->电器:解析结果寻找“水壶”。存储基本URL ->主页->电

浏览 2提问于2014-02-26得票数 1

2回答

还有什么更有效:读取和解析大型JSON文件或大型CSV文件？

、

我计划使用Scrapy抓取本地网站获取大量数据，并将其存储在文件中。然后，我计划解析该文件，并将一些数据放在SQL数据库中。我的计算机会使用较少的CPU和RAM来读取和解析一个大的CSV文件或JSON文件吗？或者，也许将数据存储在一堆较小的CSV或JSON文件中更有意义？不管是哪种方式，哪种方法对我的机器的负担更小？

浏览 0提问于2018-03-25得票数 1

1回答

如何序列化XML导出程序中的项列表Scrapy字段

、、、、

我构建了复杂的项目，其中字段可能是其他项目类型的列表。当我用默认的XmlItemExporter导出它时，子列表项以<value>标记作为前缀。我正在寻找一个示例，说明如何将子项标识符分配给这些值标记。文档的项目出口商页面解释了这句话：除非在serialize_field()方法中重写，否则将通过序列化<value>元素中的每个值来导出多值字段。这是为了方便，因为多值字段是非常常见的. docs页面还提供了在字段中声明序列化程序和重写Serialize_Field()方法的简单示例，但这两个示例都适用于单值字段，但没有建议如何为多值字段自定义它们。我搜索了

浏览 0提问于2019-07-19得票数 1

回答已采纳

1回答

使用回调和以下链接抓取的不考虑的项目数

、

我正在抓取黄页结果，当我试图同时跟踪黄页条目和分页链接时，得到的抓取项目的数量不一致。我相信我有两个问题，但我似乎能够解决第一个问题。希望这个变通方法不会引起我的第二个问题。我可以毫不费力地从获得121个搜索结果。我基于官方教程中的来做这件事： class LinksSpider(scrapy.Spider): name = "links" start_urls = [ r"https://www.paginasamarillas.es/search/administrador-de-fincas/all-ma/zaragoza/all

浏览 0提问于2020-02-18得票数 0

2回答

Python Scrapy字典项目

、、、、

有没有可能制作一个Python Scrapy爬虫来抓取整个网站，创建一个字典，在一个列中包含网站中使用的每个单词，并在它旁边的列中显示每个单词的所有实例的URL？如果是，是如何实现的？我假设爬行器应该不断地抓取每个URL，将HTML转换为纯文本，然后将每个字符串划分为列表项，创建一个列表，然后只向该列表添加以前没有添加过的项。但是，同时，它也应该知道哪些条目已经添加到列表中，以及它们的位置，当它抓取一个与列表中已经存在的单词相同的单词时，记住它的URL并将其添加到包含URL的列中。我已经创建了一个爬行器(如下所示)，它列出了所有URL和每个URL处找到的所有纯文本，但是我的编程技能还不够

浏览 12提问于2020-04-28得票数 0

1回答

刮取-如何在S3和本地文件系统中保存json文件--同时

、、、

我已经将设置设置为将json保存在S3桶中。但如果可能的话，我也想保存在我的本地机器中。我尝试了下面的配置，但是Scrapy只在本地机器中保存。 FEED_URI = 's3://bucket/scraped/file.jl' FEED_URI = 'file:///tmp/file.jl' 我不太理解Scrapy docs 所解释的设置

浏览 9提问于2015-10-20得票数 2

回答已采纳

1回答

为什么在添加加号()解析器时忽略toChoiceParser()的顺序选择？

、

我在Dart包中遇到了一些问题:如果添加了一个plus()解析器，那么“优先级规则”(“解析p1，如果不能解析p2顺序的选择”)似乎会被忽略。 import 'package:petitparser/petitparser.dart'; // This parser should check from left to right if a nestedTerm, e.g. '(0)' or '(()', exists. // If this is not the case, then it looks if a singleCharacter

浏览 5提问于2022-08-06得票数 0

回答已采纳

1回答

使用JOBDIR获取重复项

、、

Scrapy的JOBDIR设置提供了可恢复的爬行，如下所述：我试图像这样执行爬行命令： scrapy crawl myspider -o out.csv -t csv -s JOBDIR=./jobs/run-1 当它还在运行的时候，我优雅地关闭了它，按下CTRL。然后再次启动相同的命令以恢复该命令。我可以确认它正在从终端输出中恢复爬行： [myspider] INFO: Resuming crawl (74 requests scheduled) 但是，当我查看我的输出CSV文件时，我看到有一些重复的项目如下所示： name,email Alice,alice@example.com B

浏览 2提问于2014-03-06得票数 5

回答已采纳

1回答

在插入Scrapy之前检查MongoDB中是否存在记录

、

顾名思义，我正在运行一个Scrapy spider，并将结果存储在MongoDB中。一切都很顺利，除了当我重新运行爬行器时，它会再次添加所有内容，并且我不想要重复的东西。我的pipelines.py文件如下所示： import logging import pymongo from pymongo import MongoClient from scrapy.conf import settings from scrapy import log class MongoPipeline(object): collection_name = 'openings'

浏览 0提问于2019-07-22得票数 0

1回答

Scrapy:重复的项目字段，因为有多个for循环

、

我的问题与几乎完全相同但是我有两个For循环，所以创建一个新的条目将导致我丢失第一个刮过的页面中的数据。基本结构是：知道第一个网址。循环通过已知的urls - For loop for data and next url - For loop for more data and next url - Even more data and next url. - Even more data and next url. - Yield 每页有10-40条数据，但我有一个简单的代码，它可以查找1-2个数据。

浏览 0提问于2019-08-20得票数 0

回答已采纳

2回答

scrapy -处理多种类型的项目-多个相关的Django模型，并将它们保存到管道中的数据库中

、、、、

我有以下的Django模型。当使用scrapy管道在爬行器中扫描到Django中的数据库时，我不确定保存这些相互关联的对象的最佳方法是什么。scrapy管道似乎只处理一种“种类”的项目 models.py class Parent(models.Model): field1 = CharField() class ParentX(models.Model): field2 = CharField() parent = models.OneToOneField(Parent, related_name = 'extra_properties') c

浏览 0提问于2015-11-11得票数 5

3回答

避免重复的URL爬行

我编写了一个简单的爬虫。在settings.py文件中，通过参考scrapy文档，我使用了 DUPEFILTER_CLASS = 'scrapy.dupefilter.RFPDupeFilter' 如果我停止crawler并再次重新启动crawler，它将再次抓取重复的urls。我做错了什么吗？

浏览 0提问于2013-07-16得票数 15

回答已采纳

1回答

如何从RFPDupeFilter或CustomFiler生成项目

、、

我用Scrapy从不同的网站抓取网页。对于每个scrapy.Request()，我都设置了一些元数据，用于生成一个项。我的代码也可能为相同的url生成多个scrapy.Request()，但是具有不同的元。 yield scrapy.Request(url='http://www.example.com', meta={'some_field': 'some_value'} ..) 现在我可以设置dont_filter=True，并且scrapy不会阻止重复的请求。 yield scrapy.Request(url='http://www

浏览 7提问于2022-09-01得票数 0

回答已采纳

6回答

安装了Scrapy，但在命令行中无法识别

、、、

我在windows 7的python2.7环境中安装了Scrapy，但是当我尝试使用scrapy startproject newProject启动一个新的Scrapy项目时，命令提示符显示了这个提示 'scrapy' is not recognized as an internal or external command, operable program or batch file. 注意：我也有python3.5，但没有刮伤这个问题与不重复。

浏览 16提问于2016-09-14得票数 7

回答已采纳

1回答

在Scrapinghub上运行蜘蛛时如何保存下载的文件？

、

stockInfo.py包含： import scrapy import re import pkgutil class QuotesSpider(scrapy.Spider): name = "stockInfo" data = pkgutil.get_data("tutorial", "resources/urls.txt") data = data.decode() start_urls = data.split("\r\n") def parse(self, response):

浏览 0提问于2019-03-16得票数 7

回答已采纳

1回答

Scrapy能和Chrome浏览器一起使用吗？

、、、

我需要刮一个网页，这是一个javascript渲染的AngularJS应用程序。该站点的开发人员在私有浏览模式下检测Safari/Firefox，不允许使用它，因此会刮掉它。当您不在私有模式时，该页面可用于Safari/Firefox。有趣的是，无论是否在私人模式下使用Chrome，都不会发出这样的警告。我在使用Scrapy+Selenium，但我真的希望在这个项目中使用ScrapyJS/Splash。然而，看起来刮起/飞溅的组合受到了该网站私人浏览墙的影响。能告诉Scrapy使用Chrome吗？我知道Selenium有相当多的驱动程序，关于如何使用每个驱动程序都有很好的文档记录，但是我无

浏览 3提问于2016-03-22得票数 3

回答已采纳

2回答

如果在python中扩展一个类，如何导入另一个类并使用它？

、、、

所以我在玩Scrapy，它是一组类，允许你进行web抓取，我想把一些数据放到数据库中，但我让truble在扩展scrapy库的同时导入MySQL方法。下面是我的代码： from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from scrapy.http import Request import MySQLdb class test(BaseSpider): #if i don't extend the class the MySQL works, but the Sc

浏览 2提问于2011-12-10得票数 0

回答已采纳

1回答

如何将Scrapy与Mysql结合使用？

、、

我正在尝试创建一个web爬虫，在给定一些启动urls的情况下，提取所有元素并跟踪它们，以便提取内部和内部的文本。我正在运行一个Django应用程序，该应用程序给定一个查询字符串，该应用程序返回以前存储在Mysql db中的所有项。在我看来，最好的选择是使用Scrapy，给他一些开始的urls，他可以通过简单地提取页面中的所有urls来找到其他的urls，然后，他会跟随它们提取这些页面的内容。是否可以将先前提取的数据插入Mysql (因为我没有在scrapy.org上找到有关此数据的任何信息)？是否有内置的功能来决定扫描的“深度”？

浏览 6提问于2012-04-10得票数 0

回答已采纳

2回答

重复抓取的数据

、、

我是python的新手，但由于工作原因需要擦除。我在scrapy上花了一两个星期，我最终对它感到满意，除了下面的代码，而不是输出一行数据，而是重复它五次。下面是一个示例(仅使用1个url)：导入scrapy class AdamSmithInstituteSpider(scrapy.Spider): name = "adamsmithinstitute" start_urls = [ "https://www.adamsmith.org/research?month=March-2018", ] def parse(self, response):

浏览 2提问于2018-07-10得票数 1

1回答

Python选项子解析器

、

我一直试图想出一种方法，让a解析与嵌套的可选子解析器一起工作。我希望看到的一个基本例子是有一个“第一个”子解析器search，它对我拥有的一些数据执行搜索。这有一些可选的东西，我们可以搜索(例如，所有，组，类型，标签等)。一个例子可能看起来像 $ python test.py search --type <type> --group <group> 然后，我希望有可选的子解析器与这些搜索结果交互，例如更新或删除条目。一个例子看起来应该是： $ python test.py search --type <type> --group <group>

浏览 2提问于2013-12-04得票数 1

1回答

如何从我的main.py脚本访问我的蜘蛛数据？

、、

假设我已经用这个文件夹结构启动了一个Scrapy项目： .root ├── main.py ├── scrapy.cfg ├── app │ ├── items.py │ ├── middlewares.py │ ├── pipelines.py │ ├── settings.py │ └── spiders │ ├── my_spider.py 因此，在main.py文件中，我有： #!/usr/bin/env python import scrapy from app.spiders.my_spider import MySpider from scrapy.crawle

浏览 0提问于2019-05-12得票数 0

1回答

scrapy回调函数是否指向生成请求的相同函数？

、

我正在使用Scrapy爬行一个网站。我有类似于此的代码： class mySpider(scrapy.Spider): def start_requests(self): yield SplashRequest(url=example_url, callback=self.parse, cookies={'store_language':'en'},

浏览 0提问于2019-02-16得票数 0

回答已采纳

2回答

使用刮擦刮除物品

、、、、

我编写了下面的蜘蛛，用于为病人评论而刮取webmd站点 from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector class MySpider(BaseSpider): name = "webmd" allowed_domains = ["webmd.com"] start_urls = ["http://www.webmd.com/drugs/drugreview-92884-Boniva"] def

浏览 3提问于2017-04-15得票数 1

回答已采纳

1回答

抓取AWS博客网站时Scrapy不返回任何内容

、

这是我在AWS博客网站首页抓取URL列表的尝试。但它不返回任何内容。我想可能是我的xpath出了问题，但不确定如何修复。 import scrapy class AwsblogSpider(scrapy.Spider): name = 'awsblog' allowed_domains = ['aws.amazon.com/blogs'] start_urls = ['http://aws.amazon.com/blogs/'] def parse(self, response): blogs

浏览 17提问于2019-11-06得票数 0

回答已采纳

2回答

如何生成从多个页面/多个解析器填充的嵌套项(只在scrapy中生成一次)

、

新的刮在这里，并试图找出如何只产生一次的项目，一旦它完成填充。试图抓取一个发布泳客时代的站点，其构建方式是页面的结构如下：游泳者搜索页面->泳客页面带有游泳样式列表->样式页面包含该样式的所有时间我正在使用一组嵌套的项。游泳运动员-> Style ->时报要为每个游泳运动员输出一个json，包含所有风格的s/他游泳，以及在每种泳姿中完成的所有时间。我的问题是，这段代码一遍又一遍地产生相同的项，而不是一次(正如我所希望和期望的那样)，因此产生了大量的浪费。 import scrapy from tempusopen.settings impor

浏览 2提问于2020-12-20得票数 1

1回答

Scrapy在处理XML时不执行请求

、、、、

我正在使用scrapy解析一个大的XML文件，并从XML中生成每个节点(我感兴趣的)上的一个请求和一个项。现在发生的事情是，XML文件首先被完全处理，我生成的项目成功地通过了我的项目管道，在此之后，scrapy开始处理我生成的所有请求以及这些项目。我想要的是，scrapy在我提交请求时立即执行它们，而不是在解析完整个XML之后。这个答案建议使用 # change to breadth first DEPTH_PRIORITY = 1 SCHEDULER_DISK_QUEUE = 'scrapy.squeue.PickleFifoDiskQueue' SCHEDULER_

浏览 1提问于2015-04-28得票数 2

2回答

从相对路径构造绝对路径的非重复列表

、、、、

img src问题：如何使用Scrapy从标记下的相对路径创建一个非重复的绝对路径列表？ img src背景：我尝试使用Scrapy爬行站点，在标记下提取任何链接，将相对路径转换为绝对路径，然后生成CSV或列表数据类型中的绝对路径。我计划将上述功能与实际使用Scrapy下载文件并同时爬行链接结合起来，但当我到达它时，我将跨过这座桥。以下是有关假设目标站点的其他详细信息，供参考：相对路径类似于img src="/images/file1.jpg"，其中图像是一个目录(www.example.com/products/映像)，不能直接爬行文件路径。这些图像的相对路径不遵

浏览 16提问于2018-01-01得票数 1

回答已采纳

1回答

刮除:列出网站相同页面中包含的所有链接和信息

、、

我有以下的迷你基本蜘蛛，我使用从一个网站的所有链接。 from scrapy.item import Field, Item from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors import LinkExtractor class SampleItem(Item): link = Field() class SampleSpider(CrawlSpider): name = "sample_spider" allowed_d

浏览 1提问于2014-07-24得票数 0

回答已采纳

2回答

从Scrapy管道中删除重复项目？

、、、

我的爬虫从一组urls收集数据，但是当我再次运行它来添加新内容时，旧内容被保存到我的Mongodb数据库中。有没有办法检查这个项目是否已经在我的Mongodb数据库中找到了(重复的项目有相同的title字段)，如果是的话，把它从管道中删除。另外，在保存后从数据库中删除它们是否更好，如果是这样，我如何在我的项目中实现它。这是我的管道： import logging import pymongo from scrapy.exceptions import DropItem class MongoPipeline(object): collection_name = 'article

浏览 1提问于2018-10-26得票数 1

4回答

允许重复下载与刮除图像管道？

、、

请参阅下面的代码示例版本，它使用Scrapy Image管道从站点下载/刮取图像： import scrapy from scrapy_splash import SplashRequest from imageExtract.items import ImageextractItem class ExtractSpider(scrapy.Spider): name = 'extract' start_urls = ['url'] def parse(self, response): image = Imageextr

浏览 0提问于2017-07-18得票数 2

回答已采纳

1回答

如何从清单中循环URL，并仅输出要下载到XML/TXT文件中的响应体

、、、、

我有这个问题，我已经尝试过管道方法，但我不确定我是否做得对，基于教程，因为大多数选择器从response.body中选择一些部分。但是，我可以在一个独立的脚本上解析它，该脚本为我提供了我所需要的所有数据，因为数据被其他变量混淆了。因此，我只需要将response.body转储到.XML或.TXT中即可。当它是一个url时，我可以这样做，但是当我介绍各种URL时，它会覆盖最终的解析。我相信如果不使用管道/Items.py，可能会有一个更简单的解决方法，因为我只需要response.body。原谅契约，因为它很难复制。 linkarr = df['URLOUT'].tolis

浏览 17提问于2022-06-28得票数 0

回答已采纳

1回答

刮擦防止跨计划访问相同的URL

、

我计划将一个Scrapy蜘蛛部署到ScrapingHub，并使用调度特性每天运行该蜘蛛。我知道，默认情况下，Scrapy不访问相同的URL。但是，我想知道这种重复的URL避免是否在ScrapingHub的计划开始时是持久的？以及我是否可以设置它，以便Scrapy在预定的启动过程中不会访问相同的URL。

浏览 2提问于2018-05-24得票数 1

回答已采纳

1回答

刮擦不要将值保存到项

、、

从今天起，我的蜘蛛不会将任何信息保存到我的项目"DuifpicturesItem“。我得到了几乎相同的蜘蛛，为不同的客户，但这是不会保存任何东西，懒惰为什么。我的items.py只有两个字段:图像和链接在我的控制台中，我可以看到，我收集了正确的数据，但它确实保存了数据。我的代码 # -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from ..items import Dui

浏览 4提问于2020-09-14得票数 0

回答已采纳

1回答

Scrapy中的持久重复过滤

、、、

我刚刚开始使用scrapy，我想要一种方法来持久化以前爬行过的URL，这样我就可以运行后续的抓取，并且只能从未知的URL获取新的数据。我看到了几种不同的方法来过滤重复的数据和几种持久化数据的方法。我想知道在0.24版本中进行这些活动的推荐方法是什么。以下是我所看到的选择：用于重复过滤的在文档中仍然引用的DUPEFILTER_CLASS文件中有settings.py。我还看到了一些文档，指的是在ItemPipeline中放置一个重复的过滤器，如下所示：人们是在使用DUPEFILTER_CLASS还是在项目管道中放置一个双过滤器？用于持久重复跟踪的我尝试过使用scrapy-redis来持

浏览 2提问于2014-07-25得票数 3

2回答

我如何知道哪个浏览器被用来在Scrapy框架中爬行？

、、、、

我的背景是：正如你所知道的，Chrome，Firefox，Safari上的网站HTML结构是非常不同的。因此，当我使用CSS-Selector从HTML结构中获取元素标记中的数据时，有时这个标记已经在Chrome浏览器中有了，而另一个则没有。因此，我只想专注于一个浏览器，以减少我的工作量。当我使用Scrapy框架从urls抓取数据时，我不知道Scrapy将使用哪个浏览器来抓取数据。因此，我也不知道返回哪种HTML响应体。我检查了响应，我发现，有时结构是相同的，从Chrome，但有时它不是。看起来Scrapy框架使用了许多不同的web浏览器来抓取数据。我想要的：我只想

浏览 0提问于2018-12-05得票数 0

回答已采纳

2回答

刮取-如何存储下载图像的本地路径？

、、

我的刮板运行良好，它下载图像并在数据库中注册项目，但我也希望将它们的本地路径保存到我的MySQL数据库中，我不知道如何继续。我在医生里读过这个：下载图像时，将使用结果填充另一个字段(图像)。使用下面的代码，路径不会被保存，我得到了以下错误： return self._values[key] exceptions.KeyError: 'images' 以下是我的代码摘录： items.py: image_urls = Field() images = Field() my_spider.py: from scrapy.spider import BaseSp

浏览 4提问于2013-05-03得票数 1

回答已采纳

1回答

在Scrapy中作为输出的空文件json

、、、、

我声明我已经阅读了一些关于相同问题的答案，但我无法解决我的问题。我是Python新手，我正在尝试从Aptoide中提取关于应用程序和商店的数据，我希望输出结果为.json文件(或csv)，但我得到的文件是空的，我不知道原因。这是我的代码： import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from scrapy.contrib.spiders import CrawlSpider, Rule

浏览 0提问于2016-08-10得票数 0

1回答

使用Scrapy进行爬网时，某些HTML元素丢失

、、、

我试图从一个网站的HTML元素中抓取一些文本。大多数情况下都很好，但由于某些原因，Scrapy无法获得浏览器检查中所示的所有HTML元素。内容是静态的，因为我尝试禁用JavaScript，但仍然在浏览器中显示那些缺少的元素。该网站的结构类似于： <ul class="paragraph-title">...</ul> <ul class="paragraph-title"> <p>TEXT 1</p> <p class="list-item">TEXT 2&

浏览 19提问于2021-04-24得票数 1