Python Scrapy Pipeline

是Scrapy框架中的一个组件，用于处理爬取到的数据并进行后续的处理和存储。它是Scrapy框架中的一个重要概念，用于实现数据的持久化和处理。

Python Scrapy Pipeline的主要作用是对爬取到的数据进行处理和存储。在Scrapy框架中，爬虫通过Spider模块爬取网页数据，并将数据传递给Pipeline进行后续处理。Pipeline可以对数据进行清洗、去重、格式转换等操作，并将处理后的数据存储到数据库、文件或其他存储介质中。

Python Scrapy Pipeline的分类可以根据具体的需求进行划分，常见的分类有数据清洗Pipeline、数据存储Pipeline、数据导出Pipeline等。

Python Scrapy Pipeline的优势在于其灵活性和可扩展性。通过编写自定义的Pipeline，可以根据具体的需求对数据进行个性化的处理和存储。同时，Scrapy框架提供了丰富的中间件和插件，可以方便地扩展和定制Pipeline的功能。

Python Scrapy Pipeline的应用场景包括但不限于以下几个方面：

数据采集和处理：通过Scrapy框架和Pipeline可以方便地进行网页数据的爬取和处理，适用于各种数据采集和处理的场景，如新闻抓取、商品信息采集等。
数据清洗和去重：通过Pipeline可以对爬取到的数据进行清洗和去重，去除重复数据和无效数据，提高数据质量。
数据存储和导出：通过Pipeline可以将处理后的数据存储到数据库、文件或其他存储介质中，方便后续的数据分析和使用。
数据监控和分析：通过Pipeline可以对爬取到的数据进行监控和分析，实时了解数据的变化和趋势。

腾讯云提供了一系列与Python Scrapy Pipeline相关的产品和服务，包括但不限于：

云数据库MySQL：用于存储和管理爬取到的数据，提供高可用、高性能的数据库服务。详情请参考：https://cloud.tencent.com/product/cdb
对象存储COS：用于存储和管理爬取到的文件数据，提供安全可靠的文件存储服务。详情请参考：https://cloud.tencent.com/product/cos
云函数SCF：用于处理和分析爬取到的数据，提供无服务器的计算服务。详情请参考：https://cloud.tencent.com/product/scf
数据库迁移DMC：用于将爬取到的数据迁移至云数据库MySQL，提供简单快速的数据迁移服务。详情请参考：https://cloud.tencent.com/product/dmc

通过使用腾讯云的相关产品和服务，可以实现对Python Scrapy Pipeline的完善支持和优化，提高数据处理和存储的效率和可靠性。

页面内容是否对你有帮助？

有帮助

没帮助

如何指定包源？

、、、

我的包裹依赖于PyMySQL。问题：然后，我将包上传到test.pypi.org并尝试安装pip install -U -i https://testpypi.python.org/pypi scrapy-mysql-pipeline，我的代码中出现了一个异常，因为test.pypi.org上的PyMySQL版本是0.6.3-rc1，而不是当前的0.7.11 my setup.py： import setuptools import os if "PY_DEV" in os.environ: import pypandoc with open('R

浏览 2提问于2017-10-10得票数 0

回答已采纳

1回答

Scrapy - "scrapy爬行“捕获内部异常，并将它们隐藏在Jenkins的"catch”子句中。

、、

我每天通过詹金斯运行scrapy，我希望通过电子邮件将例外情况发送给我。这是一个例子蜘蛛： class ExceptionTestSpider(Spider): name = 'exception_test' start_urls = ['http://google.com'] def parse(self, response): raise Exception 这是.Jenkinsfile #!/usr/bin/env groovy try { node ('jenkins-small-py3.6&

浏览 0提问于2019-08-22得票数 2

回答已采纳

1回答

如何获取图像文件，使用Scrapy

、、、

我刚开始使用Scrapy，我正在尝试抓取图像文件。这是我的代码。 items.py from scrapy.item import Item, Field class TutorialItem(Item): image_urls = Field( images = Field() pass settings.py BOT_NAME = 'tutorial' SPIDER_MODULES = ['tutorial.spiders'] NEWSPIDER_MODULE = 'tutorial.spiders' ITEM_PI

浏览 2提问于2013-06-20得票数 4

2回答

无法使用相对URL Python下载图像

、、、

我用Scrapy从下载图片但是，我只能得到像这个这样的图像的相对url 所有名为0.jpg的图像，但如果我尝试使用该绝对url，则无法访问该图像。我的代码：items.py import scrapy class VesselItem(scrapy.Item): name = scrapy.Field() nationality = scrapy.Field() image_urls = scrapy.Field() images = scrapy.Field() pipelines.py import scrapy from scrapy.contrib

浏览 3提问于2015-05-06得票数 2

回答已采纳

1回答

抓取错误: exceptions.IOError:无法识别图像文件

、

在不知道图像文件名或跟踪它的响应url的情况下，我多次收到以下错误： 2012-08-20 08:14:34+0000 [spider] Unhandled Error Traceback (most recent call last): File "/usr/lib/python2.7/dist-packages/twisted/internet/defer.py", line 545, in _runCallbacks current.result = callback(current.result, *args, **kw) File "/usr/

浏览 3提问于2012-08-21得票数 3

1回答

抓取每个项目的管道包装在爬行器文件中

、、、

我使用scrapy的项目与项目管道专门设计的项目字段需要插入到数据库中。为此，我采用了一种python装饰器方法。由于某些原因，我无法理解这个问题，我得到了特定的nameError，我不确定它们来自哪里。注意:人们已经证实这种方法工作得很好。这是我的spider.py文件中的代码： from scrapy.spider import Spider from scrapy.http import Request,FormRequest from exampleScraper.items import exampleItem import urllib, time, MySQLdb, sys

浏览 3提问于2015-04-08得票数 0

1回答

如何在方法中检索scrpy job id？

、

我正在尝试通过spider_close方法获取一个2.1.x作业的作业id： class mysql_pipeline(object): import os def test: print(os.environ['SCRAPY_JOB']) 不幸的是，这导致了一个键错误： ERROR: Scraper close failure Traceback (most recent call last): File "/Library/Frameworks/Python.framework/Versions/3.8/lib/python3.

浏览 4提问于2020-05-16得票数 0

1回答

自定义python包导入错误

、

在重新组织一个scrapy项目时，我想从我的pipelines.py文件创建一个包。我想改变这个..。 ├── my_scraper │ ├── __init__.py │ ├── items.py │ ├── pipelines.py │ ├── settings.py │ └── spiders └── scrapy.cfg 对这个..。 ├── my_scraper │ ├── __init__.py │ ├── items.py │ ├── pipelines │ │ ├── __init__.py │

浏览 0提问于2017-03-13得票数 0

1回答

从管道调用蜘蛛的方法- Python

、、、

这是蜘蛛 class TicketsSpider(scrapy.Spider): def __set_last_start_date(self, dateString): #code here 这是管道 class TicketsPipeline(object): def spider_closed(self, spider): spider.__set_last_start_date(spider.lastAdScrapedDate) @classmethod def from_crawler(cls, crawler):

浏览 4提问于2016-12-13得票数 1

回答已采纳

3回答

刮擦管道错误不能导入名称

、

我对python编程和使用scrapy很陌生。我已经设置了我的爬虫，到目前为止，它一直在工作，直到我到达我想知道如何下载图像。我得到的错误是不能导入名称NsiscrapePipeline。我不知道我做错了什么，我也不理解一些文件，因为我是新的。请帮帮忙项目档案 from scrapy.item import Item, Field class NsiscrapeItem(Item): # define the fields for your item here like: # name = Field() location = Field() stock_n

浏览 4提问于2013-07-26得票数 0

回答已采纳

1回答

Python下载文件夹中的图像

、

我有一个Python和Scrapy的问题，我使脚本仍然有效，并将所有的数据放在MongoDB上，但当他抓取时，他仍然只在数据库中拍摄照片，但我想以此结构下载/项目/照片/链接页面/名称.jpg 这里有我的代码！这是Itmes.py import scrapy from PIL import Image class RedditItem(scrapy.Item): ''' Defining the storage containers for the data we plan to scrape '''

浏览 3提问于2018-02-28得票数 0

1回答

将Scrapy的输出格式化为XML

、、、、

因此，当我将Scrapy导出到XML时，我试图导出从网站上刮来的数据，以便将其导出为特定的格式。下面是我希望我的XML看起来的样子： <?xml version="1.0" encoding="UTF-8"?> <data> <row> <field1><![CDATA[Data Here]]></field1> <field2><![CDATA[Data Here]]></field2> </row> </da

浏览 1提问于2012-12-19得票数 5

回答已采纳

2回答

Scrapy python csv输出在每一行之间有空行。

、、、

在结果csv输出文件中的每一行刮擦输出之间，我都会得到不想要的空行。我已经从python2转到python3，并且我使用了Windows10，因此我正在为python3调整我的刮伤项目。我目前(目前也是唯一的)问题是，当我将刮擦的输出写入CSV文件时，每行之间都会有一个空行。这里的几个帖子强调了这一点(这与Windows有关)，但我无法找到解决方案。碰巧，我还向piplines.py文件中添加了一些代码，以确保csv输出符合给定的列顺序，而不是一些随机顺序。因此，我可以使用普通的scrapy crawl charleschurch来运行这段代码，而不是scrapy crawl charl

浏览 2提问于2017-04-18得票数 6

回答已采纳

1回答

抓取解析网页，提取结果页，并下载图像。

、、、、

我已经用python编写了一个web爬虫，使用了Beautiful，并请求为一个项目抓取图像，但是速度很慢。我听说Scrapy要快得多，所以我安装了它并阅读了大量教程，但是我不知道如何在爬行器脚本的parse函数中实现爬虫。如果我提供到搜索结果的第一页的链接，它应该： 'id' 通过分析特定类的<a>标记来查找搜索结果中的页数，并根据特定类的<a>标记分析Get链接，并根据特定的从这些链接中下载图像。我已经更新了项目和设置脚本，如下所示。你能给我的任何帮助都是非常感谢的。 items.py import scrapy class SampleIte

浏览 3提问于2020-05-17得票数 1

回答已采纳

2回答

在Scrapy的csvexports中使用追加模式导出项目时过滤重复条目

、、、

我正在尝试弄清楚如何预先检查项目是否已经存在于要导出的csv文件的行中。如果该项不存在，则需要追加该项。否则，该项目应被丢弃。到目前为止，我已经在项目管道中完成了以下操作，但它不起作用，因为它无论如何都会附加到csv文件中。我的Pipelines.py： from scrapy import signals from scrapy.contrib.exporter import CsvItemExporter import csv class BlogscrapePipeline(object): def __init__(self): self.files =

浏览 1提问于2018-03-23得票数 1

1回答

下载抓取图片时出错

、、

我有一个从一些电子商务网站获取图像和内容的scrapy spider。现在我想下载图片，我写了一些代码，但我得到了这个错误： .. File "/usr/lib/python2.7/pprint.py", line 238, in format return _safe_repr(object, context, maxlevels, level) File "/usr/lib/python2.7/pprint.py", line 282, in _safe_repr vr

浏览 2提问于2014-05-14得票数 1

3回答

从脚本中运行刮擦蜘蛛会导致错误ImportError:没有名为scrapy的模块

、、、

我安装了scrapy，并创建了一个蜘蛛，当从命令行运行时，它可以使用命令scrapy。我的问题是，当某些特定的事情发生时，我需要从另一个脚本运行蜘蛛。我有一个单独的python脚本，这只是一个测试，但它试图按行运行蜘蛛： execfile("../scrapy/data_spider/data_spider/spiders/getBUCPower.py") 当我运行该脚本时，我立即得到错误：文件"getBUCPower.py"，第2行，在进口刮伤 ImportError:没有名为scrapy的模块当我运行抓取爬行命令时，我已经正确安装了scrapy

浏览 7提问于2019-08-01得票数 0

1回答

Python3.8和Scrapy2.4.1“没有名为我的project>的<名称的模块

、、、、

我遇到了一个我无法解决的问题。我使用scrapy (2.4.1)、python3.8.6和Pycharm。我的项目结构是这样的： project_folder scrapy_project - spiders - **init**.py - my\_spider.py - **init**.py - items.py - middlewares.py - pipeline.py - run.py - settings.py 当我用run从Pycharm运行我的蜘蛛时，它起作用了。当我运行我的蜘蛛使用：刮痕爬行<spider

浏览 6提问于2020-12-10得票数 0

1回答

scrapy exceptions.TypeError：'int‘对象没有属性'getitem’

、、

当我在使用刮集的时候，把Mysql和有一些问题，希望大家给出解决方案，谢谢。pipelines.py类型的错误： 2013-12-06 18:07:02+0800 [-] ERROR: Unhandled error in Deferred: 2013-12-06 18:07:02+0800 [-] Unhandled Error Traceback (most recent call last): File "/usr/lib/python2.7/threading.py", line 524, in __bootstrap self.__

浏览 2提问于2013-12-06得票数 1

回答已采纳

1回答

如何在解析中使用项目加载器时使用项目管道？

、

当parse通过Item Loader的load_item方法返回项时，item管道行函数无法工作 def parse(self,response): DIV_SELECTOR = '.Content' SET_SELECTOR = '.Meta' for div in response.css(DIV_SELECTOR): rowSelector = div.css(SET_SELECTOR) ItemAAA= ItemLoader(item=ItemAAA(), selecto

浏览 5提问于2017-01-10得票数 1

1回答

Scrapy打印字段，但不填充XML文件

、、、、

在正确打印XML文件时，我遇到了一个问题，但是它没有用任何内容填充XML文件。终端的输出如下： [u'Tove'] [u'Jani'] [u'Reminder'] [u"Don't forget me this weekend!"] 但是，输出site_products.xml会导致这样的结果(这是错误的，没有数据)： <?xml version="1.0" encoding="utf-8"?> <items></items> spider.py fro

浏览 3提问于2015-04-24得票数 1

回答已采纳

1回答

如何防止重复数据被插入数据库

、、

有人能帮我解决这个问题吗?我是scrapy/python的新手。我似乎无法阻止重复数据被插入到数据库中。例如。如果我的数据库中有马自达4000美元的价格。如果'car‘已经存在或者'price with car’存在，我不希望爬虫再次插入爬行数据。 price | car ------------- $4000 | Mazda <---- $3000 | Mazda 3 <---- $4000 | BMW $4000 | Mazda 3 <---- I also dont want to have two results like this $4000

浏览 2提问于2015-04-04得票数 3

2回答

如何将Scrapy的输出保存到文件或数据库中

、、

我正在写一个脚本，它去特定的网站并收集信息，收集信息后，它应该保存到一个文件中的所有(它会更好，如果它保存到数据库)。我读过关于FEED EXPORT和Pipeline的文章，但是我是Python和Scrapy的新手，所以我还没有找到解决方案。谁能给我解释一下如何使用Feed Export或Pipeline？我阅读了文档，但我不清楚。到目前为止，我的代码如下： import scrapy class BrickSetSpider(scrapy.Spider): name = "brickset_spider" start_urls = ['htt

浏览 10提问于2017-02-18得票数 0

回答已采纳

1回答

刮擦ImagesPipeline警告:文件(未知错误)：从<GET下载图像时出错

、、、

我正在学习Python和Scrapy，我正在学习如何使用它下载图像。我现在有点卡住了，我不知道真正的问题是什么。当我运行蜘蛛时，我会收到这个错误消息。 <None>: Unsupported URL scheme '': no handler available for that scheme 和 [imageflip] WARNING: File (unknown-error): Error downloading image from <GET 请在这里看到我的pipelines.py import scrapy from scrapy.contrib.

浏览 1提问于2015-03-21得票数 5

回答已采纳

1回答

在scrapyd中调度一个蜘蛛并传递蜘蛛配置选项

、、、

我正在尝试配置使用slyd创建的蜘蛛以使用，因此我发送-d parameter=value来配置它： curl http://localhost:6800/schedule.json -d project=myproject -d spider=myspider -d setting=CLOSESPIDER_ITEMCOUNT=100 -d settings=ITEM_PIPELINE=scrapyelasticsearch.ElasticSearchPipeline -d setting=ELASTICSEARCH_SERVER=localhost -d setting=ELASTICSE

浏览 2提问于2014-09-11得票数 2

回答已采纳

1回答

如何在scrapy中执行多个方法

、、、

def parse(self,response): print("parse!!!!!!!!!!!!!!!!!!!") yield scrapy.Request("http://xx.com", callback=self.parseHeader,meta={'item': item}) yield scrapy.Request("http://xx.com ", callback=self.parseBody,meta={'item': item}) yield scrapy.Request

浏览 3提问于2017-08-17得票数 0

1回答

ImportError:使用scrapy时没有名为counselor.settings的模块

、、

我的爬虫结构如下： ├── README.md ├── counselor │ ├── filter_words.py │ ├── items.py │ ├── langconv.py │ ├── main.py │ ├── pipelines.py │ ├── queue.py │ ├── settings.py │ ├── spiders │ │ ├── __init__.py │ │ └── wiki.py │ └── zh_wiki.py └── scrapy.cfg 我的main.py如下： from scrapy import c

浏览 5提问于2021-02-26得票数 0

回答已采纳

1回答

scrapy.core.engine调试:爬行(200) Scrapy框架

、、、

浏览 1提问于2018-10-29得票数 0

3回答

在我的pythonpath中，scrapy不能导入模块

、、、

我有一个功能性的刮擦项目，然后我决定清理它。为了做到这一点，我把我的数据库模块从我的项目的刮掉部分，我不能再包括它了。现在这个项目是这样的： myProject/ database/ __init__.py model.py databaseFactory.py myScrapy/ __init__.py settings.py myScrapy/ __init__.py pipeline.py spiders/

浏览 6提问于2014-11-20得票数 2

回答已采纳

1回答

Python + Scrapy:从脚本运行爬虫时运行"ImagesPipeline“的问题

、、

我是Python的新手，所以如果这里有一个愚蠢的错误，我很抱歉.我已经在网上搜索了好几天，看过类似的问题，梳理了一下Scrapy文档，似乎没有什么能真正解决这个问题. 我有一个Scrapy项目，它成功地抓取源网站，返回所需的项，然后使用ImagePipeline从返回的图像链接下载(然后相应地重命名)图像.但只有当我使用"runspider".从终端运行时，才能运行每当我使用来自终端或CrawlProcess的“爬行”从脚本运行蜘蛛，它返回项目，但不下载图片，我想，完全错过ImagePipeline。我读到，在以这种方式运行时，我需要导入我的设置，以便正确地加载管道，这在研

浏览 0提问于2019-08-22得票数 1

1回答

使用Scrapy下载图像的麻烦

、

当我试图使用带有Scrapy的蜘蛛下载图片时，我得到了以下错误。 File "C:\Python27\lib\site-packages\scrapy\http\request\__init__.py", line 61, in _set_url raise ValueError('Missing scheme in request url: %s' % self._url) exceptions.ValueError: Missing scheme in request url: h 据我所知，我好像在某个地方漏掉了一个

浏览 8提问于2015-04-28得票数 0

回答已采纳

1回答

刮伤管道process_item不工作(另一个不工作)

、

不是工作问题的项目。但是我已经尽了最大的努力去做研究，但我还是要提出一个问题。我已经将代码简化如下。为了使它简短，我想得到一些产品的细节从一个网站，我必须使用飞溅，使我自己能够阅读一些css。我已经注册了一个项目和两个db类，我的计划是将产品存储在产品表中，并将它们的图像路径存储在另一个表中。但是，最后下载了图像，但项目管道尚未被触发。在我的管道里，我只能得到两张指纹--> 输油管道：终结者虽然我能得到照片，但我无法得到我的信息打印(“管道”+ image_url) 最重要 pipeline.py ============= from sqlalche

浏览 2提问于2017-12-04得票数 1

1回答

scrapy无法导出到CSV

我使用以下管道将我的项目导出为CSV(使用Scrapy 0.17)： from scrapy import signals from scrapy.contrib.exporter import CsvItemExporter class CsvExportPipeline(object): def __init__(self): self.files = {} @classmethod def from_crawler(cls, crawler): pipeline = cls() crawler.signal

浏览 0提问于2013-08-23得票数 2

1回答

刮伤图像的提取

、、

我在这里读过一些其他的答案，但我遗漏了一些基本的东西。我试着用CrawlSpider从一个网站中提取图像。 settings.py BOT_NAME = 'healthycomm' SPIDER_MODULES = ['healthycomm.spiders'] NEWSPIDER_MODULE = 'healthycomm.spiders' ITEM_PIPELINES = {'scrapy.contrib.pipeline.images.ImagesPipeline': 1} IMAGES_STORE = '~/D

浏览 5提问于2014-07-02得票数 4

回答已采纳

2回答

Scrapy CSV列导出

、

我想将数据导出到csv中的多个列，但我总是获得这种类型的文件：我想要两栏，一栏是“文章”，另一栏是“价格”。我的管道： import scrapy from scrapy import signals from scrapy.contrib.exporter import CsvItemExporter import csv class MercadoPipeline(object): def __init__(self): self.files = {} @classmethod def from_crawler(cls, crawler):

浏览 0提问于2018-02-27得票数 0

1回答

刮刮-无法将数据上传到s3

、

我正在使用刮除，从一个网站的数据正在运行良好，但我不能上传刮数据到亚马逊的s3。看一看刮擦的文档，这就是我的settings.py中的内容 FEED_URI = 's3://bucket/folder/data-%(time)s.csv' FEED_FORMAT = 'csv' AWS_ACCESS_KEY_ID = 'key-goes-here' AWS_SECRET_ACCESS_KEY = 'secret-key-goes-here' FEED_EXPORT_FIELDS = None FEED_STORAGES =

浏览 0提问于2018-06-19得票数 0

1回答

如何从scrapy中的urls列表中拆分输出

、

我正在尝试生成一个csv文件为每个抓取的网址，从一个网址列表在scrapy。我知道我应该修改pipeline.py，但是到目前为止我所有的尝试都失败了。我不明白如何将抓取的url传递给管道，并将其用作输出的名称，并相应地拆分输出。有什么帮助吗？谢谢这里是蜘蛛和管道 from scrapy import Spider from scrapy.selector import Selector from vApp.items import fItem class VappSpider(Spider): name = "vApp" allowed_doma

浏览 0提问于2016-08-20得票数 1

1回答

scrapy管道导出器对象未实例化

、、

我正在使用scrapy解析一个包含链接的表，并将其保存在json中。表中的链接包含额外的细节，它们将被获取并存储到另一个json中。(如下所示：) 为了实现这一点，我使用了一个管道来检查项目类型并将结果存储在适当的json中。然而，我陷入了一些奇怪的错误中。请参考以下内容： from scrapy import signals from scrapy.exporters import JsonItemExporter from for_icu import items class ListPipeline(object): def __init__(self): self.files

浏览 16提问于2017-12-27得票数 0

1回答

从Jupyter Notebook到CSV的Scrapy输出

、、

我已经完成了一个管道和蜘蛛一切通过jupyter笔记本。我认为它可以正确地抓取所有东西(运行正常)，但我已经指定它在我的桌面上创建一个带有结果的CSV文件，但由于某些原因无法工作。我以为用FEED_URI就行了，但看起来没有用，我确定我错过了什么，但不知道在哪里。 import scrapy from scrapy.crawler import CrawlerProcess import logging from datetime import date from scrapy import signals class BBPipeline(object): @classmetho

浏览 0提问于2020-02-13得票数 0

1回答

Scrapy mysql管道错误

、、

我正在使用scrapy，并试图将从爬行器抓取的数据保存到MySql数据库中。我正在使用管道来实现这一点，但没有成功。下面是我的管道代码： from scrapy import log from scrapy.core.exceptions import DropItem from twisted.enterprise import adbapi import time import MySQLdb.cursors class FilterWordsPipeline(object): """A pipeline for filtering out items whic

浏览 3提问于2012-05-03得票数 2

回答已采纳

1回答

使用XMLITEMEXPORTER在XML文件中没有输出

、、

我是蟒蛇的初学者，我正在处理刮痕。我使用xmlitemexporter将我刮过的数据导出到xml文件中。但是我在xml文件中只得到“<”/item“>”，items.py如下所示： from scrapy.item import Item, Field class WorkwithitemsItem(Item): title = Field() link = Field() publish = Field() description = Field() 蜘蛛就像： from scrapy import log from scrapy.spider

浏览 1提问于2014-01-16得票数 1

回答已采纳

1回答

为一个带有scrapy的url创建一个csv时键入

、、、

这是我的网络爬虫，它生成一个包含标题、url和名称的项目。 import scrapy from ..items import ContentsPageSFBItem class BasicSpider(scrapy.Spider): name = "contentspage_sfb" #allowed_domains = ["web"] start_urls = [ 'https://www.safaribooksonline.com/library/view/shell-programming-in/9780

浏览 0提问于2017-05-18得票数 1

2回答

刮伤ITEM_PIPELINES警告

、

我的settings.py中有以下内容 ITEM_PIPELINES = ['mybot.pipelines.custompipeline'] 但当我开始刮擦时，我会收到以下警告。 /lib/python2.7/site-packages/scrapy/contrib/pipeline/init.py:21: ScrapyDeprecationWarning:定义为list或set的ITEM_PIPELINES被废弃，切换到dict category=ScrapyDeprecationWarning，stacklevel=1) 它似乎还在正常工作。但是，我需要做什么才能

浏览 2提问于2014-01-02得票数 5

回答已采纳

1回答

通过使用GCSFilesStore和获取ImportError，让爬虫在Scrapy Cloud上存储文件

、、、

将蜘蛛部署到抓取云中。它收集文件的下载链接，并将这些文件保存在Google Cloud存储桶中。它在本地运行时可以正常工作。但在部署到Scraping Hub时，它会返回以下错误： Traceback (most recent call last): File "/usr/local/lib/python2.7/site-packages/twisted/internet/defer.py", line 1299, in _inlineCallbacks result = g.send(result) File "/usr/local/lib/pyth

浏览 28提问于2019-04-20得票数 0

1回答

如何在刮伤中使用管道项

、、

我是抓取网站的新用户，我想把爬行到mysql数据库中的数据存储起来。myspider.py： class MininovaSpider(CrawlSpider): name = 'myspider' allowed_domains = ['example.com'] start_urls = ['http://www.example.com'] rules = [Rule(SgmlLinkExtractor(allow=('/categorie/.*'),restrict_xpaths=('

浏览 3提问于2012-01-17得票数 1

4回答

Scrapy:未定义解析回调

、

我总是得到NotImplementedError('{}.parse callback is not defined'.format(self.__class__.__name__))。然而，我试着遵循的例子。 2019-12-27 11:40:40 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://latindancecalendar.com/festivals/> (referer: None) ERROR:scrapy.core.scraper:Spider error processing <

浏览 6提问于2019-12-27得票数 1

1回答

让Spacy NER只搜索公司名称，而不是将计算能力浪费在其他任何事情上(使用现有的语言模型)？

、

我还在学习python。我在试着抓取网站和提取公司名称。我计划使用scrapy抓取和空格语言模型来提取公司名称。到目前为止的代码： import spacy nlp = spacy.load("sv_pipeline-0.0.0/sv_pipeline/sv_pipeline-0.0.0") doc = nlp("Jag jobbade på Random Företag AB. Sedan fick jag jobbet på DenAndraFöretaget AB") width = 15 for ent in doc.ents: print

浏览 45提问于2021-06-21得票数 1

回答已采纳

1回答

抓取管道mysql错误

、、

当我编写Scrapy\pipeline，然后尝试使用scrapy crawl dmoz时，出现了一个错误： File "F:\Python\lib\site-packages\scrapy\utils\misc.py", line 42, in load_object raise ImportError("Error loading object '%s': %s" % (path, e)) ImportError: Error loading object 'tutorial.pipelines.Tutorialpipeline&#

浏览 3提问于2015-03-19得票数 0

1回答

Scrapy - ItemPipeline不输入进程项

、、

我正在玩Scrapy，并试图将蜘蛛生成的项传递给ItemPipe。THe问题是，当输入管道时，永远不会调用实际的process_items方法。尽管已经调试了蜘蛛，并看到它正确地产生了引号项目。总之，当我调试quotes_spider.py时，我可以看到我返回的'item‘对象是Quote类型的，作者/引号有期望值。类似地，管道被正确加载并创建了json文件，我从来不输入process_items方法或写入这样的文件。有什么建议吗？ quotes_spider.py import scrapy from scrapy.loader import ItemLoader from tuto

浏览 2提问于2017-06-27得票数 0

回答已采纳

2回答

从python脚本调用scrapy而不是创建JSON输出文件

、、、

下面是我用来调用scrapy的python脚本，答案是 def stop_reactor(): reactor.stop() dispatcher.connect(stop_reactor, signal=signals.spider_closed) spider = MySpider(start_url='abc') crawler = Crawler(Settings()) crawler.configure() crawler.crawl(spider) crawler.start() log.start() log.msg('Running react

浏览 4提问于2013-03-19得票数 3