我如何让scrapy管道用我的项目填充我的mongodb？

文章/答案/技术大牛

发布

2回答

、、、

我如何让scrapy管道用我的项目填充我的mongodb？下面是我的代码目前的样子，它反映了我从scrapy文档中获得的信息。我还想提一下，我已经尝试过返回项目而不是放弃，以及尝试使用项目</em

浏览 1提问于2017-02-27得票数 1

回答已采纳

1回答

抓取:如何使用爬行器中的项目，以及如何将项目发送到管道？

、、、

我是scrapy新手，我的任务很简单：我的问题是关于项目结构:如何在蜘蛛中使用项目以及如何将项目发送到管道？

浏览 4提问于2017-05-11得票数 18

回答已采纳

1回答

将数据存储到不使用SQL连接器和scrapy的sql中。

、、、

我试图用scrapy将被刮过的数据存储到SQL数据库中，但是当运行时没有提到错误时，我的代码不会发送任何内容。我使用我的sql连接器，因为我没有设法安装MySQL。我的SQL数据库似乎运行良好，当我运行代码时，会引发KB/s流量。请在我的pipelines.py代码下面找到。

浏览 1提问于2019-10-19得票数 1

回答已采纳

1回答

将项插入到mongoDB* ver3.4中*

、、、

在完成我的爬行器时，我正在尝试mongoDB，作为将我的项目放入数据库的一种方法。这是用mongoDB 4.0和我的私有数据库(端口27017的本地主机)完成的。现在，我需要把项目放到一个真正的数据库中，而这正是我所处的位置。我有一个mongoDB运行(3

浏览 0提问于2019-06-26得票数 1

回答已采纳

2回答

抓取使用项目并将数据保存在json文件中

、、、、

我想使用抓取项目和操作数据，并保存在json文件中(使用json文件，像一个数据库)。# Spider Class name = 'productpage' start_urls = ['https://www.productpage.com('{}.json'.format(link), callback=self.parse_product, meta={'product'

浏览 22提问于2019-05-06得票数 0

1回答

循环响应以将项目保存到数据库(Django，Scrapy)

、、、

我使用DjangoItem将这些数据保存到我的数据库中。我的问题是让响应计数在for循环中使用它。我不知道这是不是最好的方法(可能不是)。这是我的蜘蛛： now = timezone.now()

浏览 2提问于2017-07-11得票数 0

1回答

Scrapy + PostgreSQL -自定义ETL的自动项目和管道(截断>插入>插入>删除)

、、、

我已经有了一些实用的蜘蛛和代码来实现我想要的，但我正在寻找关于如何更有效地为我正在进行的项目整合事情的建议。我目前的程序包括：- Current Pipeli

浏览 6提问于2020-01-06得票数 1

回答已采纳

2回答

当你可以直接插入的时候，为什么要费心去看那些东西呢？

、

我将使用刮伤来爬行一个域。我计划用sqlalchemy将所有这些信息存储到我的数据库中。每个页面的xpath选择器非常简单，我计划使用HttpCacheMiddleware。理论上，只要有蜘蛛提供的数据，我就可以将数据插入到数据库中(这至少需要实例化hxs )。这将允许我绕过实例化任何项目子类，这样就不会有任何项目通过我的管道。我认为这样做<em

浏览 1提问于2012-11-20得票数 1

2回答

如何在Scrapy蜘蛛中获取管道对象

、、

我使用mongodb来存储爬行的数据。我只想要一个连接对象来接受数据库操作，这是在管道中。提

浏览 4提问于2014-04-16得票数 5

回答已采纳

1回答

对多个MongoDB集合的抓取写入

、、、、

我尝试用pymongo和scrapy将不同的项目存储在不同的mongodb集合中。我应该如何创建一个管道: 1)当爬行器打开时启动pymongo连接的字典，2)通过名称处理和识别项，3)将项插入到给定请求中的一个集合中。我甚至不确定是否可以在scrapy中写入多个集合。

浏览 7提问于2017-02-22得票数 1

回答已采纳

1回答

抓取:合并来自不同站点的项目

、

我希望合并从站点A获得项目和从站点B获取项目的项目。每个

浏览 1提问于2018-10-01得票数 2

回答已采纳

2回答

从不包括管道的脚本中运行scrapy

、、、、

我正在运行脚本中的擦伤，但它所做的只是激活蜘蛛。它不会通过我的物品管道。我读过，但它没有提到任何包括管道的内容。我的设置： scrapy.cfg Scraper/ items.pypipelines.py settin

浏览 4提问于2014-08-06得票数 12

回答已采纳

4回答

urllib中http://www.ssa.gov/cgi-bin/popularnames.cgi的web抓取(假设是基本的)

、、、、

我对Python (和web抓取)非常陌生。让我问你一个问题。因为我不知道具体的URL，所以我无法使用urllib下载该网页。“或"1991")，我就可以处理这个问题。我说<e

浏览 0提问于2013-06-21得票数 7

回答已采纳

1回答

(Python 3)：Scrapy* MongoDB管道无法工作*

、、

我试图通过Pymongo连接到MongoDB的管道，以创建一个新的数据库，并填充我刚刚抓取的内容，但我遇到了一个奇怪的问题。我按照基本教程设置了两个命令行，一个用来运行scrapy，另一个用来运行mongod。不幸的是，当我在运行mongod之后运行scrapy代码时，mongod似乎没有接收到我正在尝试设置的scrapy<em

浏览 0提问于2017-09-12得票数 1

3回答

如何在Scrapy* Spider完成后触发Mongodb导入？*

、、、、

我正在使用Python库Scrapy来抓取网站并定期生成json输出文件。为了提高效率，我希望在每个爬行器完成后将这些json文件批量上传到Mongodb中。我相信我可以这样做：然而，我想知道在爬虫完成后触发这个导入的最好方法是什么又是如何做到的？我希望<em

浏览 0提问于2018-09-23得票数 0

1回答

如何使用两种不同方法的两个产量项目？

、

我对python和scrapy很陌生。我从两个不同的方法产生了两个项目，第一个是第一页数据，第二个是第二页数据。我无法按相同的顺序保存数据，第二项保存在第一项之后，但我需要同时保存这两项。提前谢谢。

浏览 1提问于2018-06-10得票数 0

1回答

逐列输出数据，我想逐行刮擦。这怎么可能呢？

、、、

下面是蜘蛛的代码和图片如下所示： rows=response.xpath('//*[@id="table-timetable//td/strong/text()').extract() return items我希望它的结果如下

浏览 5提问于2016-11-03得票数 0

回答已采纳

2回答

Scrapy: ImportError:没有名为管道的模块

、、、

我有问题，让我的刮刀加载一个项目管道。在尝试添加自定义管道时，我得到了以下错误：我尝试过文档，但它并没有真正解释如何设置ITEM_PIPELINE选项路径。下面是我的应用程序的目录结构：├── bot.py│ └── formax.

浏览 2提问于2017-07-25得票数 1

回答已采纳

4回答

从urls列表中下载<very large> number of pages的最佳方式是什么？

、、、、

我有一个>100,000的urls (不同的域名)在一个列表中，我想下载并保存在数据库中，以便进一步处理和修补。另外，你也可以自由地提出你脑海中出现的其他很棒的方法。

浏览 2提问于2013-06-06得票数 5

回答已采纳

1回答

刮擦用户名蜘蛛

、、、

目前，它以2000页/分钟的速度开始，但在启动后不久，速度变得非常慢，速度约为200页/分钟。为什么会发生这种情况？我该如何改进这个刮刀？import scrapyfrom time import time returnLolSpider)print('Completed in {

浏览 0提问于2017-01-18得票数 2

点击加载更多