腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
我
如何
让
scrapy
管道
用
我
的
项目
填充
我
的
mongodb
?
、
、
、
我
如何
让
scrapy
管道
用
我
的
项目
填充
我
的
mongodb
?下面是
我
的
代码目前
的
样子,它反映了
我
从
scrapy
文档中获得
的
信息。
我
还想提一下,
我
已经尝试过返回
项目
而不是放弃,以及尝试使用
项目</em
浏览 1
提问于2017-02-27
得票数 1
回答已采纳
1
回答
抓取:
如何
使用爬行器中
的
项目
,以及
如何
将
项目
发送到
管道
?
、
、
、
我
是
scrapy
新手,
我
的
任务很简单:
我
的
问题是关于
项目
结构:
如何
在蜘蛛中使用
项目
以及
如何
将
项目
发送到
管道
?
浏览 4
提问于2017-05-11
得票数 18
回答已采纳
1
回答
将数据存储到不使用SQL连接器和
scrapy
的
sql中。
、
、
、
我
试图
用
scrapy
将被刮过
的
数据存储到SQL数据库中,但是当运行时没有提到错误时,
我
的
代码不会发送任何内容。
我
使用
我
的
sql连接器,因为
我
没有设法安装MySQL。
我
的
SQL数据库似乎运行良好,当我运行代码时,会引发KB/s流量。请在
我
的
pipelines.py代码下面找到。
浏览 1
提问于2019-10-19
得票数 1
回答已采纳
1
回答
将项插入到
mongoDB
ver3.4中
、
、
、
在完成
我
的
爬行器时,
我
正在尝试
mongoDB
,作为将我
的
项目
放入数据库
的
一种方法。这是
用
mongoDB
4.0和我
的
私有数据库(端口27017
的
本地主机)完成
的
。现在,
我
需要把
项目
放到一个真正
的
数据库中,而这正是
我
所处
的
位置。
我
有一个
mongoDB
运行(3
浏览 0
提问于2019-06-26
得票数 1
回答已采纳
2
回答
抓取使用
项目
并将数据保存在json文件中
、
、
、
、
我
想使用抓取
项目
和操作数据,并保存在json文件中(使用json文件,像一个数据库)。# Spider Class name = 'productpage' start_urls = ['https://www.productpage.com('{}.json'.format(link), callback=self.parse_product, meta={'product'
浏览 22
提问于2019-05-06
得票数 0
1
回答
循环响应以将
项目
保存到数据库(Django,
Scrapy
)
、
、
、
我
使用DjangoItem将这些数据保存到我
的
数据库中。
我
的
问题是
让
响应计数在for循环中使用它。
我
不知道这是不是最好
的
方法(可能不是)。这是
我
的
蜘蛛: now = timezone.now()
浏览 2
提问于2017-07-11
得票数 0
1
回答
Scrapy
+ PostgreSQL -自定义ETL
的
自动
项目
和
管道
(截断>插入>插入>删除)
、
、
、
我
已经有了一些实用
的
蜘蛛和代码来实现
我
想要
的
,但我正在寻找关于
如何
更有效地为
我
正在进行
的
项目
整合事情
的
建议。
我
目前
的
程序包括:- Current Pipeli
浏览 6
提问于2020-01-06
得票数 1
回答已采纳
2
回答
当你可以直接插入
的
时候,为什么要费心去看那些东西呢?
、
我
将使用刮伤来爬行一个域。
我
计划
用
sqlalchemy将所有这些信息存储到我
的
数据库中。每个页面的xpath选择器非常简单,
我
计划使用HttpCacheMiddleware。理论上,只要有蜘蛛提供
的
数据,
我
就可以将数据插入到数据库中(这至少需要实例化hxs )。这将允许
我
绕过实例化任何
项目
子类,这样就不会有任何
项目
通过
我
的
管道
。
我
认为这样做<em
浏览 1
提问于2012-11-20
得票数 1
2
回答
如何
在
Scrapy
蜘蛛中获取
管道
对象
、
、
我
使用
mongodb
来存储爬行
的
数据。
我
只想要一个连接对象来接受数据库操作,这是在
管道
中。提
浏览 4
提问于2014-04-16
得票数 5
回答已采纳
1
回答
对多个
MongoDB
集合
的
抓取写入
、
、
、
、
我
尝试用pymongo和
scrapy
将不同
的
项目
存储在不同
的
mongodb
集合中。
我
应该
如何
创建一个
管道
: 1)当爬行器打开时启动pymongo连接
的
字典,2)通过名称处理和识别项,3)将项插入到给定请求中
的
一个集合中。
我
甚至不确定是否可以在
scrapy
中写入多个集合。
浏览 7
提问于2017-02-22
得票数 1
回答已采纳
1
回答
抓取:合并来自不同站点
的
项目
、
我
希望合并从站点A获得
项目
和从站点B获取
项目
的
项目
。 每个
浏览 1
提问于2018-10-01
得票数 2
回答已采纳
2
回答
从不包括
管道
的
脚本中运行
scrapy
、
、
、
、
我
正在运行脚本中
的
擦伤,但它所做
的
只是激活蜘蛛。它不会通过
我
的
物品
管道
。
我
读过,但它没有提到任何包括
管道
的
内容。
我
的
设置:
scrapy
.cfg Scraper/ items.pypipelines.py settin
浏览 4
提问于2014-08-06
得票数 12
回答已采纳
4
回答
urllib中http://www.ssa.gov/cgi-bin/popularnames.cgi
的
web抓取(假设是基本
的
)
、
、
、
、
我
对Python (和web抓取)非常陌生。
让
我
问你一个问题。 因为
我
不知道具体
的
URL,所以我无法使用urllib下载该网页。“或"1991"),
我
就可以处理这个问题。
我
说<e
浏览 0
提问于2013-06-21
得票数 7
回答已采纳
1
回答
(Python 3):
Scrapy
MongoDB
管道
无法工作
、
、
我
试图通过Pymongo连接到
MongoDB
的
管道
,以创建一个新
的
数据库,并
填充
我
刚刚抓取
的
内容,但我遇到了一个奇怪
的
问题。
我
按照基本教程设置了两个命令行,一个用来运行
scrapy
,另一个用来运行mongod。不幸
的
是,当我在运行mongod之后运行
scrapy
代码时,mongod似乎没有接收到我正在尝试设置
的
scrapy
<em
浏览 0
提问于2017-09-12
得票数 1
3
回答
如何
在
Scrapy
Spider完成后触发
Mongodb
导入?
、
、
、
、
我
正在使用Python库
Scrapy
来抓取网站并定期生成json输出文件。为了提高效率,
我
希望在每个爬行器完成后将这些json文件批量上传到
Mongodb
中。
我
相信我可以这样做:然而,
我
想知道在爬虫完成后触发这个导入
的
最好方法是什么又是
如何
做到
的
?
我
希望<em
浏览 0
提问于2018-09-23
得票数 0
1
回答
如何
使用两种不同方法
的
两个产量
项目
?
、
我
对python和
scrapy
很陌生。
我
从两个不同
的
方法产生了两个
项目
,第一个是第一页数据,第二个是第二页数据。
我
无法按相同
的
顺序保存数据,第二项保存在第一项之后,但我需要同时保存这两项。提前谢谢。
浏览 1
提问于2018-06-10
得票数 0
1
回答
逐列输出数据,
我
想逐行刮擦。这怎么可能呢?
、
、
、
下面是蜘蛛
的
代码和图片如下所示: rows=response.xpath('//*[@id="table-timetable//td/strong/text()').extract() return items
我
希望它
的
结果如下
浏览 5
提问于2016-11-03
得票数 0
回答已采纳
2
回答
Scrapy
: ImportError:没有名为
管道
的
模块
、
、
、
我
有问题,
让
我
的
刮刀加载一个
项目
管道
。在尝试添加自定义
管道
时,
我
得到了以下错误:
我
尝试过文档,但它并没有真正解释
如何
设置ITEM_PIPELINE选项路径。下面是
我
的
应用程序
的
目录结构:├── bot.py│ └── formax.
浏览 2
提问于2017-07-25
得票数 1
回答已采纳
4
回答
从urls列表中下载<very large> number of pages
的
最佳方式是什么?
、
、
、
、
我
有一个>100,000
的
urls (不同
的
域名)在一个列表中,
我
想下载并保存在数据库中,以便进一步处理和修补。另外,你也可以自由地提出你脑海中出现
的
其他很棒
的
方法。
浏览 2
提问于2013-06-06
得票数 5
回答已采纳
1
回答
刮擦用户名蜘蛛
、
、
、
目前,它以2000页/分钟
的
速度开始,但在启动后不久,速度变得非常慢,速度约为200页/分钟。为什么会发生这种情况?
我
该
如何
改进这个刮刀?import
scrapy
from time import time returnLolSpider)print('Completed in {
浏览 0
提问于2017-01-18
得票数 2
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券