腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
抓取
html
表
,
并
使用
scrapy
将
数据
组
合到
mongodb
中
。
、
我从2个不同的
表
中
抓取
数据
,
并
希望
将
数据
合并到
MongoDB
中
现在我遇到了一个问题,那就是我要刮掉的第二张
表
。
表
有1个表头和5个
表
行,如何
抓取
MongoDB
字段包含
表
的所有元素(列)的
表
我想要擦除的
表
看起来像这样的https://codepen.io/link
浏览 8
提问于2019-09-04
得票数 0
回答已采纳
3
回答
以压缩格式存储
mongodb
数据
、
我正在
使用
mongodb
来存储
使用
scrapy
框架的网页的原始
HTML
数据
。在一天的web
抓取
中
,25 up的磁盘空间就被填满了。有没有办法以压缩格式存储原始
数据
?
浏览 6
提问于2013-08-02
得票数 8
回答已采纳
1
回答
如何在
Scrapy
项目中
使用
PyMongo
MongoDB
插入新记录时删除重复项
、
、
、
、
在我的
Scrapy
项目中,我
使用
PyMongo
将
抓取
的
数据
存储在
MongoDB
中
。在以逐页的方式
抓取
网页时有重复的记录,我只想删除那些在插入到
数据
库
中
时具有相同名称的重复记录。请指导我如何去除"process_item"方法
中
的重复项。我发现在互联网上很少有从
数据
库
中
删除重复项的查询,但我想要一个Python解决方案。from pymongo
浏览 13
提问于2018-08-21
得票数 1
6
回答
Scrapy
-静默地删除项目
、
我正在
使用
Scrapy
抓取
几个网站,这些网站可能会共享多余的信息。 对于我
抓取
的每个页面,我
将
页面的url、标题和
html
代码存储到
mongoDB
中
。我想避免
数据
库
中
的重复,因此,我实现了一个管道,以检查是否已经存储了类似的项。在这种情况下,我会引发一个DropItem异常。我的问题是,每当我基于DropItem异常原因放置一个项目时,
Scrapy
都会将该项目的全部内容显示到日志
中
浏览 1
提问于2012-11-23
得票数 26
回答已采纳
2
回答
离线(本地)
数据
上的Python
Scrapy
、
、
我的计算机上有一个270MB的
数据
集(10000个
html
文件)。是否可以
使用
Scrapy
在本地对此
数据
集进行爬网?多么?
浏览 0
提问于2013-10-16
得票数 17
1
回答
MongoDB
/ PyMongo
、
、
我正在运行一个脚本,它可以
抓取
相当多的
数据
,然后
使用
函数
将
数据
上传到
mongodb
。我一直受到连接关闭错误的影响,不知道为什么会发生这种情况,因为每次都会有5000
组
数据
分块,但是当我只运行15.000
组
时,它就运行得很好。当我运行50.000套时,我得到了pymongo.errors.AutoReconnect:
scrapy
-01-lb.3vs0u.
mongodb
.net:27017: [Err
浏览 4
提问于2022-11-03
得票数 0
9
回答
BeautifulSoup和
Scrapy
crawler有什么区别?
、
、
、
我对BeautifulSoup比较熟悉,但对
Scrapy
crawler不太熟悉。
浏览 323
提问于2013-10-30
得票数 146
回答已采纳
2
回答
Scrapy
-如何
抓取
网站并将
数据
存储在Microsoft SQL Server
数据
库
中
?
、
、
、
我已经在MSSQL Server
中
为
Scrapy
数据
创建了一个
表
。我还设置了
Scrapy
并
配置了Python来
抓取
和提取网页
数据
。我的问题是,如何
将
Scrapy
抓取
的
数据
导出到本地MSSQL Server
数据
库
中
?这是
Scrapy
用于提取
数据
的代码: class
浏览 1
提问于2017-04-07
得票数 2
1
回答
擦除null输出,但
数据
已
抓取
、
、
、
我正在
抓取
一个网站,
并
试图
将
输出保存到
MongoDB
中
。但是蜘蛛的日志显示
数据
被刮掉了..。这是我的爬虫代码from
scrapy
.selector import HtmlXPathSelector item
浏览 1
提问于2013-08-30
得票数 1
1
回答
我可以在
Scrapy
中
刮一整页,但未能
使用
xpath找到DOM元素
、
、
我是Python的完全初学者,我想用
scrapy
从
抓取
一些图像with open('baiduImage.
html
', 'wb') as f:这似乎是一个完整的页面,所有元素在Chrome中都表现良好,但我没有
使用
f.write(response.xpath('/
html
/body').extract()[0
浏览 2
提问于2014-11-17
得票数 0
回答已采纳
2
回答
Scrapy
/ Python和SQL Server
、
、
有没有可能
使用
Scrapy
从网站上获取
数据
,并将这些
数据
保存在Microsoft SQL Server
数据
库
中
? 如果是,有没有这样做的例子?这主要是Python的问题吗?也就是说,如果我发现一些Python代码保存到SQL Server
数据
库
中
,那么
Scrapy
也可以这样做吗?
浏览 0
提问于2013-02-07
得票数 0
回答已采纳
1
回答
使用
禁用管道功能?我怎样才能重新启用它?
、
、
、
我目前正在用
Scrapy
编写一个Twitter刮板来
抓取
和处理
数据
,Selenium作为一个自动化工具,因为Twitter本身是一个交互式页面,所以我可以“向下滚动”推文,并在一次扫描
中
获得更多
数据
。
使用
我设置的
MongoDB
管道,理论上它应该
将
处理过的
数据
发送到预置
数据
库,但由于某种原因,管道没有被发送,因为我没有看到它的调试日志在运行。= Selector(text = self.driver.page_sour
浏览 1
提问于2015-05-22
得票数 2
回答已采纳
1
回答
将
抓取
的
数据
存储在
MongoDB
中
、
、
我想将
抓取
的
数据
存储在
MongoDb
中
,但我得到了一个错误。我还没有在程序
中
的任何地方
使用
attribute has iteritem,下面是程序代码: ex.pyfrom example.items import ExampleItemh1[@id="eventTitle"]/text()').extract()) item['Language'] = map(unico
浏览 1
提问于2016-04-27
得票数 0
1
回答
(Python 3):
Scrapy
MongoDB
管道无法工作
、
、
我试图通过Pymongo连接到
MongoDB
的管道,以创建一个新的
数据
库,
并
填充我刚刚
抓取
的内容,但我遇到了一个奇怪的问题。在命令行1 (
scrapy
)
中
,我
将
目录设置为Documents/PyProjects/twitterBot/krugman 在命令行2
中
,我将其设置为文档/PyProjects/twitterBot我
使用
的脚本如下: krugman/ krugman
浏览 0
提问于2017-09-12
得票数 1
1
回答
Scrapy
crawler不稳定,有时工作有时不会
、
、
、
、
我的爬虫有时会工作,有时-crawls和
抓取
,但有时只是爬行,不会
抓取
任何东西,如果我没有改变任何代码:/我不明白。没有错误代码或任何东西。/s/srs=9187220011&rh=n%3A283155> (referer: None)2017-02-05 23:52:00 [
scrapy
.statscollectors] INFO:
浏览 21
提问于2017-02-06
得票数 1
回答已采纳
2
回答
来自
Scrapy
的HtmlResponse不能从URL
中
检索
数据
、
、
这些是在Ipython
中
运行的代码。from
scrapy
.selector import Selector response = HtmlResponse(url仅供参考,如果我在命令提示符下运行$
scrapy
shell https://en.wikipedia.org/wiki/Pan_American_Games,则响应不会为空。我不想
使用
scrapy
shel
浏览 4
提问于2015-06-30
得票数 1
1
回答
如何将我的
mongodb
收藏品导出到我网站上的
表
中
?
、
、
、
我想创建一个非常简单的
表
,其中列出了
mongodb
数据
库
中
的所有
数据
。因为将有新的
数据
添加频繁但不定期,我认为
数据
应该只在网站加载时
浏览 3
提问于2014-06-13
得票数 0
3
回答
在
使用
Scrapy
进行
抓取
之前,检查URL是否在文件
中
、
、
我正在
抓取
一个包含URL列表的大文件。显然,我不能连续地
抓取
所有的URL。我当前的解决方案从文件
中
读取URL。,程序从URL的原始文本文件开始,
并
开始重新搜索
并
使用
相同的内容覆盖以前的下载。我尝试
将
代码放入爬行器
中
,以检查传递给解析函数的URL是否在"completed_urls.txt“文件
中
……但显然,随着完成的URL数量的增加,这是一个很长的检查。因此,我的问题是:当我重新启动程序时,如何才能记住哪个URL是要爬行的最
浏览 6
提问于2019-10-11
得票数 0
1
回答
为什么
Scrapy
没有返回完整的
HTML
代码?
、
我正在尝试将我的selenium web刮刀转换为
scrapy
,因为selenium并不是主要用于web
抓取
。from
scrapy
.crawler import CrawlerProcessmin_price = "65000" class Quot
浏览 30
提问于2020-06-04
得票数 0
回答已采纳
1
回答
使用
Scrapy
递归地从页面上找到的每个
表
中
抓取
数据
、
我有下面这段代码,它从一个web页面
中
抓取
一个命名表:from
scrapy
.selector import Selectorfrom
scrapy
.contrib.spiders import CrawlSpider, Rule from
scrapy
.contrib.linkextractors.sgml','crawl
浏览 4
提问于2014-07-30
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
编程资源 Python
Scrapy框架的使用之Scrapy入门
爬虫小记(一)
——Scrapy详解
Scrapy框架的使用之Item Pipeline的用法
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券