腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在heroku上部署
scrapy
项目
、
、
、
我有一个
抓取
蜘蛛项目,它报废了一些网站,并获取我的数据上。我的爬行器生成两个JSON文件,所有
抓取
的数据都存储在这两个文件中。我这里的问题是,我每天在本地机器上运行
scrapy
spider,然后手动更新heroku上的两个JSON文件。 我想自动化这个过程,即
scrapy
项目应该每天运行,产生的JSON文件应该自动更新。我在这里找到的解决方案是,如果
scrapy
和web服务被部署为单个项目,它将像I want....but一样工作,我不确定是否可以做到。我搜索了关于部署
scrapy
项目
浏览 1
提问于2014-04-24
得票数 2
9
回答
BeautifulSoup和
Scrapy
crawler有什么区别?
、
、
、
我对BeautifulSoup比较熟悉,但对
Scrapy
crawler不太熟悉。
浏览 323
提问于2013-10-30
得票数 146
回答已采纳
2
回答
Scrapy
/ Python和SQL Server
、
、
有没有可能使用
Scrapy
从网站上获取数据,并将这些数据保存在Microsoft SQL Server
数据库
中? 如果是,有没有这样做的例子?这主要是Python的问题吗?也就是说,如果我发现一些Python代码保存到SQL Server
数据库
中,那么
Scrapy
也可以这样做吗?
浏览 0
提问于2013-02-07
得票数 0
回答已采纳
1
回答
为什么
Scrapy
中的数据没有完全加载视图(响应)?
、
我正试着用
Scrapy
从Youtube上收集一些评论。但是,当我进入
scrapy
shell模式并使用view(response)打开它时,除了加载旋转器之外,我找不到任何注释。
scrapy
shell https://www.youtube.com/watch?v=kkl7-NzqxWo在注释部分显示无限旋转器。
浏览 1
提问于2018-12-01
得票数 0
回答已采纳
2
回答
从子目录中为托管在Heroku上的Django项目运行非Django命令?
、
、
我的Django项目使用了名为
Scrapy
的Python web
抓取
库。
Scrapy
附带了一个名为
scrapy
crawl abc的命令,它可以帮助我
抓取
我在
scrapy
应用程序中定义的网站。当我在本地机器上运行诸如
scrapy
crawl spidername之类的
抓取
命令时,应用程序能够
抓取
日期并将其复制到我的
数据库
中。pipelines.py将
抓取
的项目保存到
数据库
中。在pi
浏览 1
提问于2012-01-27
得票数 3
回答已采纳
1
回答
将在
Scrapy
中建立的会话cookie传递给Splash,以便在
抓取
js
页面时使用
、
、
、
首先,我想说我是
Scrapy
的新手! 我有一个网站,需要登录后才能用
Scrapy
刮任何数据。我将要
抓取
的数据是在登录后由JavaScript生成的。 我已经能够成功地使用
Scrapy
登录。我的问题是,现在我已经登录并拥有必要的cookies来继续请求网站,当我在报告页面上调用SplashRequest时,如何将这些cookies传输到Splash,我想用
Scrapy
抓取
这些cookie?我的思维过程是错误的,我应该使用
Scrapy
登录,然后将cookie传递给Splas
浏览 26
提问于2021-01-23
得票数 0
回答已采纳
4
回答
从urls列表中下载<very large> number of pages的最佳方式是什么?
、
、
、
、
我有一个>100,000的urls (不同的域名)在一个列表中,我想下载并保存在
数据库
中,以便进一步处理和修补。 使用
scrapy
而不是python的多处理/多线程是否明智?
浏览 2
提问于2013-06-06
得票数 5
回答已采纳
3
回答
Scrapy
pause/resume是如何工作的?
有人能给我解释一下
Scrapy
中的暂停/恢复功能是如何工作的吗?没有提供太多细节。我在我的
scrapy
_cache文件夹中看到一个名为requests.queue的文件夹。但是,这始终是空的。 看起来requests.seen文件正在(使用SHA1散列)保存发出的请求,这很棒。我在
Scrapy
代码中跟踪了这个问题,看起来RFPDupeFilter打开了带有'a+‘标志的requests.seen文件。因此,它将始终丢弃文件中以前的值(至少这是我的Mac上的行为)
浏览 0
提问于2015-03-04
得票数 8
1
回答
为什么
scrapy
在这个例子中不能工作?
、
我试图从一个网站
抓取
数据,如文章枚举,定价和股票,并将其导出到excel工作表。 以下脚本成功登录。未登录时,仅可见articl枚举器。我测试了刮刀,它成功地
抓取
了文章编号。在下面的示例中,我尝试将登录和
抓取
数据结合起来,但它不起作用。 我做错了什么?import
scrapy
from
scrapy
import FormRequestprice_list= []link_s
浏览 15
提问于2021-11-05
得票数 0
3
回答
在使用
Scrapy
进行
抓取
之前,检查URL是否在文件中
、
、
我正在
抓取
一个包含URL列表的大文件。显然,我不能连续地
抓取
所有的URL。我当前的解决方案从文件中读取URL。一旦它从该页面
抓取
和下载文档,我就会写入一个新文件,如下所示: # >
scrapy
crawl fbo-
浏览 6
提问于2019-10-11
得票数 0
4
回答
如何在
抓取
的CrawlSpider中访问特定的start_url?
、
、
我正在使用
Scrapy
,特别是
Scrapy
的CrawlSpider类来
抓取
包含某些关键字的web链接。我有一个相当长的start_urls列表,它从一个连接到Django项目的SQLite
数据库
中获取条目。我想将
抓取
的web链接保存在此
数据库
中。为了将
抓取
的web链接正确地保存到
数据库
中,我需要告诉CrawlSpider的parse_item()方法,
抓取
的web链接属于哪个起始url。我该如何做呢?
Scrapy
的D
浏览 1
提问于2012-05-15
得票数 7
回答已采纳
2
回答
Scrapy
-如何
抓取
网站并将数据存储在Microsoft SQL Server
数据库
中?
、
、
、
我已经在MSSQL Server中为
Scrapy
数据创建了一个表。我还设置了
Scrapy
并配置了Python来
抓取
和提取网页数据。我的问题是,如何将
Scrapy
抓取
的数据导出到本地MSSQL Server
数据库
中?这是
Scrapy
用于提取数据的代码: name = "quotes" start_url
浏览 1
提问于2017-04-07
得票数 2
1
回答
如何将Keep_Fragments参数设置为True?
我正在尝试
抓取
一个使用
Js
的站点,但
scrapy
一直将下一个页面的url作为副本丢弃,并停止
抓取
。根据我的理解,
scrapy
通过检查请求所指向的资源的散列来检查重复项,默认情况下会丢弃URL中的片段。(参见下面的
scrapy
发布说明摘录) “
scrapy
.utils.request.request_fingerprint()的新keep_fragments参数允许为URL中具有不同片段的请求生成不同的指纹
浏览 20
提问于2020-09-09
得票数 0
回答已采纳
1
回答
使用
Scrapy
抓取
大型
数据库
、
、
、
、
我的项目需要我
抓取
myfitnesspal的
数据库
,我如何使用搜索选项
抓取
某些食物的营养信息? 基本上,我如何在
scrapy
上浏览搜索表单
浏览 1
提问于2013-08-20
得票数 1
1
回答
可以将pyexecjs与
scrapy
一起使用吗?
、
、
、
、
不久前我偶然发现了pyexecjs,我想知道它是否可以与
scrapy
一起用于
抓取
JS
生成的数据。 我检查了应该如何使用该库的示例,但我不确定如何将其与
scrapy
集成。
浏览 4
提问于2014-10-12
得票数 0
0
回答
抓取
-按日期
抓取
链接
、
、
、
有没有可能通过与链接相关的日期来
抓取
链接?我正在尝试实现一个每日运行的爬行器,它将文章信息保存到
数据库
中,但我不想重新
抓取
我以前已经
抓取
过的文章--即昨天的文章。但是,这依赖于根据先前保存在
数据库
中的检查新请求。我假设,如果每天的
抓取
持续一段时间,那么
数据库
将需要大量的内存开销来存储已经
抓取
的请求指纹。因此,给出一个像这样的网站上的文章列表,我想要
抓取
今天发布的所有文章6/14/17,但是一旦
抓取
浏览 6
提问于2017-06-15
得票数 1
回答已采纳
1
回答
scrapy
增量提取不起作用
、
、
我使用的是
scrapy
0.20我使用的是插件。'TestSpider.deltafetch.DeltaFetch': 100,DELTAFETCH_ENABLED = True但蜘蛛会继续
抓取
已经被
抓取
的项目
浏览 0
提问于2014-03-23
得票数 2
1
回答
如何报废网站上的所有页面(第1页直到无穷大)
、
、
、
、
伙计们,我想从上
抓取
一切都好,我
抓取
它的成功import datetimeimport socketfrom
scrapy
.loader.processors import
浏览 1
提问于2016-07-25
得票数 0
回答已采纳
1
回答
抓取
抓取
整个网站的爬虫
、
、
我正在使用
scrapy
抓取
我拥有的旧网站,我使用下面的代码作为我的蜘蛛。我不介意为每个网页输出文件,或者一个包含所有内容的
数据库
。但是我确实需要能够让蜘蛛
抓取
整个东西,而不是我必须放入我当前必须做的每个单独的url。import
scrapy
name = "dmoz" allowed_domains = ["www.example.com
浏览 1
提问于2016-04-25
得票数 15
回答已采纳
2
回答
抓取
并发或分布式爬网
、
、
我想用
scrapy
抓取
相当大的网站。在某些情况下,我已经有了
抓取
的链接,而在其他情况下,我需要提取(
抓取
)它们。我还需要在运行时访问
数据库
两次。一次是为了确定是否需要
抓取
url (蜘蛛中间件),一次是为了存储所提取的信息(项目流水线)。理想情况下,我可以运行并发或分布式爬行,以加快速度。使用
scrapy
运行并发或分布式爬网的推荐方式是什么?
浏览 5
提问于2015-05-28
得票数 4
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券