腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
Scrapy
:如何从crawler获取处理过的流水线项目?
、
我创建了一个带有几个管道步骤的
Scrapy
Crawler。
爬虫
是一个更大的
框架
的一部分,它需要
爬虫
返回一个解析的项目列表。 在
Scrapy
中,我实现了一个包含几个规范化步骤的管道。由于
Scrapy
是更大的
框架
的一部分-如果我可以在通过整个管道后将项目返回到
爬虫
和/或
框架
,那就太好了。有没有办法做到这一点?
浏览 0
提问于2013-12-05
得票数 0
1
回答
如何防止刮伤从伐木?
、
、
我正在从一个更大的
框架
中调用一个基于
Scrapy
的
爬虫
。在爬行过程中,
Scrapy
记录所有事件。抓取之后,抓取应该停止日志记录,调用
框架
应该接管日志记录任务,并再次打印出来。如何阻止
Scrapy
控制所有日志并将其传递回我的
框架
?更新:我将crawler.spider.settings.overrides['LOG_ENABLED'] = False添加到我的
爬虫
中。刮痕一直在阻止我打印到标准
浏览 2
提问于2013-12-10
得票数 1
9
回答
BeautifulSoup和
Scrapy
crawler有什么区别?
、
、
、
我对BeautifulSoup比较熟悉,但对
Scrapy
crawler不太熟悉。
浏览 323
提问于2013-10-30
得票数 146
回答已采纳
1
回答
如何提取我的
爬虫
目前所站的网址?
、
、
我正在使用python中的
scrapy
框架
制作一个web
爬虫
。其主要思想是,
爬虫
从页面中提取一些数据,如果数据符合某些条件,
爬虫
应该提取其当前所处的URL。是否有一些方法/函数可以获得当前的URL?
浏览 5
提问于2016-11-27
得票数 0
回答已采纳
1
回答
爬行NodeJs和AngularJs站点
、
、
、
我正在尝试用
scrapy
python爬行网站,大多数网站都做得很成功,但大多数网站都给了很长时间,因为它们运行在Nodejs和angularjs
框架
或其他java
框架
上,而
scrapy
爬虫
无法从页面中获得详细信息import
scrapy
from
scrapy
.http import TextResponse
浏览 2
提问于2017-04-04
得票数 1
回答已采纳
2
回答
Scrapy
一次运行所有的蜘蛛。我想一次只运行一个
爬虫
。抓取<spider>
、
、
我是
Scrapy
的新手,正在尝试使用这个
框架
。真正令人沮丧的是,当我运行"
scrapy
crawl ( spider的名字)“时,它会运行我的"spiders”文件夹中的每一个
爬虫
。我怎么才能让
scrapy
一次只运行一只蜘蛛呢?
浏览 27
提问于2019-10-27
得票数 3
1
回答
如何用python多进程检查网页是否存活
、
我有一个urls列表(大约25k),我正在尝试检查它们是否有效(200个响应)。我想使用Python的多处理库并行执行这些检查。我写了以下代码(主要基于Python文档示例),但运行速度似乎相当慢。有什么方法可以让这个脚本运行得更快吗? import time
浏览 0
提问于2011-08-06
得票数 0
回答已采纳
1
回答
检查500错误以旁路
、
、
、
我使用
Scrapy
框架
来抓取数据。如果我的
爬虫
遇到500错误,它将被中断。因此,我需要在解析web内容之前检查可用的链接。非常感谢。
浏览 3
提问于2012-08-30
得票数 0
回答已采纳
1
回答
在python中启动Twisted.internet.reactor
、
我正在尝试运行一个
爬虫
(用
scrapy
框架
编写),以便从python脚本而不是命令行工具运行。
Scrapy
是在扭曲的互联网
框架
上编写的,该
框架
有一个无法在过程中重新启动的反应器。
浏览 1
提问于2014-02-17
得票数 1
1
回答
如何从另一个抓取蜘蛛开始
、
、
、
我在一个
Scrapy
项目中有两个蜘蛛。Spider1爬行页面列表或整个网站并分析内容。Spider2使用Splash在谷歌上获取URL,并将该列表传递给Spider1。因此,无需Spider2调用即可使用Spider1对内容进行爬行和分析from
scrapy
.spiders import CrawlSpider name = "spider1"
浏览 7
提问于2017-07-25
得票数 3
回答已采纳
1
回答
linux上的shell脚本
、
、
nohup
scrapy
crawl f & wait $!nohup
scrapy
crawl h & wait $!nohup
scrapy
crawl i & nohup
scrapy
crawl k & wait $
浏览 2
提问于2012-11-03
得票数 2
回答已采纳
2
回答
无法从AWS Lambda上的
Scrapy
获得结果
、
、
、
、
我用python库构建了一个
爬虫
。在本地运行时,它工作得非常完美和可靠。我试图将它移植到AWS lambda (我已经对它进行了适当的打包)。然而,当我运行它时,当爬行运行时,进程不会被阻塞,而是在
爬虫
返回之前完成,没有给出结果。这是我在日志退出前从日志中取出的最后一行:[] 2018-09-12 18:58:07 [
scrapy
.core.engine] INFO: Spider
浏览 0
提问于2018-09-12
得票数 4
回答已采纳
1
回答
twitter好友爬行器
、
是否有可能根据友谊信息为twitter编写一个
爬虫
? 我环顾四周,但至今没有发现任何有用的东西。谢谢莱拉
浏览 1
提问于2011-03-17
得票数 0
1
回答
网络抓取与坏的wifi:我可以让我的抓取‘上线’再次?
、
我正在为10.000+网页做一个很大的python抓取,这花了我几个小时的时间。如果我在这个过程中断开了与互联网连接,我的脚本就会停止,当wifi再次连接起来时,它不会重新连接。
浏览 1
提问于2015-04-29
得票数 0
1
回答
集成Django Rest
框架
和
Scrapy
、
、
、
Scrapy
和Django
框架
都是独立的最好的Python
框架
,可以用更少的代码构建
爬虫
和web应用程序,尽管如此,当你想要创建爬行器时,你总是必须生成新的代码文件,并且必须编写相同的代码段(尽管有一些变化这可以让你在不写多个文件的情况下创建
爬虫
。我认为Crawlrunner https://docs.
scrapy
.org/en/latest/topics/practices.html在这方面会有所帮助,因此我也尝试了一下Eas
浏览 16
提问于2019-06-15
得票数 4
1
回答
如何使用ASP核心运行
爬虫
、服务交互和生命周期问题
、
、
我用ASP Core3.1应用程序开发了一个网络
爬虫
。其根本原因是,尽管应用程序作为一个整体被设计为一个API (用于启动
爬虫
、停止它、获取一些爬行数据),但这些服务在后台运行的时间比API请求甚至会话长得多。我知道Singleton模式会导致问题,但是我没有更好的方法来运行这个
爬虫
。我应该期待哪些问题,是否有更合适的方法来设计这些服务?
浏览 3
提问于2020-03-03
得票数 0
回答已采纳
1
回答
弹性豆杆不运行的克隆约伯
、
、
、
、
source /opt/python/run/venv/bin/activate PATH=$PATH:/usr/local/
浏览 0
提问于2015-04-13
得票数 0
2
回答
使用
scrapy
python的.net
框架
、
、
、
可以在Python
框架
中使用.NET
框架
从不同的站点抓取数据吗?我正在做我的最后一年的项目,在这个项目中,我想使用C#作为前端语言,并使用Python来抓取数据。
浏览 0
提问于2014-05-07
得票数 4
1
回答
从python Django的角度来看,bot与
爬虫
程序不同吗?
、
、
、
、
我正在研究
scrapy
,我认为它是为了抓取网站和提取一些数据。 但我想做一些python程序,它的功能与实际用户类似。我的意思是像自动化任务。我可以用
scrapy
来做这件事吗,或者我们有其他的库来做这类任务。
浏览 3
提问于2012-11-13
得票数 3
回答已采纳
1
回答
抓取完成后重新启动crawler
当我的
Scrapy
爬虫
完成后,我想自动再次启动相同的
爬虫
。这可以通过
Scrapy
函数来完成吗?或者我是否必须使用Cronjob,例如crontab?
浏览 3
提问于2013-10-23
得票数 1
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券