腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
CrawlerProcess
的
Scrapy
无限
循环
、
我目前运行
的
是
Scrapy
v2.5,我想运行
无限
循环
。我
的
代码: class main(): mongo = mongodb(setting__name__ == "__main__": while True: process =
CrawlerProce
浏览 57
提问于2021-05-10
得票数 0
1
回答
在一个进程中运行多个爬行器--没有保存输出数据
、
、
、
尝试
使用
Scrapy
创建货币解析器。创建了两个蜘蛛,如果它们单独运行,它们可以正常工作。尝试为每个进程运行两个爬行器-在输出中不提供任何数据。无论是否尝试将其保存到txt、json或数据库。
使用
MySQL数据库。 但是在每个进程中运行一个爬虫--成功地保存了数据。将数据保存到数据库或其他任何位置
的
唯一方法是运行
scrapy
crawl Liga &&
scrapy
crawl IFinance。主要
的
爬虫代码: from
scrapy
.
浏览 12
提问于2019-04-25
得票数 0
回答已采纳
1
回答
如何让
Scrapy
在python项目中爬行?
、
我有一个个人项目,它导致我
使用
Selenium,以便从一对私人邮件,密码夫妇那里获得一个公共url地址。 我想在这个url上保存信息,我按照
Scrapy
教程学习了如何
使用
这个工具。但是,有没有一种方法可以在MyScrapClass.crawl()这样
的
Python项目中启动爬行,而不是
使用
linux命令
scrapy
crawl MyScrapProject?
浏览 1
提问于2016-03-21
得票数 0
1
回答
我可以在项目目录之外执行
scrapy
(python)爬行吗?
、
、
、
文档说我只能在项目目录中执行爬网命令:但我真的需要在我
的
python代码中执行它( python文件不在当前项目目录中)#!', 'project.settings') from
scrapy
.conf import settings from
sc
浏览 2
提问于2012-03-02
得票数 1
回答已采纳
1
回答
使用
scrapy
检测
无限
爬行页和爬行
、
、
我正在尝试抓取所有的网址从一个网站
使用
刮除。但是网站中
的
一些页面有
无限
的
滚动,并且爬行
的
数据是不完整
的
。所
使用
的
代码是from
scrapy
.linkextractors import LinkExtractor 'url': response.url,
浏览 3
提问于2022-06-08
得票数 0
回答已采纳
1
回答
如何为
CrawlerProcess
Scrapy
中
的
两种不同
的
蜘蛛指定不同
的
进程设置?
、
、
、
我
使用
CrawlerProcess
实例及其crawl方法来解决这个问题。但是,我希望为同一进程中
的
每个蜘蛛指定不同
的
输出文件,即FEED_URI 。我试图
循环
蜘蛛并运行它们,如下所示。虽然生成了两个不同
的
输出文件,但进程在第二个蜘蛛完成执行后立即终止。如果第一个蜘蛛在第二个蜘蛛之前完成爬行,我将得到所需
的
输出。但是,如果第二个蜘蛛先完成爬行,那么它就不会等待第一个蜘蛛完成。from
scrapy
.utils.project import get_pro
浏览 1
提问于2020-06-18
得票数 1
4
回答
scrapy
日志处理程序
、
、
我在以下两个问题上寻求您
的
帮助-如何像在python中那样为不同
的
日志级别设置处理程序。目前,我有STATS_DUMP = True 但是
Scrapy
生成
的
调试消息也会添加到日志文件中。这些都是非常长
的
和理想
的
,我希望调试级别的消息留下
的
标准错误和信息消息被转储到我
的
LOG_FILE。其次,在文档中,它说The logging servic
浏览 2
提问于2011-11-30
得票数 4
回答已采纳
1
回答
运行刮除蜘蛛
的
多个进程
、
我有一个
Scrapy
项目,它从数据库中读取100万个产品ID,然后根据一个网站
的
ID开始刮取产品详细信息。我想运行10个Spider实例,每个实例分配相同数量
的
产品ID。FROM product_ids,然后除以10,然后执行我有一个想法,我可以在终端中通过在刮擦命令中传递LIMIT,比如
scrapy
但是我想在蜘蛛里做,所以我只运行了一次蜘蛛,然后它在蜘蛛体内运行了10个相同
的
蜘蛛
浏览 0
提问于2016-10-13
得票数 1
1
回答
如何在列表<li>
的
最后一个元素之前选择
Scrapy
的
xpath?
、
、
、
我在
使用
分页时遇到了一个问题,页面没有一个特定
的
标签或属性作为下一页按钮(在网站底部),我意识到我没有得到所有的数据。我如何选择前一位?def parse_items(自,响应):response.xpath(self.getAllItemsXpath)中
的
href : url = response.urljoin(href.extract())
浏览 2
提问于2022-05-04
得票数 0
回答已采纳
1
回答
如何运行并保存python脚本中
的
scrapy
状态
、
、
、
、
在
scrapy
项目中,我们可以通过为eg设置JOBDIR来定义作业目录,从而获得持久性支持。
scrapy
crawl somespider -s JOBDIR=crawls/somespider-1 但是,如何在
使用
scrapy
.crawler.
CrawlerProcess
从python脚本运行蜘蛛时也这样做,如中所回答
的
那样
浏览 0
提问于2018-05-03
得票数 2
回答已采纳
1
回答
Scrapy
CrawlerProcess
不
使用
代理
、
、
我创建了一个
使用
scrapy
,splash和proxy
的
爬虫。# -*- coding: utf-8 -*-from
scrapy
_splash import SplashRequest from
scrapy
.crawlercrawl ads_spi
浏览 1
提问于2021-09-20
得票数 1
2
回答
从python脚本调用
scrapy
而不是创建JSON输出文件
、
、
、
下面是我用来调用
scrapy
的
python脚本,答案是 reactor.stop()from
scrapy
import log,signals from
scrapy
.contrib.exporter import JsonItemExporterfrom
scrapy
.xlib.pydispatch import dispatche
浏览 4
提问于2013-03-19
得票数 3
3
回答
如何在Jupyter中运行
Scrapy
项目?
、
、
在苹果电脑上,我安装了Jupyter,当我在
Scrapy
项目的根文件夹中输入jupyter notebook时,它会打开笔记本。此时,我可以浏览所有的项目文件。There are no terminals running.
浏览 74
提问于2016-11-29
得票数 11
1
回答
我怎么叫刮痕从气流达格?
、
我
的
刮刮项目
使用
'
scrapy
爬行spider_1‘命令运行得非常好。如何从气流达格触发它(或调用报废命令)?with DAG(<args>) as dag: task_id='
scrapy
', task_3 = ()
scrapy
_task >>
浏览 2
提问于2022-05-11
得票数 2
2
回答
如何在asyncio甚至
循环
内运行
scrapy
spider?
、
有没有办法在asyncio
循环
中运行
scrapy
spider?例如,在以下代码中:from
scrapy
.crawler import
CrawlerProcess
import
scrapy
process =
CrawlerProcess
() await process.crawl(MySpider)loop = async
浏览 1
提问于2017-12-04
得票数 5
1
回答
从Flask路由开始
scrapy
、
、
我想建立一个爬虫,需要抓取网页
的
网址,并将结果返回给一个网页。现在,我从终端启动
scrapy
并将响应存储在一个文件中。当一些输入发布到Flask、处理并返回响应时,我如何启动爬虫?
浏览 1
提问于2015-07-24
得票数 5
1
回答
使用
python抓取网页
、
、
、
非常感谢你
的
帮助。我试图抓取一个网页,部分代码如下所示。但是我得到了错误。非常感谢你
的
帮助。 # -*- coding: utf-8 -*-from
scrapy
import cmdlineimport pandas as pd name = 'gofund' cmdline.execute('
scrap
浏览 30
提问于2020-03-29
得票数 0
1
回答
从脚本运行
Scrapy
-挂起
、
我正在尝试从脚本中运行
scrapy
,就像讨论
的
一样。它建议
使用
代码片段,但当我这样做时,它会
无限
期地挂起。这是在.10版本中写回
的
;它仍然与当前
的
稳定版本兼容吗?
浏览 1
提问于2011-06-27
得票数 7
回答已采纳
2
回答
如何将自定义参数(如-o)传递给抓取爬虫
、
我目前正在从事python2.7/
Scrapy
1.8项目。我在码头集装箱内工作,并
使用
import
scrapy
process.crawl(similartechSpider.Simi
浏览 3
提问于2020-04-20
得票数 0
3
回答
在
scrapy
中为1个网站并行运行多个爬虫?
、
、
、
、
我想抓取一个网站与2部分,我
的
脚本不是那么快,我需要
的
。
scrapy
crawl firstSpider但我认为这并不明智。我读了,但我不知道它是否对我
的
情况有好处。
浏览 2
提问于2016-09-07
得票数 6
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Scrapy框架的使用之Scrapy入门
Scrapy框架的使用之Scrapy通用爬虫
Scrapy框架的使用之Scrapy爬取新浪微博
关注MCU 开发中的无限循环
ae循环表达式:让你的视频特效无限循环
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券