首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

一个Scrapy项目下的多个爬虫如何同时运行?

我们知道,如果要在命令行下面运行一个 Scrapy 爬虫,一般这样输入命令: scrapy crawl xxx 此时,这个命令行窗口在爬虫结束之前,会一直有数据流动,无法再输入新的命令。...我们也知道,可以通过两条Python 代码,在 Python 里面运行 Scrapy 爬虫: from scrapy.cmdline import execute execute('scrapy crawl...get_project_settings settings = get_project_settings() crawler = CrawlerProcess(settings) crawler.crawl...('爬虫名1') crawler.crawl('爬虫名2') crawler.crawl('爬虫名3') crawler.start() 使用这种方法,可以在同一个进程里面跑多个爬虫。...('exercise') crawler.crawl('ua') crawler.start() crawler.start() 运行效果如下图所示: ?

2.5K10

pyspider的使用

下载地址:https://phantomjs.org/dowmload.html 官方API地址:http://www.pyspider.cn/book/pyspider/self.crawl-16....crawl_config = {}表示全局的配置,比如可以之前学的那样,定义一个headers @every(minutes=24 * 60)every属性表示爬取的时间间隔,minutes=24*60...on_start方法:是爬取的入口,通过调用crawl方法来发送请求, callback=self.index_page:callback表示回调函数,也就是说将请求的结果交给index_page来处理...crawl的其他参数: exetime:表示该任务一个小时候执行 self.crawl('http://maoyan.com/board/4', callback=self.detail_page,exetime...,params={'a':'123','b':'456'}) data:post的表单数据,同样是以字典的形式 files:上传文件 self.crawl('http://maoyan.com/board

79420
领券