首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

一个Scrapy项目下的多个爬虫如何同时运行?

我们知道,如果要在命令行下面运行一个 Scrapy 爬虫,一般这样输入命令: scrapy crawl xxx 此时,这个命令行窗口在爬虫结束之前,会一直有数据流动,无法再输入新的命令。...我们也知道,可以通过两条Python 代码,在 Python 里面运行 Scrapy 爬虫: from scrapy.cmdline import execute execute('scrapy crawl...get_project_settings settings = get_project_settings() crawler = CrawlerProcess(settings) crawler.crawl...('爬虫名1') crawler.crawl('爬虫名2') crawler.crawl('爬虫名3') crawler.start() 使用这种方法,可以在同一个进程里面跑多个爬虫。...('exercise') crawler.crawl('ua') crawler.start() crawler.start() 运行效果如下图所示: ?

2.5K10

爬虫篇| pyspider 爬取链家网(八)

self.crawl(url, callback=self.index_page)是最重要的接口。它会添加一个新的待爬取任务。大部分的设置可以通过self.crawl的参数去指定。...@config(age=10 * 24 * 60 * 60)指定当self.crawl爬取的页面类型为index_page(当callback=self.index_page)时的age参数的默认值。...参数age可以通过self.crawl(url, age=102460*60)和crawl_config来指定,直接在方法参数中指定具有最高的优先级。...注意点 : 在使用self.crawl 函数时必须加上validate_cert=False 保证能够爬取https,不然会报599,SSL 错误解决办法 想要爬取js生成的东西,需要使用PhantomJS...在重新crawl方法,我们可以看出title和url的输出,说明没有问题 ? 对于pyspider还有一个简介的方法就是通过css选择器来获取对应的css路径,从下面可以看出代码没有问题 ?

1.5K51
领券