爬虫也就是网络爬虫(Web Spider)。翻译过来就是在网络上爬行的蜘蛛,这时候如果把互联网看成是一张大网来的话,那么爬虫就是在大网上爬来爬去的蜘蛛,根据想要的东西,就将它提取出来。
通常爬虫是从某个网站的某个页面开始的,爬取这个页面的内容,找到页面中的其他的链接地址,然后从这个地址爬到下一个页面,这样一直不停的爬下去,就可以做到批量的信息的抓取,那么我们就可以将网络爬虫看成是一个不同爬取网页提取网页信息的程序。
取效率提升方法:
增加并发
默认scrapy开启的并发线程的个数是32个,可以适当的进行增加。在settings中进行设置CONCURRENT_REQUESTS=100
禁止cookie
如果不是真的需要cookie的话,可以在scrapy爬取的时候禁止cookie从而来减少CPU的使用率,提升爬取的效率,COOKIES_ENABLED=False
降低日志级别
在运行的时候,会有大量的日志信息的输出,为了减少CPU的使用率。可以设置log输出的信息是INFO或者是ERROR就可以了LOG_LEVEL=‘INFO’
禁止重试
对失败的HTTP进行重新的请求(重试)会减慢爬取的速度,因此可以禁止重试RETRY_ENABLED=False
减少下载超时
如果对一个非常慢的链接进行爬取,减少下载超时可以能让卡住的链接快速的被放弃,从而来提升效率DOWNLOAD_TIMEOUT=10
关于其他爬虫问题,可以直接访问云立方网查询哦。
领取专属 10元无门槛券
私享最新 技术干货