pyspider最佳实践

pyspider是好东西,非常稳定,很久很久以前架了一个,心冷了一段时间,但人家尽忠职守地持续运行,一直在抓取东西。

结合chrome,抓取代码简直不要太好写,没想到,最头大的,还是它的调度。明明感觉没问题的,就是不运行。在这个上面花的时间,比页面解析的要多。所以,把近期的学习心得记录下来:

第一、控制台的含义。rate/burst控制并发和速度基本不用管。progress现实近期调用次数可以参考一下。我用得最多的是左上角的Recent Active Tasks,可以查看究竟运行了几个爬虫任务(对应self.crawl)

第二、几个重要控制设置。@every(minutes=24*60)是指的运行间隔。@config(age=300)指的页面周期(单位秒),周期范围内将不执行抓取。

第三、我的需求,是对一些固定页面(已经存在库中了)进行定时检查,解析出链接,已经入库的老链接忽略,新链接入库。所以,不采用默认的start页面进入总页面,解析出一组分页面链接,再分别调用分页面的方式。而直接在start中启动所有分页面,分页面设置有效期,定期自动重新获取。而start每天重入一次,保证链接活动即可。如下:

补充一下,如果设定了重新刷新的间隔,那么——这个间隔很难修改,哪怕把服务器上pyspider关了,重开,还是原来的间隔。最后没办法,只能新建一个项目,把代码复制过去才ok!

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

干货 | 收藏!16段代码入门Python循环语句

作者 | 李明江 张良均 周东平 张尚佳,本文摘编自《Python3智能数据分析快速入门》

15530
来自专栏算法与编程之美

算法 | KMP字符串匹配

Python字符串str是在Python编写程序过程中,最常见的一种基本数据类型。字符串是许多单个子串组成的序列,其主要是用来表示文本。字符串是不可变数据类型,...

12620
来自专栏.NET技术与企业级解决方案

C#2.0新增功能05 迭代器

  迭代器方法或 get 访问器可对集合执行自定义迭代。 迭代器方法使用 yield return 语句返回元素,每次返回一个。 到达 yield return...

6950
来自专栏完美Excel

Python学习笔记:创建Python开发Web程序的虚拟环境

这段时间利用业余时间在断断续续地看Eric Matthes著的《Python编程从入门到实践》这本书,毫不夸张地说,这真的是一本不可多得的好书,将Python从...

7910
来自专栏公众号:googpy

连淘宝评价都不会爬,也敢说自己会爬虫

自从上次写了一篇教师节送什么?Python教你挑选礼物,让我对淘宝的其他信息产生了产生了很大的兴趣,所以,利用中秋节假期研究了下怎么爬取淘宝商品评价。

51220
来自专栏从零开始学自动化测试

python测试开发django-63.基于函数的视图(@api_view())

上一篇讲了基于类的视图,在REST framework中,你也可以使用常规的基于函数的视图。它提供了一组简单的装饰器,用来包装你的视图函数, 以确保视图函数会收...

20740
来自专栏二狗的DBA之路

python操作数据库

下载地址:https://pypi.python.org/pypi/MySQL-python/1.2.5 安装到系统即可。

8010
来自专栏二狗的DBA之路

干货!MySQL 资源大全

shlomi-noach 发起维护的 MySQL 资源列表,内容覆盖:分析工具、备份、性能测试、配置、部署、GUI 等。

16140
来自专栏志学Python

使用python实现UDP编程

UDP说自己太难了,没想到最后是一个舔狗。一般我们讲技术的时候,都是讲太多理论,搞得我们一脸懵逼,今天我们不这样做,我们直接讲一个生动的例子来讲讲 UDP

14820
来自专栏python前行者

jpype._jvmfinder.JVMNotFoundException: No JVM shared library file

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

30140

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励