我在Scrapy中有两个爬虫,它从网站上删除一些数据,然后最后存储在数据库(sqlite3)中。现在我想使用Django来管理。Django必须管理爬虫,即激活、停用、删除等。类似地,数据库中的数据将在Django的管理中列出。所有的爬虫都要从Django跑。到目前为止,我已经学习了如何在Django中使用自定义命令,但我还无法找到其余的部分。有人能帮我提个主意吗?我的代码是文档中的简单教程。我跟踪了这个链接
https://docs.djangoproject.com/en/1.6/intro/tutorial01/有人能帮我提个主意吗?这会是很大的帮助。谢谢你!!
发布于 2014-02-04 06:24:32
有两种方法可以同步或异步地管理这些爬虫。
同步意味着用户或管理命令正在执行类似于在抓取爬行命令中所做的事情,这种方法有三个缺点:
spider crawl ....要复杂得多异步意味着让启动程序(即user或django管理命令)让他轮询django数据库以获得答案或报告进度,这里的主要缺点是已启动的蜘蛛与等待的用户之间的通信,报告用户进度以及处理错误,即爬行站点关闭或更改其结构等等。
总之,这两个选项都是可能的,我更喜欢异步方式,保持刮伤装箱(甚至考虑使用scrapyd),并让用户轮询(ajax)来查看蜘蛛进程。
https://stackoverflow.com/questions/21544372
复制相似问题