公众号+增量爬虫开发分享

公众号开发分享

前言

当然今天说的不是公众号大白的开发,而是我又开发了一个电影公众号,名字叫老铁电影趴,是一个专注分享电影资源的平台,文章底部有二维码

第一节

开发这个公众号,主要是来自微信公众后台朋友的提问,有个朋友的问题真的很有意思,他问爬虫能干什么,能不能举个例子。我现在想说朋友,我已经回答你了,爬虫主要用来作为数据源,提供大量的数据,从而完成更加实用的功能。我这个公众号的电影数据源就是从互联网上爬取下来的,自己编写的爬虫,每日定时更新数据,一些较新的电影资源都会看到(侵权的话通知我删),主要是玩玩,给大家提供一些案例,喜欢的话就关注一下,当然你也可以分享给你的朋友们

第二节

爬取电影天堂

公众号的开发,我就不讲了,上一篇文章已经讲了很多SDK,看着SDK开发文档,很容易就可以做出来,没什么技术含量。现在我们主要说一下数据源爬虫的开发,目标是电影天堂,使用的是scrapy框架编写的。

如果大家之前看过我的书,很容易理解接下来的内容。

这次比较特别的地方是咱们要写一个增量的爬虫:重复的标准不再是url,而是url+更新时间,因为一部电视剧有很多集,但是页面链接还是一个,每次更新是在原来页面上更新的,所以不能依靠url来去重。

然后在启动爬虫后,从电影列表中抓取电影url与更新时间,如果url+更新时间不在集合中,则进行电影详情页的爬取。

需要说明地方也就这一点,scrapy爬虫的编写,我在我的书中已经写的比较详细了,这里不再赘述,完整代码放到了github :https://github.com/qiyeboy/LuLunZi。

下面我贴一下主要的代码截图,方便大家在微信里看。

数据的存储使用的是mongodb

网页解析,清洗部分的代码有点长,这就不截图了,大家可以去github中下载。

最后来个运行效果图,有图有真相。

数据存储截图:

第三节

老铁电影趴二维码

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20171209G0HK7T00?refer=cp_1026

扫码关注云+社区