公众号＋增量爬虫开发分享

文章来源：企鹅号 - 七夜安全博客

公众号开发分享

前言

当然今天说的不是公众号大白的开发，而是我又开发了一个电影公众号，名字叫老铁电影趴，是一个专注分享电影资源的平台，文章底部有二维码。

第一节

开发这个公众号，主要是来自微信公众后台朋友的提问，有个朋友的问题真的很有意思，他问爬虫能干什么，能不能举个例子。我现在想说朋友，我已经回答你了，爬虫主要用来作为数据源，提供大量的数据，从而完成更加实用的功能。我这个公众号的电影数据源就是从互联网上爬取下来的，自己编写的爬虫，每日定时更新数据，一些较新的电影资源都会看到(侵权的话通知我删)，主要是玩玩，给大家提供一些案例，喜欢的话就关注一下，当然你也可以分享给你的朋友们。

第二节

爬取电影天堂

公众号的开发，我就不讲了，上一篇文章已经讲了很多SDK，看着SDK开发文档，很容易就可以做出来，没什么技术含量。现在我们主要说一下数据源爬虫的开发，目标是电影天堂，使用的是scrapy框架编写的。

如果大家之前看过我的书，很容易理解接下来的内容。

这次比较特别的地方是咱们要写一个增量的爬虫：重复的标准不再是url，而是url+更新时间，因为一部电视剧有很多集，但是页面链接还是一个，每次更新是在原来页面上更新的，所以不能依靠url来去重。

然后在启动爬虫后，从电影列表中抓取电影url与更新时间，如果url+更新时间不在集合中，则进行电影详情页的爬取。

需要说明地方也就这一点，scrapy爬虫的编写，我在我的书中已经写的比较详细了，这里不再赘述，完整代码放到了github :https://github.com/qiyeboy/LuLunZi。

下面我贴一下主要的代码截图，方便大家在微信里看。

数据的存储使用的是mongodb

网页解析，清洗部分的代码有点长，这就不截图了，大家可以去github中下载。

最后来个运行效果图，有图有真相。

数据存储截图：

第三节

老铁电影趴二维码

发表于: 2017-12-092017-12-09 17:49:40
原文链接：http://kuaibao.qq.com/s/20171209G0HK7T00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

公众号＋增量爬虫开发分享

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐