开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >公众号＋增量爬虫开发分享

公众号＋增量爬虫开发分享

企鹅号小编

发布于 2018-01-05 14:57:30

1.4K0

发布于 2018-01-05 14:57:30

举报

文章被收录于专栏：企鹅号快讯

第一节

开发这个公众号，主要是来自微信公众后台朋友的提问，有个朋友的问题真的很有意思，他问爬虫能干什么，能不能举个例子。我现在想说朋友，我已经回答你了，爬虫主要用来作为数据源，提供大量的数据，从而完成更加实用的功能。我这个公众号的电影数据源就是从互联网上爬取下来的，自己编写的爬虫，每日定时更新数据，一些较新的电影资源都会看到(侵权的话通知我删)，主要是玩玩，给大家提供一些案例，喜欢的话就关注一下，当然你也可以分享给你的朋友们。

第二节

爬取电影天堂

公众号的开发，我就不讲了，上一篇文章已经讲了很多SDK，看着SDK开发文档，很容易就可以做出来，没什么技术含量。现在我们主要说一下数据源爬虫的开发，目标是电影天堂，使用的是scrapy框架编写的。

如果大家之前看过我的书，很容易理解接下来的内容。

这次比较特别的地方是咱们要写一个增量的爬虫：重复的标准不再是url，而是url+更新时间，因为一部电视剧有很多集，但是页面链接还是一个，每次更新是在原来页面上更新的，所以不能依靠url来去重。

然后在启动爬虫后，从电影列表中抓取电影url与更新时间，如果url+更新时间不在集合中，则进行电影详情页的爬取。

需要说明地方也就这一点，scrapy爬虫的编写，我在我的书中已经写的比较详细了，这里不再赘述，完整代码放到了github :https://github.com/qiyeboy/LuLunZi。

下面我贴一下主要的代码截图，方便大家在微信里看。

数据的存储使用的是mongodb

网页解析，清洗部分的代码有点长，这就不截图了，大家可以去github中下载。

最后来个运行效果图，有图有真相。

数据存储截图：

本文来自企鹅号 - 七夜安全博客媒体

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文来自企鹅号 - 七夜安全博客媒体

如有侵权，请联系 cloudcommunity@tencent.com 删除。

评论

登录后参与评论

0 条评论

热度

最新

LV.

相关产品与服务

数据保险箱

数据保险箱（Cloud Data Coffer Service，CDCS）为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据，避免误删带来的损害，还可以将数据跨地域存储，防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入，实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载，最终实现数据的安全存储和提取。

产品介绍产品文档