公众号+增量爬虫开发分享

第一节

为什么开发电影公众号laotiepa

开发这个公众号,主要是来自微信公众后台朋友的提问,有个朋友的问题真的很有意思,他问 爬虫能干什么,能不能举个例子。我现在想说朋友,我已经回答你了,爬虫主要用来作为数据源,提供大量的数据,从而完成更加实用的功能。我这个公众号的电影数据源就是从互联网上爬取下来的,自己编写的爬虫,每日定时更新数据,一些较新的电影资源都会看到(侵权的话通知我删),主要是玩玩,给大家提供一些案例,喜欢的话就关注一下,当然你也可以分享给你的朋友们

第二节

爬取电影天堂

公众号的开发,我就不讲了,上一篇文章已经讲了很多SDK,看着SDK开发文档,很容易就可以做出来,没什么技术含量。现在我们主要说一下数据源爬虫的开发,目标是电影天堂,使用的是scrapy框架编写的。

如果大家之前看过我的书,很容易理解接下来的内容。

这次比较特别的地方是咱们要写一个增量的爬虫:重复的标准不再是url,而是url+更新时间,因为一部电视剧有很多集,但是页面链接还是一个,每次更新是在原来页面上更新的,所以不能依靠url来去重。

然后在启动爬虫后,从电影列表中抓取电影url与更新时间,如果url+更新时间不在集合中,则进行电影详情页的爬取。

需要说明地方也就这一点,scrapy爬虫的编写,我在我的书中已经写的比较详细了,这里不再赘述,完整代码放到了github :https://github.com/qiyeboy/LuLunZi。

下面我贴一下主要的代码截图,方便大家在微信里看。

数据的存储使用的是mongodb

网页解析,清洗部分的代码有点长,这就不截图了,大家可以去github中下载。

最后来个运行效果图,有图有真相。

数据存储截图:

原文发布于微信公众号 - 七夜安全博客(qiye_safe)

原文发表时间:2017-12-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏飞雪无情的博客

飞雪无情的博客Go语言、Android相关的十大热门文章

对于很多人来说,可能不明白我为什么写博客,写博客对于我来说,可能就像大家看电影一样,有时间就看看(写写)。对于我自己也是一些东西的总结,有时候通过写,才能加深理...

651
来自专栏极乐技术社区

小程序一周报 | 小程序广告组正式启动内测 / 企业微信与微信消息互通开启内测

972
来自专栏非著名程序员

十大技巧快速提升原生APP开发性能

移动应用市场用户争夺战日益激烈,原来做APP拼想法拼创意拼是否抓住用户痛点。现在,精细化用户体验成为了一个APP能否留存用户的关键问题,一旦用户觉得体验不畅,马...

18810
来自专栏爬虫技术

python爬虫-2018那年我破解了天眼查

2017年我自己写代码开发了各种爬虫系统,喜欢破解各种网站验证码,cookie加密,采集数据被封ip技术,从事了5年多php和python技术研发工作,破解过天...

9250
来自专栏架构师之路

互联网公司研发RD如何撰写总体设计与详细设计文档

研发工程师(RD)需要撰写的设计文档主要分为:总体设计文档 + 详细设计文档,后简称为“总设”+“详设”。 总设和详设都应该包含的部分: (1) 需求:一般以产...

4837
来自专栏phodal

RePractise: 从真实世界到前后端的设计

RePractise终于又迎来了新的一篇,要知道上一篇可是在半年前呢——《Repractise前端篇: 前端演进史》。照RePractise惯例,这又是一篇超长...

1807
来自专栏黑白安全

Autho 身份验证出现漏洞,致使企业遭受攻击

Auth0 是最大的身份即服务平台之一,近日被爆出存在严重身份验证绕过漏洞,该漏洞可能被攻击者利用访问任何门户或应用程序进行身份验证。Auth0 为大量平台实施...

812
来自专栏我就是马云飞

2018 年前端开发五大趋势

对于开发者而言,2017出奇的高效,不过2018年有望为IT领域带来更多发展。本文中,为了处理项目时紧跟潮流,我们会描述出每个前端编程人都需要关注的2018年J...

564
来自专栏张善友的专栏

微软开源 WCF 分布式服务框架,并入 .NET 基金会项目

微软北京时间2015.5.20 在其 .NET Foundation GitHub 开源项目页中开放了 WCF 分布式服务框架的代码。WCF突然之间成为一个热门...

2116
来自专栏鸿的学习笔记

分布式系统下的数据复制

这是关于分布式系统下的数据的思考,对于这个思维导图,重点在于单leader的分布式复制方式,因为这个是最好实现的,而且不会遇上并发写的困境,其他的不仅会遇上时...

655

扫码关注云+社区