前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一键下载掌盟文章

一键下载掌盟文章

作者头像
老肥码码码
发布2020-01-17 11:21:30
5290
发布2020-01-17 11:21:30
举报

爬了不少网页,还没试过app,今天就来实战一下吧!本次目标是爬取掌上英雄联盟app的文章,需要备有Fiddler,MongoDB(可选),一个安装了掌上英雄联盟的手机。

苹果手机抓包配置

俗话说工欲善其事,必先利其器,在抓包之前我们需要完成相关的配置。首先我们需要在电脑上下载并安装好Fiddler,安装之后点Tools 中的Options菜单,按照下图设置HTTPS:

勾选忽略证书错误选项,并且修改Connections,选中允许远程连接

接下来是手机端的配置,最简单的一个做法是让手机和电脑处于同个网络中,打开手机连接的无线网进行配置,将电脑的ip地址填入服务器位置,端口输入和Fiddler一致的端口8888。

然后打开手机浏览器,在地址栏输入电脑的ip地址加上端口号,进行证书的安装。

分析并抓取文章

打开掌盟,并用Fiddler抓包,观察发现包含文章的连接就是下面选中的这个,我们继续滑动掌盟,不断刷新文章。

结果发现,这些参数依然不变,plat是平台,version和areaid这两个参数没有发现是什么作用,并且最重要的是所有文章的信息都包含在上图的链接之中。

在这个json中包含了所有文章的全部信息,再进入其中的article_url可以看到文章的内容。接下来,就交给我们的老朋友requests吧!

将所有文章的基本数据入库存储,接下来便可以用pdfkit这个第三方库,将url链接转换成pdf,下载到本地,以备随时查看。pdfkit的使用需要下载wkhtmltopdf安装包,并且安装到电脑上。

这里加入了一定的时延,以免无法及时转换成pdf而报错。

这些攻略要闻,更新改动就全部存储在本地啦~

喜欢就点个赞吧❤

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-07-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 算法与数据之美 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云数据库 MongoDB
腾讯云数据库 MongoDB(TencentDB for MongoDB)是腾讯云基于全球广受欢迎的 MongoDB 打造的高性能 NoSQL 数据库,100%完全兼容 MongoDB 协议,支持跨文档事务,提供稳定丰富的监控管理,弹性可扩展、自动容灾,适用于文档型数据库场景,您无需自建灾备体系及控制管理系统。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档