前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爬虫|使用python爬取微信公众号全部的文章(永久链接)——技术难点

爬虫|使用python爬取微信公众号全部的文章(永久链接)——技术难点

作者头像
黄小怪
发布2018-05-21 16:20:03
2.2K0
发布2018-05-21 16:20:03
举报
文章被收录于专栏:小怪聊职场小怪聊职场

前一篇文章我利用Anyproxy爬取微信公众号文章及临时链接转永久链接,这个方法可以获取到文章的点赞数,阅读数之类的信息。如果你的需求只是需要获取某个微信公众号的所有文章,并且文章的链接是永久链接,那么看看我这篇文章上介绍的方法吧。

一、先说破解之道

破解的关键就是利用微信公众号后台素材管理-新建图文素材-超链接-查找文章(公众号)的接口。如下图:

进入微信公众号后台-素材管理-新建图文素材-新建图文消息

超链接-查找文章(公众号)

二、具体破解方法

2.1 通过selenium+webdriver获取公众号的Cookie

因为在公众号后台请求“查找文章(公众号)”接口时需要一个微信公众号的Cookie,所以在爬文章内容之前需要先获取一个可用的Cookie。这块相对来说比较简单,我就直接贴上我写的代码。PS:尽情优化完善吧。

获取Cookie

2.2 通过微信公众号获取公众号文章接口获取文章

1)微信公众号登陆地址:https://mp.weixin.qq.com/

2)登录之后获取token。

3)利用微信公众号后台新建图文消息,搜索公众号名称,需要上一步的token。

搜索公众号

并且通过接口返回的内容获取公众号的fakeid。

获取公众号的fakeid

4)选定要爬取的公众号,获取文章接口地址,需要上一步的fakeid。

5)文章列表翻页及内容获取。

文章列表第一页

翻页和内容

三、完整代码

完成代码

四、这个可是技术难点呢,点个赞呗

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017.10.12 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档