专栏首页小怪聊职场爬虫|使用python爬取微信公众号全部的文章(永久链接)——技术难点

爬虫|使用python爬取微信公众号全部的文章(永久链接)——技术难点

前一篇文章我利用Anyproxy爬取微信公众号文章及临时链接转永久链接,这个方法可以获取到文章的点赞数,阅读数之类的信息。如果你的需求只是需要获取某个微信公众号的所有文章,并且文章的链接是永久链接,那么看看我这篇文章上介绍的方法吧。

一、先说破解之道

破解的关键就是利用微信公众号后台素材管理-新建图文素材-超链接-查找文章(公众号)的接口。如下图:

进入微信公众号后台-素材管理-新建图文素材-新建图文消息

超链接-查找文章(公众号)

二、具体破解方法

2.1 通过selenium+webdriver获取公众号的Cookie

因为在公众号后台请求“查找文章(公众号)”接口时需要一个微信公众号的Cookie,所以在爬文章内容之前需要先获取一个可用的Cookie。这块相对来说比较简单,我就直接贴上我写的代码。PS:尽情优化完善吧。

获取Cookie

2.2 通过微信公众号获取公众号文章接口获取文章

1)微信公众号登陆地址:https://mp.weixin.qq.com/

2)登录之后获取token。

3)利用微信公众号后台新建图文消息,搜索公众号名称,需要上一步的token。

搜索公众号

并且通过接口返回的内容获取公众号的fakeid。

获取公众号的fakeid

4)选定要爬取的公众号,获取文章接口地址,需要上一步的fakeid。

5)文章列表翻页及内容获取。

文章列表第一页

翻页和内容

三、完整代码

完成代码

四、这个可是技术难点呢,点个赞呗

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 管理|一次产品迭代的完整计划第一步:整理BUG第二步:需求同步第三步:需求评审第四步:执行计划第五步:进入研发第六步:交付验收第七步:发布验收第八步:正式发布

    黄小怪
  • 爬虫课程(十一)|知乎:使用Scrapy模拟登录知乎

    黄小怪
  • Java|网络IO之同步、异步、阻塞、非阻塞

    黄小怪
  • [C#]实现任何数据库类型的DbHelper帮助类 使用C#创建SQLite控制台应用程序

    我们可以看到,在此类中,有很多用于创建数据库相关对象的类型,如DbConnection,DbCommand,DbDataAdapter等。

    CNXY
  • MySQL学习笔记

    (MySQL官网下载地址:http://dev.mysql.com/downloads/mysql/)

    Mirror王宇阳
  • sql语句查oracle版本号

    bboy枫亭
  • 元宵快乐:看SQL大师们用SQL绘制的团圆

    题记:在多年以前,论坛活跃的时代,在ITPUB上你能看到各种新奇有趣的知识,及时新鲜的信息,出类拔萃的技巧,有很多让人多年以后还记忆犹新。 这个帖子让我忍不住在...

    数据和云
  • 元宵佳节:看Oracle技术粉们用SQL画团圆

    话团圆,画团圆,元宵佳节倍思亲,可是大家知道吗,万能的SQL可以帮助大家绘制团圆。 在ITPUB论坛里,一群SQL爱好者们会用SQL来描摹一切可能。请看如下这段...

    数据和云
  • 去哪儿网春招开发面试经历

    牛客网
  • python计算机视觉编程——第一章(基

    PIL(Python Imaging Library,图像处理库)提供了通用的图像处理功能,以及大量有用的基本图像操作。PIL库已经集成在Anaconda库中,...

    py3study

扫码关注云+社区

领取腾讯云代金券