爬虫|使用python爬取微信公众号全部的文章(永久链接)——技术难点

前一篇文章我利用Anyproxy爬取微信公众号文章及临时链接转永久链接,这个方法可以获取到文章的点赞数,阅读数之类的信息。如果你的需求只是需要获取某个微信公众号的所有文章,并且文章的链接是永久链接,那么看看我这篇文章上介绍的方法吧。

一、先说破解之道

破解的关键就是利用微信公众号后台素材管理-新建图文素材-超链接-查找文章(公众号)的接口。如下图:

进入微信公众号后台-素材管理-新建图文素材-新建图文消息

超链接-查找文章(公众号)

二、具体破解方法

2.1 通过selenium+webdriver获取公众号的Cookie

因为在公众号后台请求“查找文章(公众号)”接口时需要一个微信公众号的Cookie,所以在爬文章内容之前需要先获取一个可用的Cookie。这块相对来说比较简单,我就直接贴上我写的代码。PS:尽情优化完善吧。

获取Cookie

2.2 通过微信公众号获取公众号文章接口获取文章

1)微信公众号登陆地址:https://mp.weixin.qq.com/

2)登录之后获取token。

3)利用微信公众号后台新建图文消息,搜索公众号名称,需要上一步的token。

搜索公众号

并且通过接口返回的内容获取公众号的fakeid。

获取公众号的fakeid

4)选定要爬取的公众号,获取文章接口地址,需要上一步的fakeid。

5)文章列表翻页及内容获取。

文章列表第一页

翻页和内容

三、完整代码

完成代码

四、这个可是技术难点呢,点个赞呗

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ytkah

微信公众平台已发送多图文消息支持删除单篇文章

  去年11月份,微信公众号实现了发出去的微信图文消息删除后不再显示,现在微信公众平台推出新功能,已推送的多图文中突然发现某篇文章有误可以直接选择单篇文章进行删...

30650
来自专栏kevin-blog

ubuntu实现定时弹窗

最近在头条上看到,长期久坐8小时以上会影响生育能力,突然有点慌,作为一个IT工作者,8小时....然后我这人没有喝水的习惯,经常专注电脑,就想着,有没有什么办法...

16410
来自专栏BeJavaGod

什么是分布式系统中的幂等性

最近很多人都在谈论幂等性,好吧,这回我也来聊聊这个话题,光看着俩字,一开始的确有点一头雾水,语文不好嘛,词太专业嘛,对吧 现如今我们的系统大多拆分为分布式SOA...

37530
来自专栏Youngxj

html5 clear源码分享

35030
来自专栏网站漏洞修补

解决ecshop漏洞修补针对于外贸网站的漏洞修复

由于8月份的ECSHOP通杀漏洞被国内安全厂商爆出后,众多使用ecshop程序源码的用户大面积的受到了网站被篡改,最明显的就是外贸站点被跳转到一些仿冒的网站上去...

17750
来自专栏IT技术精选文摘

窥探Nginx内部实现:如何为性能和规模进行设计

NGINX在网络性能方面处于领先地位,这一切都是由于软件的设计方式。尽管许多Web服务器和应用程序服务器使用简单的线程或基于进程的架构,但NGINX具有复杂的事...

21250
来自专栏kevin-blog

介绍一个安卓远控木马

安全10月24日讯 新型安卓远程管理工具“AhMyth Android RAT”的源码出现在GitHub上,用户可在GitHub下载并测试这款RAT。今天就体验...

5.9K10
来自专栏黑白安全

美国 Comcast 网站因漏洞泄露 Xfinity 路由器的客户数据

两名研究人员近日发现美国用于激活 Xfinity 路由器的 Comcast 网站会泄露用户的敏感信息。Concast 网站主要用于建立家庭互联网和有线电视服务,...

19720
来自专栏北京马哥教育

jenkins+gitlab构建安卓自动编译环境

因工作关系接触到接触到安卓自动编译环境,网上的资料都推荐了jenkins,因为第一次接触安卓和jenkins,踩了不少的坑,有总结才有进步。 gitlab环境之...

40850
来自专栏黑泽君的专栏

上拉电阻和下拉电阻的用处和区别

  1、概念:将一个不确定的信号,通过一个电阻与电源VCC相连,固定在高电平;   2、上拉是对器件注入电流,灌电流;   3、当一个接有上拉电阻的IO端口设置...

90320

扫码关注云+社区

领取腾讯云代金券