如何利用Python爬取感兴趣的公众号文章

1LSGO软件技术团队

贡献人:李金原

如果喜欢这里的内容,你能够给我最大的帮助就是转发,告诉你的朋友,鼓励他们一起来学习。

If you like the content here, the greatest helpyou can give meis forwarding, so tell your friends and encourage them to learn together.

每次在公众号中搜索文章都很繁琐,把自己关注的公众号文章下载到本地就是我们需要解决的一个需求了。本篇图文就是介绍这方面的内容:如何利用Python爬取感兴趣的公众号文章

本次爬取需要的工具如下:

selenium 驱动器 https://baike.baidu.com/item/selenium/18266)

对应浏览器的 webdriver https://docs.seleniumhq.org/projects/webdriver/

一个微信订阅号

一、登陆微信公众号

在这里,我们使用 selenium + chromedriver(chrome 的 webdriver) 的方式来获取登陆的 cookie,这样,以后爬取文章时只需要载入 cookie 即可登陆。首先我们打开微信公众平台 https://mp.weixin.qq.com/ 进行账号登陆:

1

我们用 检查获取登陆的账号、密码元素所在位置,来实现自动化登陆的目的 。

2

转化成代码如下:

之后,我们需要重新登陆一次,保存 ,以后则载入 即可,不需要再扫码登陆。代码如下:

之后我们开始文章的爬取。

二、爬取文章

根据官方描述,接口应该藏在新建图文素材中的插入超链接中,和之前爬取币乎一样,我们用 F12-Network-XHR 来跟踪这几个页面来获取我们需要配置的请求:

3

4

5

接下来,我们来配置请求参数:

6

接下来,我们选择要爬取的公众号,进入文章列表界面:

7

8

9

分析第一页、第二页、…、第四百页,我们可以知道页码数由 参数决定,且每一页 +5,初始页为 0。这样,我们可以通过对 进行循环来爬取多个页数。

接下来,我们来查看每篇文章的信息藏在哪里:

10

点击右侧的 ,可以找出 即可获取每篇文章的详细信息,接下来,我们就可以提取我们需要的信息,这里笔者提取了 、、 方便之后存入数据库。

至此,我们就可以将所爬取的公众号文章存入相应的 txt 文件,文本每三行为一篇文章,分别是标题、链接、发表时间。

最后,整合代码如下:

本次爬虫到这里就结束了。在下一篇图文中,将会分享如何配置自己的 webdriver 以及如何从已有的链接中提取文章正文。See You!

经过8年多的发展,LSGO软件技术团队在地理信息系统、数据统计分析、计算机视觉领域积累了丰富的研发经验,也建立了人才培养的完备体系。

欢迎对算法设计与实现感兴趣的同学加入,与我们共同成长进步。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181010B00M5N00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券