用Python抓取某大V的公众号文章

我之前用Charles来抓取了得到App的音频资料

抓取得到App音频数据

,于是又收到有读者要我抓取公众号文章,于是就有了这一篇文章. 不知道爬谁的文章好,想了想找了比较接地气的公众号大V[匿名一下,省得被认为蹭流量],于是在微信上征得他同意后,开始干活了!

抓取的效果图如下:

打开Charles抓包工具,打开微信客户端,我是直接用微信PC版上查看公众号文章的,其实这与手机上的道理是一样的。

分析:

找到目标公众号,然后进入历史文章列表,刷新,发现变黄的选项后观察变化,这里需要注意一下我们的请求数据,我们多次发起请求发现请求中,只是url的偏移量发生了变化.于是我们就找出了规律.

下面两张图我们可以看到只是偏移量发生了变化

然后再看Headers中的cookie,这里的cookie一定要注意,每个公众号对应的cookie是不一样的,

小提示:在你正式爬取文章的时候请关掉Charles软件,因为这里占用了一个443端口,导致你抓取文章出错,切记!

完整代码:

当然我这里只是获取公众号文章列表,也没有考虑过多的东西,下一章我进一步优化,获取公众号内容里面的详细东西,持续关注即可!

最后:

我最近参加了一个机器学习课程,机器学习很神秘,不像Python基础那样人人皆知,45元入门机器学习还是值得的!期待与你一起学习!最热门的技术方向不值得看一下吗?

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180606G1U0P800?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券