马上双十一了, 凑个热闹, 发布一篇重量级的文章。如何抓取微信公众号的文章
一、介绍
研究微信抓取之前, 看过知乎有大神写的比较完善的例子, 受到启发, 才完成了整个微信公众号的抓取。...微信公众号内容的批量采集与应用 微信抓取的难点: 1. 无法获取到微信公众号的信息(微信并没有提供列表) 2. 无法脱离客户端获取微信公众号历史消息页面 3....可以获取到文章内容页但是脱离客户端后无法获取到点赞、阅读数据
所以, 流程中的一部分是依赖于手机客户端的, 如果要大量抓取微信公众号信息,就必须依靠大量客户端抓取(自己准备手机、微信号、电费、和人工)...这个是大忌
单个客户端抓取多篇文章的阅读点赞的时间间隔必须超过2秒, 不然会返回unknow error的错误
单个客户端抓取阅读点赞一天不能超过6000, 要不然也会返回错误
三、抓取的基本逻辑
获取到公众号...——访问公众号历史列表页面——抓取到第一页的文章列表数据以及cookie信息——其他脚本抓取点赞、阅读、评论和小程序信息
四、教程开始
1.