无法获取到微信公众号的信息(微信并没有提供列表) 2. 无法脱离客户端获取微信公众号历史消息页面 3....可以获取到文章内容页但是脱离客户端后无法获取到点赞、阅读数据
所以, 流程中的一部分是依赖于手机客户端的, 如果要大量抓取微信公众号信息,就必须依靠大量客户端抓取(自己准备手机、微信号、电费、和人工)...一、抓取要使用的工具
知乎大神用的是nodejs, post给php处理, 并且github上有的大部分也是用这个方式, 或者纯nodejs的方式, 个人觉得受限太大, 最主要的原因是我不会nodejs..., 简单学过一些, 不过使用的anyproxy, 还是会出现一些无法解决的问题, 无法适用于长期采集
python3.5+
mitmproxy
其他用到的包插件
二、微信抓取基本的应用规则
单个客户端公众号历史消息列表页...这个是大忌
单个客户端抓取多篇文章的阅读点赞的时间间隔必须超过2秒, 不然会返回unknow error的错误
单个客户端抓取阅读点赞一天不能超过6000, 要不然也会返回错误
三、抓取的基本逻辑
获取到公众号