可以获取到文章内容页但是脱离客户端后无法获取到点赞、阅读数据
所以, 流程中的一部分是依赖于手机客户端的, 如果要大量抓取微信公众号信息,就必须依靠大量客户端抓取(自己准备手机、微信号、电费、和人工)...一、抓取要使用的工具
知乎大神用的是nodejs, post给php处理, 并且github上有的大部分也是用这个方式, 或者纯nodejs的方式, 个人觉得受限太大, 最主要的原因是我不会nodejs..., 简单学过一些, 不过使用的anyproxy, 还是会出现一些无法解决的问题, 无法适用于长期采集
python3.5+
mitmproxy
其他用到的包插件
二、微信抓取基本的应用规则
单个客户端公众号历史消息列表页...——访问公众号历史列表页面——抓取到第一页的文章列表数据以及cookie信息——其他脚本抓取点赞、阅读、评论和小程序信息
四、教程开始
1....findall(body)
if data:
return data[0]
return False
def get_next_url():
'''这部分写要跳转到下一页的