微信公众号内容的批量采集与应用 微信抓取的难点: 1. 无法获取到微信公众号的信息(微信并没有提供列表) 2. 无法脱离客户端获取微信公众号历史消息页面 3....可以获取到文章内容页但是脱离客户端后无法获取到点赞、阅读数据
所以, 流程中的一部分是依赖于手机客户端的, 如果要大量抓取微信公众号信息,就必须依靠大量客户端抓取(自己准备手机、微信号、电费、和人工)...一、抓取要使用的工具
知乎大神用的是nodejs, post给php处理, 并且github上有的大部分也是用这个方式, 或者纯nodejs的方式, 个人觉得受限太大, 最主要的原因是我不会nodejs...action=home', re.I).findall(self.req_url):
'''启动一个线程去抓取到的页面中获取到文章列表的处理'''
_thread.append...():
'''这部分写要跳转到下一页的url'''
# content.py
分析内容中的文章列表并保存
以及将cookie保存起来, 假设保存到redis中