前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >公众号文章抓取工具python

公众号文章抓取工具python

作者头像
程序源代码
发布2019-05-15 14:24:40
1.6K0
发布2019-05-15 14:24:40
举报
文章被收录于专栏:程序源代码程序源代码

概述

爬取微信公众号文章

爬取微信公众号有三种方法: 第一种:用搜狗微信公众号搜过,这个只能收到前10条; 第二种:用fiddler或手机抓包,从访问链接去获得appmsg_token,发现虽然这个值就在html页面里,但只有抓包的数据里含有效值,直接访问的是空的,而且还有时效性。这样,每次都要抓包获取,就很麻烦。 第三种:就是这种用公众号搜公众号的,虽然速度慢点,但便捷了不少。

功能

程序原理: 通过selenium登录获取token和cookie,再自动爬取和下载

使用前提: 1、电脑已装Firefox、Chrome、Opera、Edge等浏览器(默认使用火狐驱动) 2、下载selenium驱动放入python安装目录,将目录添加至环境变量(https://www.seleniumhq.org/download/) 3、申请一个微信公众号(https://mp.weixin.qq.com)

使用

更新记录:

  1. 下载文章文字内容到txt
  2. 下载文章图片
  3. 保存HTML文件,并将图片链接指向本地
  4. 添加按时间范围下载
  5. 添加cookie登陆,不成功才selenium浏览器登陆
  6. 增加记住密码功能
  7. 修复一些问题,如requests卡死
  8. 添加按关键词下载

下载

https://gitee.com/songxf1024/WeChat_Article.git

截图

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-05-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 程序源代码 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档