10行代码爬取微信公众号文章评论

1、获取Cookie

打开 Chrome 浏览器你会看到发送请求时会自动把 Cookie 信息发送给微信,我们就把这段 Cookie 数据拷贝出来,用 Python 构建一个 Cookie 对象,给 requests 使用。

2、构造URL

打开任意文章的评论列表,你会发现它的 URL 结构非常清晰,根据名字基本能判断每个参数的意义,这里比较重要的参数是 begin,它是作为分页的起始位置,其实它固定不变就好

3、抓取数据

把 Cookie 和 URL 都搞清楚了,就可以把模拟浏览器抓取数据并进行清洗,开始想着用 BeautifulSoup 来解析网页,结果失败了。

查找了原因,把爬下来的页面另存为 html 文件,在 html 源代码文件中找留言里面的关键字,发现评论并没有在 div 标签中,而是存在于一段 JS 代码块中,看起来像 JSON 数据,看来数据是在本地用 JavaScript 渲染后显示的。

于是改用正则表达式,截取需要的数据,最终存储数据库,差不多10代码搞定。

这是文章Python进阶好书推荐,还有送书中的评论词云:

学习Python和网络爬虫关注公众号:

datanami

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180307B1C5UV00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券