首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python爬虫:几年的说说,她/他说了什么

很安静

来交换你偶尔给的关心

一定要点开上面的绿标收听哦!

这篇文章是17年的最后一篇了吧,一直很安静送给你们!已经不像小时候那样热闹,我们早已经脱离了稚嫩,回头后看看身边的朋友,邻居和家人,突然发现他们一下子都老了很多,才知道自己已经不是小孩了。

今天我要做的事就是使用动态爬虫来爬去空间说说,生成词云图,这样就可以清晰的看出她或者他这些年发生了什么。

这是我的一位好友3年来的空间说说内容,基本有一个大概的印象。

工具:

Python2.7~3.7 (我的是在3.版本下面,2.的版本需要改动一点代码)

浏览器(最好用火狐,在Google下面兼容性解决不了)

附加Python的一些外扩包(比较多,直接Dos下install安装就好),火狐的驱动(geckodriver.exe直接百度就好)

爬取空间说说

需要安装selenium爬取浏览器数据必装

最后把说说存到 **.txt文档

代码已经非常详细,就不多说了,基本流程就是自动进行数据的爬取。

动态生成词云

安装jiaba中文分词器,wordloud生成云词

代码注释已经非常详细

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180212G0OPL000?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券