用python抓取了几百条QQ空间的说说后,我感到了阵阵忧伤

许多年后,面对已经用习惯了的微信,你是否会回想起那个在网吧的周末下午,天气闷热,你在QQ空间里敲下了一行文字。

“再牛逼的肖邦,也弹不出老子的忧伤”。

不对,它应该是这样的:

再牛ы锝梢綁,匜彈罘絀鮱Ζī锝鬺傷。

这些如今看来很二逼的文字,一撇一捺之间,才是我们的青春。以下文字你一定见过:

哥抽的不是烟,是寂寞。

别在我的坟前哭,弄脏了我的轮回路。

如果爱,请深爱。

若谁折了你翅膀,我定废他整个天堂

ご愛我妳怕了嗎ごぺ如果愛請深愛ξ

曾经的我们要是喜欢上一个人,会一条一条的去看ta写下的心情。现在的我们如果要怀旧,也会去翻翻自己曾写下的说说。

一条一条的翻太慢,今天小峰就教大家,如何用python的爬虫技术,快速的获取一个人在QQ上留下的文字。

这是严肃的技术分隔线

在学习今天的知识点之前,记得先安装以下的库,特别注意我使用是python3.6,该库的依赖也是对应的python版本。具体的细节都有详尽的代码注释哦。

1.模拟浏览器登陆QQ并点击空间

下载selenium并使用selenium登陆网页版QQ空间 此次使用的火狐浏览器,所以要记得提前下载好火狐浏览器哦

做完这一步运行程序,发现是不是成功登录QQ空间了,这是一个很重要的自动化测试工具哦,接下来我们就要模拟动态刷空间点击。

2.抓取数据形成txt文本

运行完这里的代码,我们的目录同级会生成一个txt文本。

做到以上我们就完成了抓取的很大一步啦,为了演示方便,大家直接在刚刚的工程注释除了import的代码,我们进行接下来的工作啦。

3.根据文本内容形成词云图

生成词云必须用到的库 wordcloud, 生成词云,这个库下载比较慢。

matplotlib, 生成词云图片,下载这个库有个坑是必须要支持pip,因为我使用python3.6,mac OS系统默认是使用python2.7,so需要先安装依赖pip3,终端里面安装代码为:

jieba 为了保证显示中文保险做法安装它

这里的图片放置在py文件同级目录中,注意需要它只读取图片中黑色部分,所以想要其他形状自己涂或者google找找。我这里是随便一张人像图,你们可以根据自己的需要去选择图片,生成不一样的词云图。图里就是一个人在QQ上留下的青春痕迹。大家都会了么?

朋友们,还记得你的QQ签名吗?

— rimi实验室,用科技干掉无趣 —

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180907G1FWZN00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券