许多年后,面对已经用习惯了的微信,你是否会回想起那个在网吧的周末下午,天气闷热,你在QQ空间里敲下了一行文字。
“再牛逼的肖邦,也弹不出老子的忧伤”。
不对,它应该是这样的:
再牛ы锝梢綁,匜彈罘絀鮱Ζī锝鬺傷。
这些如今看来很二逼的文字,一撇一捺之间,才是我们的青春。以下文字你一定见过:
哥抽的不是烟,是寂寞。
别在我的坟前哭,弄脏了我的轮回路。
如果爱,请深爱。
若谁折了你翅膀,我定废他整个天堂
ご愛我妳怕了嗎ごぺ如果愛請深愛ξ
曾经的我们要是喜欢上一个人,会一条一条的去看ta写下的心情。现在的我们如果要怀旧,也会去翻翻自己曾写下的说说。
一条一条的翻太慢,今天小峰就教大家,如何用python的爬虫技术,快速的获取一个人在QQ上留下的文字。
这是严肃的技术分隔线
在学习今天的知识点之前,记得先安装以下的库,特别注意我使用是python3.6,该库的依赖也是对应的python版本。具体的细节都有详尽的代码注释哦。
1.模拟浏览器登陆QQ并点击空间
下载selenium并使用selenium登陆网页版QQ空间 此次使用的火狐浏览器,所以要记得提前下载好火狐浏览器哦
做完这一步运行程序,发现是不是成功登录QQ空间了,这是一个很重要的自动化测试工具哦,接下来我们就要模拟动态刷空间点击。
2.抓取数据形成txt文本
运行完这里的代码,我们的目录同级会生成一个txt文本。
做到以上我们就完成了抓取的很大一步啦,为了演示方便,大家直接在刚刚的工程注释除了import的代码,我们进行接下来的工作啦。
3.根据文本内容形成词云图
生成词云必须用到的库 wordcloud, 生成词云,这个库下载比较慢。
matplotlib, 生成词云图片,下载这个库有个坑是必须要支持pip,因为我使用python3.6,mac OS系统默认是使用python2.7,so需要先安装依赖pip3,终端里面安装代码为:
jieba 为了保证显示中文保险做法安装它
这里的图片放置在py文件同级目录中,注意需要它只读取图片中黑色部分,所以想要其他形状自己涂或者google找找。我这里是随便一张人像图,你们可以根据自己的需要去选择图片,生成不一样的词云图。图里就是一个人在QQ上留下的青春痕迹。大家都会了么?
朋友们,还记得你的QQ签名吗?
— rimi实验室,用科技干掉无趣 —
领取专属 10元无门槛券
私享最新 技术干货