【QQ空间大数据】爬取3000万用户,玩转大数据分析

作者:Freebuf

QQ空间就像是互联网上的城乡结合部,兼具博客论坛时代的土气和微博微信时代的洋气,拥有让写字楼里的薇薇安、杰西卡、莱斯利一秒变回“葬爱家族”的魔力。这个城乡结合部给了我们一个机会,可以重新审视过去的自己。

你有多久没有更新QQ空间,甚至不再登录上去看一眼?

短则几个月,长则一两年,我们常用的APP几乎就要更新一遍。在这个“但见新人笑,哪闻旧人哭”的互联网时代,面对令人眼花缭乱的产品,有多少人还记得十多年前红极一时的QQ空间?

本文是一位程序猿使用C#写的一个QQ空间蜘蛛网爬虫程序。程序断断续续的运行了两周,总共爬了3000万QQ数据,这些大数据背后隐藏了哪些信息?

这是我近期使用C#写的一个QQ空间蜘蛛网爬虫程序。程序断断续续的运行了两周,目前总共爬了3000万QQ数据,其中有300万包含用户(QQ号,昵称,空间名称,头像,最新一条说说内容,最新说说的发表时间,空间简介,性别,生日,所在省份,城市)的详细数据。

目前已经爬到我的第7圈好友(depth=7)共3000万数据。

爬虫主程序运行界面:

爬虫程序设计:

大致设计思路是模仿工厂的生产车间,使用三大独立循环线程组(GetWaitList,CrawlerQQInfos,SaveData)。

详细设计图:

再看看,我根据这份数据生成的一些有趣的统计图(数据量太大了一次加载到内存中直接报内存不够了,所以下面的统计数据只取了depth值小数据较完整约80W的数据):

内存已经爆了,不能怪我。 谁赞助台服务器吧。

1、大家一般都在啥时候发说说呢?

从图中看出一天最冷门的时候是凌晨4点,这时全国正在睡觉的人最多。 大家最亢奋的是晚上10点到11点,人们都喜欢睡前看看别人的空间,发条说说。中午12点左右也有一波小高峰。

2、中国人都喜欢在几月生小孩呢?

最热门的是1月份和10月份,最冷门的是4月份。10月份生小孩的多好理解,一年忙差不多了,天气也不冷不热正是生小孩的好时候。 但1月份最高且和2月落差很大有点不好理解,那么冷的天生不怕冻吗? 我估计是1月份也快过年了,以前没聚一起的好不容易聚一起了,就容易冲动,冲动就啪啪啪。 4月份生日的最少也好理解,中国人不喜欢4这个数字呗。 大数据有意思吧!! 我觉得太好玩了,后面还有很多呢。

3、这是我目前爬取的用户所在地分布

你能猜出我是哪的了吗?前四名分别为:广东,湖南,四川,江苏。 没错,我就是湖南的! 湖南人在广东打工的超级多,这也能理解为什么广东排名第一了。江苏是我上学的地方,有点琢磨不透的是四川和我非情非故的居然排第3名,我的朋友们,你们是谁播的种?站出来! 还有一种可能,四川人交际能力全国第一,我平时在重庆小面吃饭,四川人确实特别,说话语速那个快啊,声调那个高啊。受不了!

4、数据人群的年龄分布

一不小心就暴漏了我的年龄,没错。我就是那个最高值的1990年;从目前的数据来看,无论是分布地区以及年龄阶段与我的关联还非常大,随着数据量的不断增加这种关联会逐渐变小,统计图也会逐渐接近全国用户的真实情况。真想弄几台服务器分布式搞起,估计一周就能爬上亿的简单数据。 单靠我的笔记本和家里超烂的网速达到这个目标还很远。

5、数据人群性别分布

男比女足足多了23%的人数,我分析认为实际差距应该是不大的,但女生在设置QQ空间访问权限时普遍要比男生的高。所以我爬取的数据中男生居多。

6、下面系列图是根据一些“关键字”在说说中出现的频率统计出来的,相当有意思。

6.1 图说股市

在知乎“能利用爬虫技术做到哪些很酷很有趣很有用的事情?” 有一个google实习的哥们@Emily L爬了400亿条tweet也做了很多有趣的分,其中提到一篇关于利用twitter上人的心情来预测股市的论文。(http://battleofthequants.net/wp-content/uploads/2013/03/2010-10-15_JOCS_Twitter_Mood.pdf)很有意思。另附我在该问题下的答案“用爬虫监测她(他)的知乎动态”,仅做技术玩乐,求别再喷我猥琐了。

如果当我们拥有海量的QQ空间最新说说,和sina微博数据。我想,用它们来做一些股市或者其它方面的分析预测是可行的,准确度应该也是非常高的。我接下来可能会考虑去做这件有趣的事情。

将股票中的关键字做海量数据分析,比如会得出当日讨论股票排行榜。进而能得到海量讨论股票的用户,再通过市场的实际反馈找出股票上涨及下跌的正相关因子,再对这些海量用户进行分析计算得出最靠谱股票推荐大神排行榜。对这些用户分级,分优先度及抓取密度来拿数据。用这些数据分析出哪些是靠谱的股票肯定靠谱。

6.2 群众讨论最多的明星排行榜,还是很靠谱的。

另附我抓的明星QQ号吧,纯属娱乐,自辩真假。有些空间确实有很多生活私照。

张杰QQ:4199** 花千骨的赵丽颖QQ:4277** 谢娜QQ:5007** 杨幂QQ:4567** 范冰冰QQ:885** 周杰伦QQ:3326**

6.3 最为用户喜爱的手机品牌

6.4 人们最喜欢谈论的互联网公司,阿里之所以这么低估计是大家都喜欢叫它淘宝或者天猫吧。 取这么多名字,自讨苦吃。

6.5 QQ空间中讨论的最为频繁的社交平台排行榜。

6.6 生活的统计图

爱>恨; 开心>伤心; 笑声>叹气声; 吃货很多; 谁特么说中国不幸福了,这满满的都是正能量数据啊。

好了,其实还可以做很多其它的分析。技术不多说了,程序不难,多线程数据库操作却是把我搞苦了。还好,现在程序差不多稳定了。过程也是很有意思的,有空我再写个程序升级过程中的那些趣事吧。我觉得一个美妙的程序一定是高度模拟现实的,就像飞机模仿蜻蜓,雷达模仿蝙蝠一样。 这次的程序设计就是模拟的工厂的生产线。

原文发布于微信公众号 - 钱塘大数据(qtbigdata)

原文发表时间:2017-11-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏顶级程序员

写作 C# 读作 C 井,这些程序员常用词汇你读对了吗?

适逢北京大学创办 120 周年,庆典上,现任北大校长将讲稿中的鸿鹄hu(2声)读成了鸿hao(4声),念错字并不稀有,然而这次事件的主角和场合有些特殊,再凭借着...

862
来自专栏恰同学骚年

【转】我的技术学习方法 — Anytao

  关于这个问题,也有不少刚刚入行的朋友向我问起。我想可能一千个人就有一千个答案,我不能保证自己的想法适合于所有的人,但是这确实是我自己的体会和经历,希望能给你...

472
来自专栏Data Analysis & Viz

我的简书两月记:数据可视化

很多人来简书写作,或长或久,可能无法准确量化自己取得的进步,或者无法定位自己在几十万乃至更多的写作者中所处的位子,比如:有多少人粉丝数、喜欢数比你多?万粉大小V...

1244
来自专栏编程

从趣味游戏到编程思维——Scratch编程课程设计思想

邓博士和很多在学习编程孩子的家长交流后,发现一个共同的特点:家长其实对于孩子为什么要学编程并不是很理解,就觉得反正买个课程又不贵,孩子喜欢而已,就试试呗!另外,...

2525
来自专栏吉浦迅科技

不看这篇,别怪GPU大神们不回答你的问题!

本篇改编自 Eric Steven Raymond 的《提问的艺术》 在Lady的GPU应用技术开发QQ群里,当提出一个技术问题时,你能得到怎样的回答? 这取决...

3378
来自专栏华章科技

假如我是计算机系老师

假如我是计算机系老师, 我会先让我的学生先去读一下《编码:隐匿在计算机软硬件背后的语言》这本书, 搞明白一个个简单的逻辑门电路到底是怎么组成计算机的, 弄清楚计...

1053
来自专栏工科狗和生物喵

【计算机本科补全计划】构建之法读书笔记

正文之前 首先,说句实话:真的写得好,让我情不自禁就给我的学长推荐了,读完绪论我就有预感,我会放下我手头读的如痴如醉的《C++ Primer》,转而把这本构建之...

34410
来自专栏高性能服务器开发

一封情书

亲爱的小芳姑娘:   你好呀!茫茫人海中,我们因路由器而邂逅,因网线而相识,因无线而相知。自从第一眼看见你,你就犹如一鲁棒的系统而深深地吸引了我:你如C脱胎于...

3015
来自专栏知晓程序

你口算能力有多强?这款小程序,就来考考你 | MINA 奖 #16

背乘法口诀、圆角分换算……多亏了这些「童子功」,才得以让我们在买东西结账时,往天上一看,就能给出准确金额,amazing!

521
来自专栏腾讯大讲堂的专栏

产品经理语言学习指南,看完整个人通透多了

682

扫码关注云+社区