爬取QQ空间3000万用户,玩玩大数据分析

这是我近期使用C#写的一个QQ空间蜘蛛网爬虫程序。程序断断续续的运行了两周,目前总共爬了3000万QQ数据,其中有300万包含用户(QQ号,昵称,空间名称,头像,最新一条说说内容,最新说说的发表时间,空间简介,性别,生日,所在省份,城市)的详细数据。

目前已经爬到我的第7圈好友(depth=7)共3000万数据。

爬虫主程序运行界面:

爬虫程序设计:

大致设计思路是模仿工厂的生产车间,使用三大独立循环线程组(GetWaitList,CrawlerQQInfos,SaveData)。

详细设计图:

再看看,我根据这份数据生成的一些有趣的统计图吧!

1、大家一般都在啥时候发说说呢?

从图中看出一天最冷门的时候是凌晨4点,这时全国正在睡觉的人最多。 大家最亢奋的是晚上10点到11点,人们都喜欢睡前看看别人的空间,发条说说。中午12点左右也有一波小高峰。

2、中国人都喜欢在几月生小孩呢?

从图中可看出1月和10月出生的人最多,4月的最少。总体来说上半年的出生率比下半年的低。分析可得,1月多是因为很多人填的是默认的1月1号。4月少,是因为中国人不喜欢4这个数字。10月出生率最高,是因为那时天气不冷不热,秋收后也不是太忙了的原因。(所以我是11月11日?注孤独)。

3、这是我目前爬取的数据人群地区分布

4、数据人群的年龄分布。

上两张图,整好和我的信息相吻合。我是湖南人,在江苏读的书,而湖南大部分人都在广东打工。所以地区分布中,这三个省整好排在前四名当中。而我又是1990年出生的,对应年龄分布图1990年的用户最多。

从目前的数据来看,无论是分布地区以及年龄阶段与我的关联还非常大,随着数据量的不断增加这种关联会逐渐变小,统计图也会逐渐接近全国用户的真实情况。(这都是博主的话啊,我是河南人,不过人群年龄应该是差不多的,90和91年的比较多。)

点评下:

你说我91年的也不能接触的都是81年的人吧?肯定是同龄的人比较多,其实如果博主能分析下在TX上面投资多少钱,根据用户秀恩爱的程度,这样的数据,我觉得还听可以的。(吐槽下。)

5、数据人群性别分布

6、下面系列图是根据一些“关键字”在说说中出现的频率统计出来的,相当有意思。

单个用户的行为是很难看出规律的,大数据的意义在于它会不断矫正那个平衡点,从而得出反应宏观现象最真实的情况。数据量越大,平衡点动荡的幅度便越小。进而能够根据当前的数据趋势预测后续的发展,为决策提供有力依据

6.1 图说股市。

现在我们拥有海量的互联网社交数据,如QQ的说说,sina的微博数据。我觉得这些数据拥有惊人的利用价值,这非常值得我们去研究,去挖掘。我想,用它们来做一些股市或者其它方面的分析预测是可行的,准确度应该也是非常高的。

将股票中的关键字做海量数据分析,比如会得出当日讨论股票热度排行榜。进而能得到海量讨论股票的用户,再通过市场的实际反馈找出股票上涨及下跌的正相关因子,再对这些海量数据进行分析计算得出最靠谱股票推荐大神排行榜。对这些用户分级,分优先度及抓取密度来拿数据。用这些数据分析出哪些是靠谱的股票肯定靠谱!

6.2 群众讨论最多的明星排行榜,还是很靠谱的。(我爱汪峰哥,我也爱Jay! ---信仰在空中飘扬)

插播汪峰头条:素不相识,光听新闻的片面之词就断下结论,那是完整的真相吗?背后的故事又有谁了解多少?实在反感那些破口大骂的,更是可恶一些媒体就事三番五次的戏谑。

祝峰哥幸福,我很喜欢你的歌!

6.3 最为用户喜爱的手机品牌

6.4 人们最喜欢谈论的互联网公司,阿里之所以这么低估计是大家都喜欢叫它淘宝或者天猫吧。

6.5 QQ空间中讨论的最为频繁的社交平台排行榜。

6.6 生活的统计图

爱>恨; 开心>伤心; 笑声>叹气声; 吃货很多

谁特么说中国不幸福了,这满满的都是正能量数据啊。

好了,其实还可以做很多其它的分析。如果大家有什么有趣的数据分析想知道的,那就给我留言吧。

技术不多说了,程序不难,多线程数据库操作却是把我搞苦了。还好,现在程序差不多稳定了。过程也是很有意思的,有空我再写个程序升级过程中的那些趣事吧。我觉得一个美妙的程序一定是高度模拟现实的,就像飞机模仿蜻蜓,雷达模仿蝙蝠一样。这次的程序设计就是模拟的工厂的生产线。

*投稿:妇科圣手,原文地址:http://www.cnblogs.com/marktoy/p/4546217.html

原文发布于微信公众号 - FreeBuf(freebuf)

原文发表时间:2015-07-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ThoughtWorks

TW洞见 | TDD随想录

2014年我一直从事在敏捷实践咨询项目,这也是我颇有收获的一年,特别是咨询项目的每一点改变,不管是代码质量的提高,还是自组织团队的建设,都能让我们感到欣慰。涉及...

37770
来自专栏ThoughtWorks

迁移中的企业科技新范式|商业洞见

[摘要] 科技现在已经成为商业变革必不可少的推动力量,引领着我们从数字时代进入后数字时代。演进中的交互、增强人类效能、平台的兴起、安全和机器人的崛起这五个宏观板...

36970
来自专栏ATYUN订阅号

MIT研究团队开发微型低功耗芯片,用于小型无人机导航

麻省理工学院的研究人员去年设计了一种微型计算机芯片,专门用于帮助硬币大小的无人机导航,而现在芯片在尺寸和功耗方面都进一步缩小。

12720
来自专栏小石不识月

2018年物联网六大趋势

回首 2017,看看我们去年对物联网(IoT,Internet of Things)所作出的预测是否已经成真,同时也展望展望未来。我发现,这其中有几个引人注目的...

430120
来自专栏京东技术

和我去京东的机房走一走 | 11·11 倒计时

“ IT资源服务”:京东商城、物流、金融、科技等京东所有业务的基层支持,有关基础IT资源的一切,包括设备采购的需求对接、部分IT设备的实际采购、机房服务器上架、...

46180
来自专栏ATYUN订阅号

高通推出Snapdragon 710平台,推动AI和神经网络在移动端的应用

高通公司宣布推出Snapdragon 710移动平台,旨在推动高端智能手机进入人工智能领域。下一代芯片的重点是人工智能,神经网络以及对高质量照片和视频的支持。

8020
来自专栏DT数据侠

一份优质的数据分析师简历,应该是这样的......

雇主们对于掌握数据分析技能的人才越来越渴求。Tableau社区里有一群别出心裁的求职者,用视觉可视化呈现了自己的简历,更直观地讲述了自己的数据分析技能,一起来涨...

11600
来自专栏微服务生态

突破瓶颈,思考如何不断的提高自己

我们中的大多数人在生活中凡事都想尽力做到最好,无论是工作,生活或者自己的学业或者其他的种种,都觉得自己已经很尽力了。但不久之前我才明白,无论是作为一个丈夫、朋友...

7220
来自专栏测试开发架构之路

今天聊聊大数据

大数据概念 "大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。 大数据的4V特点:Volum...

36480
来自专栏华章科技

想提高数据分析工作效率?有技巧!

我刚和一位老友恢复了联系。她一直对数据科学很感兴趣,但10个月前才涉足这一领域——作为一个数据科学家加入了一个组织。我明显感觉到她已经在新的岗位上学到了很多东西...

14120

扫码关注云+社区

领取腾讯云代金券