太阳底下无隐私:那些年我们做的微博数据挖掘

本文作者沙漠之鹰,由 沙漠之鹰 授权 大数据 发布,转载请联系作者【ID:infoqchina】,谢绝二次转载。

新浪微博在2012年-2013年红得发紫,也是移动互联网快速成长的年代。主页君当时就读于北京邮电大学,在实验室老师的指导下,从4G研发转战数据挖掘。从此我们项目组在实验室每天的科研工作就是刷微博,看八卦,观凤姐独领风骚,赏公知互相撕逼。这篇文章,让我们尝试回忆那个时代有趣的工作和结论。

非常开放的微博接口

彼时,各大互联网公司都在发展开放数据平台,作为自媒体的翘楚新浪微博自然不例外。通过高级账号接口,几乎可以访问微博上所有的数据。

只要输入微博用户名,就可以获取该用户所有的微博,粉丝和好友。

2013年年底,新浪微博官方称拥有3亿用户。但经过我们对全网数据的抓取和分析,发现真正活跃用户不超过五千万人。这也与观察相似,绝大多数父母辈的人,只是听说过微博,但远远没有像现在使用微信一样产生重度依赖。

对用户按地域分组,可以看到,广东,上海和北京的微博用户是最多的。微博用户的数量,基本上和该省的经济总量强相关。尤其是广东,作为互联网普及率超高的地区,占据了全国接近四分之一的微博用户。

通过好友关系了解八卦

我们能够分析好友间的关系。可把每个好友看做一个小球,好友的连接作为一条弹簧,设定初值后,这个好友构成的网络就会逐渐稳定,所谓物以类聚,人以群分。初高中,本硕同学,亲戚同事,有共同爱好的各自聚在一起。甚至两个人如果是情侣或是基友,那么位置也会分外接近。各种八卦在一张图上一目了然。

上面就是主页君微博300多位好友的分析,整个计算过程从采集数据到可视化,需要约10秒钟。小球的颜色代表了分组,大小展示了好友的重要性。在中心位置的人,当然是主页君啦。

如何定义好友间的关系呢?很简单,共同好友和互相留言的数量越多,关系越紧密。地域,性别,爱好和组织也作为重点考虑的因素。两个人之间虽然互不认识,但如果有不少共同好友,连接也会较强。

你可以通过这张图推测此人的爱好,比如放大看一个只有六个用户的小类:清晰的表明了他关注书画鉴赏。

我们还能通过他们的好友和留言特征,分析好友关系的类型,比如是同事,同学,或是情侣,还能一定程度上推演他们是何时和如何认识的。太阳底下无新事,微博之下无隐私。

超大规模网络分析

仅仅分析某人的好友,这太easy了。为了研究巨大社群的关系结构,我们针对海淀的20万个微博用户,进行了超大规模网络分析,绘制出了如下的复杂结构(密集恐惧症慎入):

在海淀这样的高校和科技公司为核心的体系中,通过自动聚类和网络计算,发现小型社团的规模大概在10人左右,大型社团高达几千人,一般是同一学校的同学。很多社团是IT相关的,海淀果然是码农聚集地。

通过3D引擎,我们能够把整个网络以三维的结构绘制出来。你可以成为一架飞机,能在天空中漫游,从不同角度观察好友间的关系。

绽放的花朵:信息是如何被传播的

在微博营销过程中,客户将特别关心微博的传播能力,即,对用户群造成了多大的影响,哪些节点是核心传播节点,是否有水军等。我们专门对此开发了一项功能:

我们随意以潘石屹的其中一条微博“一句话不会讲,将来中国做支教老师了,勇敢啊@美丽中国" 。 这条微博比较中性,讲的是鼓励美丽中国 (Teach For China)这个公益组织中的一些外国友人,来中国偏远山区进行支教的故事。

之所以选这样普通的微博,是因为潘老大随便发一条微博就上十万次转发,传播量大的微博需要花费太多时间抓取原始数据。

下图展示了这条微博的传播统计。两分钟之后,转发次数达到高峰。一分钟之内被转发了33次。

还能清楚地发现传播者的省份,性别,认证情况和传播层级。内容中性的微博,各省市的比例基本和各省微博用户分布一致。

观察微博的传播过程是很有趣的,为此我们开发了一个能够播放网络的生成过程的“播放器”。转发微博从中心节点生成,按照时间顺序展开,就像盛开的花朵一样。

从这张图中,可以容易看出,潘石屹是微博源头,经过他夫人张欣进行二次转发,任志强又从张欣进行了三次转发,产生的传播能力也比第二次强。美丽中国也通过张欣进行了第三次转发,也有少部分四次,五次和六次转发。

这种技术有三个重要用途

1)评估网络营销的传播能力,很多公司的广告部门会根据传播效果进行付费。

2)微博溯源,一些造谣者产生内容,并故意让一些大号转发,谁造谣谁传谣,一目了然。

3)网络水军分析。据观察,水军微博和普通微博的生成的网络结构图完全不同。能够很容易地发现哪些是水军。

这贪官该落马了:舆情分析

说起舆情分析,就不得不谈论2012年的网红“表哥”杨达才。 原陕西省安全生产监督管理局局长杨达才,在一场悲惨的车祸现场微笑而惹怒网友。万能网友通过他戴的世界名表来找他的“茬”,结果拔出萝卜带出泥,挖出他有多块名表,现金存款1600多万元。再后来,他被有关部门”高度重视“,双规了。

这是一个有趣的案例,我们在之前收集了各大报纸的400万条新闻数据,1亿多条微博的基础上,进行了一次舆情分析。

黄线是微博讨论“表哥”的热度,红线是报刊新闻的热度,系统针对每个高峰值,自动打上了和它相关的新闻标签。

微博讨论一共有三个高峰。第一个高峰是8月26日,表哥的微笑第一次被天涯曝光,原创微博数高达四万条。第二个高峰是几天后网络上曝出他有多块名表。一个礼拜后,传统的新闻报刊开始介入。进行了四周的高强度的报道,每天都有两三千篇。

我们特别好奇为何新闻总是在周末处于低谷,进行了不少讨论也没结果,后来问了新闻界的朋友,才知道好多报社周日不上班(汗)。微博的第三次高峰,就是杨达才被双规,但在微博引起的波澜,已经远远没有前两次那么强烈。

我们通过这张图,能够明显发现微博和传统新闻媒体的不同模式。微博来得凶猛,去得也快,是网民草根的狂欢,热度不会超过三天,而且”车祸现场微笑戴名表“的关注度明显比”双规“来得更疯狂;传统媒体慢热,却代表官方意见,在微博冷却后才有所反应,一般不会报道“微笑”,但一旦出现真正的腐败(大量存款)后马上就介入,来得慢,去的也慢。

其实多分析几个案例,就会发现各种贪官落马,假冒产品曝光的模式,都和上面的案例类似。先是微博热度爆表,之后传统媒体介入,马上就有有关部门高度重视了。进而,在对传统媒体和自媒体之间的相互影响建模以后,在理论上,能够大致预测一个贪官在被自媒体曝光后,多久会落马。

他们的观点是什么?分析语义

微博是有观点和情感的,分析其内容很重要。但语义是很难被量化的,受到计算复杂性和时效性的限制,也不可能做到太精细。

首先是话题。微博有针砭时弊,也有娱乐八卦,我们通常用关键词来进行判断。词汇和好友一样,也构成了一个语义网络。”自责“和”羞耻“相似而不同,一旦出现”满五唯一“,”免税“,大概就和楼市相关了。通过这种手段,我们能够对话题进行筛选和分类。比如只关心微博中与”苹果手机“相关的内容。

下图展示了对潘石屹的微博进行话题分类,占比最高的是”文化“,低一些的有经济,政治,教育等(怪我懒,这实际上是把对新闻做分类的模型用在了微博上)。

其次是情感趋向。遇到放假,微博锣鼓喧天鞭炮齐鸣。TFBoy又爆自拍,有人赞美”你们不知道他们有多努力吗?“,有的黑到死(此处省略十万字)。通过分析情感,我们能够分析针对某一话题,大家的观点分布和情感走向。例如网友对某款手机的看法,一定程度上预测其销量。笔者还有一位中科院心理所的朋友,他们成功地通过微博分析,发现抑郁症的朋友,帮助他们走出困境,防止自残行为。

情感有很多种,但我们将情感简化为正向和负向的数值,而且正向和负向的情感可以共存。下图是我们分析某网红从2011年到2013年的情感变化(图表来自笔者的研究生毕业论文)。

结论:应当更关注用户隐私

我们分析的只是信息海洋中的沧海一粟。仅仅通过公开的数据,就能做出大量的分析。

如今人们如此的依赖于手机和各类应用。电商掌握了所有的购物行为,地址,银行账户,电话号码。通信运营商记录了短信电话和位置。各类社交工具存储了用户所有的语音和聊天记录。搜索引擎记录了你每一次的点击动作。滴滴打车明白你的出行轨迹,大姨吗,陌陌了解你的...

总之,如今的互联网,根本没有任何隐私可言。理论上说,通过半公开的数据,你就能了解某人的一切隐私。而这些数据只是冰山一角,大量的暗数据蕴含着更可怕的能量。

彼时,在“开放数据平台”的风气下,各大微博API接口是非常开放的。只要拥有高级访问接口,便可以几乎无限制地访问所有数据。然而棱镜门之后,用户对数据隐私开始前所未有的重视。目前微博对于这种高强度的数据分析,已经不可能了,除非用户授权。

但是,这只是公司不公开了,但那些数据,还存在服务器并被买卖交换。可想而知,企业的”不作恶“是多么重要。

北京邮电大学在移动互联网的新形势下,培养了大批人才。不少实验室将通信与移动互联网,计算机方向结合,在社交网络,多媒体挖掘,数据分析等方面建树颇丰。欢迎报考北京邮电大学!

备注

1. 这些工具都是自行开发的吗?

是的,整个软件除了图表使用了第三方可视化库之外,所有的采集,分析和可视化都是自行开发的。尤其是那套可视化画布系统,其布点算法,图形引擎花了将近一个月时间。

2. 现在还能做这些分析吗?

微博接口都几乎都已经关闭。但2013年,我们就进行了一项计划,在四个月内通过十几台机器并行抓取,存储了微博两千万高质量用户的基础信息和社交关系,还有上亿条微博和相关评论。虽然并非实时数据,但针对科研学习和分析已经足够。

3. 还有其他好玩的吗?

其实,在微博中,有很多用户并不是真正的人,而是机器。2013年,我们进行了一项名为”魔法小屋“的计划。通过微博和纯粹的自然语言,你可以方便地控制家里的电器,了解天气,股票,了解朋友的八卦,还能和它闲聊。如今小娜和Siri已经很火爆了,但实际上我们通过不到1000行代码,就实现了可圈可点的语义解析和对话系统。

不少微博用户发完微博之后,很喜欢再把自己的位置标出来。这样,我们就能可视化他的位置,通过他在不同位置出现的模式,一定程度上预测他的位置。下图展示了一位大牛的江南骑行路线,红点下标出了他出现的时间和发的微博:

原文发布于微信公众号 - 大数据(hzdashuju)

原文发表时间:2016-04-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

MIT研发出脑控机器人:可使用脑波为机器人纠错

选自news.mit.edu 作者:Adam Conner-Simons 机器之心编译 参与:微胖、晏奇、吴攀 MIT 研发出的反馈系统能够让人类操作者仅通过...

34960
来自专栏大数据挖掘DT机器学习

"我们做的微博数据挖掘"

作者:数控小V http://www.36dsj.com/archives/48650 新浪微博在2012年-2013年红得发紫,也是移动互联网快速成长的年...

43750
来自专栏数据小魔方

图表到底应该“简单“一些还是“复杂”一些???

这个话题,其实很早就应该写一写了。 因为这个主题在数据可视化中的地位差不多相当于当今哲学至于社会科学的地位。 说白了就是涉及到数据可视化理念之争,涉及到可视化使...

42650
来自专栏新智元

虚拟即是现实,AR专家眼中的真AR

@有饭吃 说:这篇文章翻译自美国、欧洲、日本的七位计算机视觉领域的学者共同就2014年8月在奈良大学召开的AR发展研究探讨会写的一篇总结性质的论文。在这篇论文中...

33640
来自专栏Data Analysis & Viz

最全知乎专栏合集:编程、python、爬虫、数据分析、挖掘、ML、NLP、DL...

上一篇文章《爬取11088个知乎专栏,打破发现壁垒》 里提到,知乎官方没有搜素专栏的功能,于是我通过爬取几十万用户个人主页所专注的专栏从而获取到11088个知乎...

60320
来自专栏灯塔大数据

谷歌 Ngrams :大数据如何创造错觉?

大数据如果我说美国人现在开始越来越以自我为中心了,你也许会想这个老家伙肯定又要嘟囔些「过去才是好日子」之类的。但是,如果我说我有着对1500亿个文本词语的分...

305100
来自专栏数据科学与人工智能

【数据科学】什么是数据科学家与数据科学

仅仅在几年前,数据科学家还不是一个正式确定的职业,然而一眨眼的工夫,这个职业就已经被誉为“今后十年IT行业最重要的人才”了。 一、数据科学家的起源 “数据科学”...

29560
来自专栏华章科技

跳槽失败:数据分析师+211硕士+掌握工具+做过BI项目

元旦前,听闻我一朋友跳槽失败,近日喝酒顺便交流下,又提及旧闻,我答:HR拒绝你,一点没毛病。

14320
来自专栏腾讯技术工程官方号的专栏

走近 VR

本文作者:陈国宁,2008年加入腾讯,先后从事支付portal、渠道、云账户、云支付、midas等系统的研发工作,2014年成为部门架构师,承担整体付费流程和系...

250100
来自专栏大数据文摘

2016年10个重要的可视化发展

15830

扫码关注云+社区

领取腾讯云代金券