"我们做的微博数据挖掘"

作者:数控小V

http://www.36dsj.com/archives/48650

新浪微博在2012年-2013年红得发紫,也是移动互联网快速成长的年代。主页君当时就读于北京邮电大学,在实验室老师的指导下,从4G研发转战数据挖掘。从此我们项目组在实验室每天的科研工作就是刷微博,看八卦,观凤姐独领风骚,赏公知互相撕逼。这篇文章,让我们尝试回忆那个时代有趣的工作和结论。

非常开放的微博接口

彼时,各大互联网公司都在发展开放数据平台,作为自媒体的翘楚新浪微博自然不例外。通过高级账号接口,几乎可以访问微博上所有的数据。

只要输入微博用户名,就可以获取该用户所有的微博,粉丝和好友。

2013年年底,新浪微博官方称拥有3亿用户。但经过我们对全网数据的抓取和分析,发现真正活跃用户不超过五千万人。这也与观察相似,绝大多数父母辈的人,只是听说过微博,但远远没有像现在使用微信一样产生重度依赖。

对用户按地域分组,可以看到,广东,上海和北京的微博用户是最多的。微博用户的数量,基本上和该省的经济总量强相关。尤其是广东,作为互联网普及率超高的地区,占据了全国接近四分之一的微博用户。

通过好友关系了解八卦

我们能够分析好友间的关系。可把每个好友看做一个小球,好友的连接作为一条弹簧,设定初值后,这个好友构成的网络就会逐渐稳定,所谓物以类聚,人以群分。初高中,本硕同学,亲戚同事,有共同爱好的各自聚在一起。甚至两个人如果是情侣或是基友,那么位置也会分外接近。各种八卦在一张图上一目了然。

上面就是主页君微博300多位好友的分析,整个计算过程从采集数据到可视化,需要约10秒钟。小球的颜色代表了分组,大小展示了好友的重要性。在中心位置的人,当然是主页君啦。

如何定义好友间的关系呢?很简单,共同好友和互相留言的数量越多,关系越紧密。地域,性别,爱好和组织也作为重点考虑的因素。两个人之间虽然互不认识,但如果有不少共同好友,连接也会较强。

你可以通过这张图推测此人的爱好,比如放大看一个只有六个用户的小类:清晰的表明了他关注书画鉴赏。

我们还能通过他们的好友和留言特征,分析好友关系的类型,比如是同事,同学,或是情侣,还能一定程度上推演他们是何时和如何认识的。太阳底下无新事,微博之下无隐私。

超大规模网络分析

仅仅分析某人的好友,这太easy了。为了研究巨大社群的关系结构,我们针对海淀的20万个微博用户,进行了超大规模网络分析,绘制出了如下的复杂结构(密集恐惧症慎入):

在海淀这样的高校和科技公司为核心的体系中,通过自动聚类和网络计算,发现小型社团的规模大概在10人左右,大型社团高达几千人,一般是同一学校的同学。很多社团是IT相关的,海淀果然是码农聚集地。

通过3D引擎,我们能够把整个网络以三维的结构绘制出来。你可以成为一架飞机,能在天空中漫游,从不同角度观察好友间的关系。

绽放的花朵:信息是如何被传播的

在微博营销过程中,客户将特别关心微博的传播能力,即,对用户群造成了多大的影响,哪些节点是核心传播节点,是否有水军等。我们专门对此开发了一项功能:

我们随意以潘石屹的其中一条微博“一句话不会讲,将来中国做支教老师了,勇敢啊@美丽中国” 。 这条微博比较中性,讲的是鼓励美丽中国 (Teach For China)这个公益组织中的一些外国友人,来中国偏远山区进行支教的故事。

之所以选这样普通的微博,是因为潘老大随便发一条微博就上十万次转发,传播量大的微博需要花费太多时间抓取原始数据。

下图展示了这条微博的传播统计。两分钟之后,转发次数达到高峰。一分钟之内被转发了33次。

还能清楚地发现传播者的省份,性别,认证情况和传播层级。内容中性的微博,各省市的比例基本和各省微博用户分布一致。

观察微博的传播过程是很有趣的,为此我们开发了一个能够播放网络的生成过程的“播放器”。转发微博从中心节点生成,按照时间顺序展开,就像盛开的花朵一样。

从这张图中,可以容易看出,潘石屹是微博源头,经过他夫人张欣进行二次转发,任志强又从张欣进行了三次转发,产生的传播能力也比第二次强。美丽中国也通过张欣进行了第三次转发,也有少部分四次,五次和六次转发。

这种技术有三个重要用途

  • 评估网络营销的传播能力,很多公司的广告部门会根据传播效果进行付费。
  • 微博溯源,一些造谣者产生内容,并故意让一些大号转发,谁造谣谁传谣,一目了然。
  • 网络水军分析。据观察,水军微博和普通微博的生成的网络结构图完全不同。能够很容易地发现哪些是水军。

这贪官该落马了:舆情分析

说起舆情分析,就不得不谈论2012年的网红“表哥”杨达才。 原陕西省安全生产监督管理局局长杨达才,在一场悲惨的车祸现场微笑而惹怒网友。万能网友通过他戴的世界名表来找他的“茬”,结果拔出萝卜带出泥,挖出他有多块名表,现金存款1600多万元。再后来,他被有关部门”高度重视“,双规了。

这是一个有趣的案例,我们在之前收集了各大报纸的400万条新闻数据,1亿多条微博的基础上,进行了一次舆情分析。

黄线是微博讨论“表哥”的热度,红线是报刊新闻的热度,系统针对每个高峰值,自动打上了和它相关的新闻标签。

微博讨论一共有三个高峰。第一个高峰是8月26日,表哥的微笑第一次被天涯曝光,原创微博数高达四万条。第二个高峰是几天后网络上曝出他有多块名表。一个礼拜后,传统的新闻报刊开始介入。进行了四周的高强度的报道,每天都有两三千篇。

我们特别好奇为何新闻总是在周末处于低谷,进行了不少讨论也没结果,后来问了新闻界的朋友,才知道好多报社周日不上班(汗)。微博的第三次高峰,就是杨达才被双规,但在微博引起的波澜,已经远远没有前两次那么强烈。

我们通过这张图,能够明显发现微博和传统新闻媒体的不同模式。微博来得凶猛,去得也快,是网民草根的狂欢,热度不会超过三天,而且”车祸现场微笑戴名表“的关注度明显比”双规“来得更疯狂;传统媒体慢热,却代表官方意见,在微博冷却后才有所反应,一般不会报道“微笑”,但一旦出现真正的腐败(大量存款)后马上就介入,来得慢,去的也慢。

其实多分析几个案例,就会发现各种贪官落马,假冒产品曝光的模式,都和上面的案例类似。先是微博热度爆表,之后传统媒体介入,马上就有有关部门高度重视了。进而,在对传统媒体和自媒体之间的相互影响建模以后,在理论上,能够大致预测一个贪官在被自媒体曝光后,多久会落马。

他们的观点是什么?分析语义

微博是有观点和情感的,分析其内容很重要。但语义是很难被量化的,受到计算复杂性和时效性的限制,也不可能做到太精细。

首先是话题。微博有针砭时弊,也有娱乐八卦,我们通常用关键词来进行判断。词汇和好友一样,也构成了一个语义网络。”自责“和”羞耻“相似而不同,一旦出现”满五唯一“,”免税“,大概就和楼市相关了。通过这种手段,我们能够对话题进行筛选和分类。比如只关心微博中与”苹果手机“相关的内容。

下图展示了对潘石屹的微博进行话题分类,占比最高的是”文化“,低一些的有经济,政治,教育等(怪我懒,这实际上是把对新闻做分类的模型用在了微博上)。

其次是情感趋向。遇到放假,微博锣鼓喧天鞭炮齐鸣。TFBoy又爆自拍,有人赞美”你们不知道他们有多努力吗?“,有的黑到死(此处省略十万字)。通过分析情感,我们能够分析针对某一话题,大家的观点分布和情感走向。例如网友对某款手机的看法,一定程度上预测其销量。笔者还有一位中科院心理所的朋友,他们成功地通过微博分析,发现抑郁症的朋友,帮助他们走出困境,防止自残行为。

情感有很多种,但我们将情感简化为正向和负向的数值,而且正向和负向的情感可以共存。下图是我们分析某网红从2011年到2013年的情感变化(图表来自笔者的研究生毕业论文)。

结论:应当更关注用户隐私

我们分析的只是信息海洋中的沧海一粟。仅仅通过公开的数据,就能做出大量的分析。

如今人们如此的依赖于手机和各类应用。电商掌握了所有的购物行为,地址,银行账户,电话号码。通信运营商记录了短信电话和位置。各类社交工具存储了用户所有的语音和聊天记录。搜索引擎记录了你每一次的点击动作。滴滴打车明白你的出行轨迹,大姨吗,陌陌了解你的…

总之,如今的互联网,根本没有任何隐私可言。理论上说,通过半公开的数据,你就能了解某人的一切隐私。而这些数据只是冰山一角,大量的暗数据蕴含着更可怕的能量。

彼时,在“开放数据平台”的风气下,各大微博API接口是非常开放的。只要拥有高级访问接口,便可以几乎无限制地访问所有数据。然而棱镜门之后,用户对数据隐私开始前所未有的重视。目前微博对于这种高强度的数据分析,已经不可能了,除非用户授权。

但是,这只是公司不公开了,但那些数据,还存在服务器并被买卖交换。可想而知,企业的”不作恶“是多么重要。

备注

1. 这些工具都是自行开发的吗?

是的,整个软件除了图表使用了第三方可视化库之外,所有的采集,分析和可视化都是自行开发的。尤其是那套可视化画布系统,其布点算法,图形引擎花了将近一个月时间。

2. 现在还能做这些分析吗?

微博接口都几乎都已经关闭。但2013年,我们就进行了一项计划,在四个月内通过十几台机器并行抓取,存储了微博两千万高质量用户的基础信息和社交关系,还有上亿条微博和相关评论。虽然并非实时数据,但针对科研学习和分析已经足够。

3. 还有其他好玩的吗?

其实,在微博中,有很多用户并不是真正的人,而是机器。2013年,我们进行了一项名为”魔法小屋“的计划。通过微博和纯粹的自然语言,你可以方便地控制家里的电器,了解天气,股票,了解朋友的八卦,还能和它闲聊。如今小娜和Siri已经很火爆了,但实际上我们通过不到1000行代码,就实现了可圈可点的语义解析和对话系统。

不少微博用户发完微博之后,很喜欢再把自己的位置标出来。这样,我们就能可视化他的位置,通过他在不同位置出现的模式,一定程度上预测他的位置。下图展示了一位大牛的江南骑行路线,红点下标出了他出现的时间和发的微博:

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2016-04-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏钱塘大数据

【精读】十分钟读完《决战大数据》

推荐语: 每品觉在大数据应用领域有着丰富的经验,《决战大数据》一书中提出的观点对大数据的决策者很有意义。大数据使企业经营者拥有了“望远镜”“显微镜”,除了能对...

4285
来自专栏量子位

不可描述⁄( ⁄•⁄ω⁄•⁄ )⁄!亚马逊用机器学习找有声书中情色片段

安妮 编译整理 量子位 出品 | 公众号 QbitAI ? 醉翁之意不在酒(〃∇〃) 你得承认,有的时候看言情小说不是因为里面的情节有多赞,也不是因为它的文学价...

3457
来自专栏数据的力量

产品运营黑魔法:用户在贡献内容时他们在想什么

1515
来自专栏CDA数据分析师

【技术贴】物理学博士教你怎样分析微博数据,怎样涨粉

网上已经有太多关于怎么增加微博粉丝数,以及怎样让我们发的微博获得更多转发的建议了。我们并不知道这些建议是否有效,因为它们大都是建立在个人感觉上,而缺乏真正有说服...

1758
来自专栏大数据文摘

菲尔兹奖得主维拉尼:七个点子帮你找到科研灵感

1536
来自专栏人工智能

Airbnb定价算法揭密

你应该收多少钱才会让一个人住在你家里?或者说,你愿意花多少钱住在别人的房子里?对于计划好的假期和突然决定的行程,你是否愿意或多或少地花点钱?

35510
来自专栏Java进阶之路

程序员技术路线和业务路线不同的职业发展

1083
来自专栏知晓程序

他做的小程序,估计 99% 的人都理解错了 | 晓组织 #13

我叫 Noah,很小的时候就很想知道这个世界的本质是什么,它是如何运转的,直到今天,也是如此。

492
来自专栏北京马哥教育

【职场攻略】致那些迷茫与不知前途如何的IT从业者 ...

2014,注定是让人不安、让人浮躁的一年,不管是群内的一些朋友,还是身边的朋友、同事,都能很明显的从他们身上感到这样的情绪。而今,2014已经过半,你收获了多少...

2539
来自专栏CVer

聊聊找AI算法岗工作

首先,本文不是为了增加大家的焦虑感,而是站在一名学生的角度聊聊找AI算法岗位的那些事儿(不喜请喷)。

700

扫描关注云+社区