沈浩:通过大数据感知社会

以下内容,根据中国传媒大学新闻学院教授沈浩在第十一届亚洲传媒论坛发言整理。

在今天我们看到对于广电行业来讲,其实无论广播电视还是其他媒体,是一个融合和聚合的时代。人们通过移动、互联网等等方式,人们在看电视的时候,人们看到电视已经有了操作系统,或许人们在看电视的时候,通过按一下手机就能看到各种电视节目,看到电视了,当然也有人在看电视的时候其实他经常是在看电视上网,也可能主要是上网,看到网上人们提到什么事情又去电视上去看两眼。在这样一个融合聚合的时代。

今天的大数据仅仅露出冰山一角

  什么是大数据时代?在大数据时代,我们越来越多的可以从数据中观察到人类的复杂模式,以数据为基础的数据决定人们的未来,但并不是数据改变我们,而是我们对数据可用知识的增加。这句话实际上是巴拉巴西说的,他说人类93%的行为是可预知的。今天人们甚至把大数据当成了第四种生产资料,它是一种石油,新的石油。

  实际上今天大数据也仅仅露出了冰山一角。当它露出来的时候,我们的社会科学者,媒体观察家、商业人士也已经意识到大数据对社会的影响,特别是对商业的影响。本质上大数据是一个很重要的技术,涉及到数据挖掘技术、数据可视化技术、编程技术、软件技术以及其他的一些相关的领域包括向机器学习、统计分析,这些概念或许过去媒体很少谈论。

  大数据时代的一个标志是大数据的商业自动化生存。它的数据量很大,纬度视点非常复杂,实时强调它的数据。过去移动也在做数据挖掘,那时候不叫大数据,即使叫大数据,但跟我们似乎关系不大,那时候的数据挖掘是解决企业内部的问题。淘宝也有大数据,但是它的大数据跟我们没有多大关系,它主要解决企业内部经营和精准经营。

大数据给我们生活带来了不同

  为什么今天在谈论大数据呢?那是因为大数据给我们带来了太多的不同。今天我们每个人都在使用微博,当然也包括微信。微博跟微信是不一样的,微博的数据我们是可以轻松或者轻易获取的,移动可以分析我们花了多少条短信,什么时候发,但是它不能分析我发的什么内容。今天如果你在微博上发东西,我不光知道你什么时候发,而且你发的什么内容,说的什么事情,我也可以知道。

  我经常跟我的学生说,你要好好写微博,将来有什么都可以仔细看你的微博,由此可以了解你的性格,了解你的品牌爱好,了解你的生活方式甚至你的价值观。

  从这一点上来讲当我们非常容易获得我们所说的数据的时候,特别是在社交媒体,以新浪微博。这是我提前抓来的数据,这是人民日报官网的微博,我们通过这些数据就可以看到,这个人什么时候发的微博,他可以到了分和秒,星期几,因此我可以算计一天24小时大概你都几点发微博,一周7天你都什么时候发微博,当然这些数据分析都是非常简单的。我们更关注的是什么?关注他说的什么内容,过去这些内容你可能不能分析,但是今天他都变成了数据网。当我们拿到这个数据的时候,第一步可以完成对他所有的一些我们直接印象,完全可以把数据从分结构网变成结构化的数据,那么这种结构化就相当于我把它封死。所以对于像分子这样的技术实现了我们对非结构化的结构化,特别进入了叫文本搭载技术。

  在这里面我们看到,这时候我们已经能够完成把所有的数据都变成了一个词汇。你可以看到这时候他(某名人)会说,这句话他变成了说最大的余震为27日零5时发生的,这是当时地震发的微博,这个数据量有多大呢?我们可以看到数据量短短收集这么多,一分钟就有将近60万的记录,对于这些数据我们有数据流的处理,我们可以看到在这个数据流中数据流动流到了这个位置我们可以获取我们想获得的一些信息,这些信息在流动的过程中,实际上我们已经算出来了他的所有的一些词性。我们经常说一个人在微博上经常写名词,用得多说明这个人有专业知识,在这个时候我们看到,我们已经能够知道他说的什么词汇,当然我留了一些实体词像名词、动词、形容词,这个时候通过这样的数据处理工作以后,把它导出来,导出来以后我们实际上可以在这里面直接对这些数据进行分析了。

大数据分析变得特别简单

  今天的大数据分析,或者所谓的大数据分析对于我们在座的很多社会科学的人来讲,甚至我说了文科的来讲都是一个很简单的事情。当我们联接到这些数据的时候,刚才我导出来的这些数据,有没有发现这时候数据是实时更新的数据?实时更新的数据可以做什么呢?我只要知道这些数据,比如说在这里面这些人都说了什么话,拿过来可以看到,在这样的词汇中,我们可以看到他说了什么,很容易就看出来这时候我们看到,看到了每一个词汇所出现的频次。

  我们更愿意看到什么呢?如果我关注这样一个词汇定义成一个角色,比如我匹配一个城市,我立刻只要双击它,他就会说在人民日报官方微博上,在这么多条记录中都提到了哪些城市,在这些城市里面我们可以看到他所提出的一些特征、标签,提了多少次,就像新闻联播、人民日报提到的城市都是很重要的。我们可以把它变成一个大小来感知,同样我们可以通过颜色来分区看到这样的差异,这些东西可以让我们感知到,在这样一个地理信息上,你只要想看得更细,你只要打开说我想看看近况发生什么事,这是他提到的字提到的地理信息。

  如果我们分析一个人,他经常出去玩,我知道他都经常走到哪个地理信息上,当我如果把这个地理位置重新定义角色,从国家角度来看,我们可以把这样一个角色还原成一个全球性的地理信息。

  我们可以还可以看到人民日报这样一个官方微博上,都提到了哪最多,提到哪的点更大一些。当然在显示上我们也可以看到这样,立刻有这样显示的风格,呈现数据的结果。这些表现的方式始终我们看到,通过这一块简单的处理,当我把某一个官方的微博或者官媒抓下来的时候,我们立刻感知到这里面的词汇用了什么,他说了什么词,以及提到了哪些地方,而这些东西都可以经地理信息进行进行他的自我匹配。

大数据可以反映信息传播路径

  在大数据领域里面不光涉及到这样数据的分析,还涉及到一些传播的路径。比如说我曾经抓到过一个数据给大家演示一下。在雅安地震时,红十字会发了一条微博,有人说滚滚滚。我当时就很无聊,把这条信息抓下来,然后数一下有多少个滚,其实我并不是想数多少个滚,这件事情很容易做到,但是我更想知道什么人在这里说滚,有没有什么样的团队团伙在这里面说滚。这样的数据我立刻可以通过数据把这些人导出来,这种技术是从文本中或者从大数据中抓出来。在将近10万条记录中,就是一条微博跟传播的路径中,我们抓下来10万个传播。这是从10万条记录中抽出所有的状况,这个过程可以看到,后面一点他说的是在这句话中,也就是这条传发人中哪些人被传发了。我们在商业上在大数据里面经常说,买这个东西的人一般还买什么,看这个视频的人还看什么,喜欢这个演员的人还看什么,像这样相关的特征是大数据挖掘的特点。我们对于这样的特征可以通过立刻这样的一个分析,就可以发现关联规则,这种关联规则就是说买这个东西的人都买什么,在这件事上跟什么发生关系,我们可以想象大量的精准营销,大量的个性化推介都是基于关系来推介的。

  这种它的协同过滤的过程,就可以让我们感知到这种个性化的东西。实际上大数据更多的是要分析在这些人当中到底哪两个人哪些人经常在一起沟通,在这个过程当中我们立刻可以分析它,去逆行这些数据,这个时候我们可以看到,数据在这里面跑动,可以看到,这时候把所有挖出来的那些人,大概有多少呢?大概100万在这里转发了,这100万到底是什么样的关系,有什么样的团伙呢?数据一直在这流动,在这里我们会发现,其实我这样一个电脑也无法跑动100万人之间的关系,我只是保留那些人。对所有的数据结构特别是微博我们可以很容易得到,可以分析。

  进入大数据时代很重要的领域叫网络科学。网络,传播网络是社会网络的一个核心部分,在这个过程中我们看到数据传到这一块的时候会变成什么样呢?这时候你会看到在整个这一条数据信息被传播的过程当中,到底什么人在这里起着作用,即使我只保留了一些人,你还是看不清楚什么人在起作用,但是它确实在计算。它可以把刚才的数据传输到我另一个工具里面,在这个工具里你看到这就是一条微博信息的传播路径,这就是我们这条微博,这条微博长什么样,里面有什么人在里面起作用呢?我们可以通过这样一个计算就可以立刻感知到这条信息的传播过程中到底谁在起作用呢?

  我们可以看一看,在这里面起作用的是谁呢?其实你可以看到,在这里面起作用的是谁?你会发现这个大号叫"宁财神",或者也可以看到这个人叫"徐昕",以及我们看到的像"洪晃",还有"作业本",以及袁腾飞,信息传播过程当中你传播的过程被记录出来,在记录过程中我们可以知道每一个点每一个位置。当然如果你从营销的角度其实也知道,只有通过这些大号才能把信息传播出去,这里看到传播的机制在这里。当然我们也可以挖掘这种机制,这是一条最典型的数据。

  这里面每一条信息的传播都有它的特点,在一条信息传播过程中有商业自动化现象,我们可以捕捉每一个季度的细节,我们知道在这里面什么人起着重要的作用,而这种作用你会发现在我们传统的大众传播中是不存在的。通过这样的方式,我们可以知道谁在这里起着核心的作用,它的位置和角色决定了它的态度和行为。

  这条信息的传播是当时杜蕾斯发了一条官方的微博,这条微博大概有4万条转发,我抓下来以后形成了一个数据结构。我们对数据的挖掘对文本的挖掘对网络的挖掘,以及对数据可可视化的技术,成为大数据时代挖掘的特征。

大数据分析可以影响商业活动

  今天我们所讲的大数据时代,其实更专注的是抓住每个个体,算计每一个人。人们在微博上,在国外是在推特faceboack上追踪每一个人的行为,叫挖恐怖分子,也许是算计每一个人,如果能算计每一个人当然可以算计一个群体,由此感知整个群体社会的情绪。在大数据时代会出现情感挖掘、意见挖掘。我们通过对大数据的捕捉,能够感知到社会的情绪,希望通过大数据来预知社会,来预知股票的波动,当然人们更愿意去预知电影票房的情况,我们来感知我们的电视剧的收视率收视情况,现在我们看到大量的影视节目都会通过微博、微信,当然主要还是在微博上进行相应的互动联动。

  我们看到随着社会的变化,人们越来越个性化,其实越来越个性化意味着越来越社会化。我们开始有了微博的时候,我写了一篇文章,叫微博重塑社会关系图。基于微博传播的信息所构成的一种关系,它一定会形成一种结构,而结构具有稳定性,也具有预见性。在这个过程中我们会发现,我们在相互联系,不可避免的网络世界,无论直接影响还是间接影响我们的网络体系。传播网络仅仅是切入到社会网络中影响我们信息网络,当然我们影响一个人就会间接的影响更多的人,所以在这里面我们需要去探究在网络传播过程中,特别是以facebock、推特这样的形态所带来的影响,特别是带来信任,会带来信息的传递。

  微信具有强观性的特点,我们可以捕捉任何一个微信帐号公共帐号,我们说的是微信公共帐号的所有跟他互动的消费者的未知信息,基于这些信息可以通过空间数据对接,就可以实现对消费者信息追踪和个性化推介。

  从这个角度我们可以感知整个社会的形态,已经不能单单的看它的个体属性,我们更符合的看它的关系,他选举谁,他选谁,他跟他是收入无关,主要是他的太太,是他的关系他的朋友决定了他多很多行为特点。基于这样的网络视角,这种转播网络的视角,让我们更好的能够洞察在今天信息传播过程中所具有的形态。在整个传播过程中,我们都可以去捕捉每一个传播的细节,使得在我们营销中更有它的一种针对性和个性化,所以通过向社会化媒体这样的一种传播机制,我们可以更多的在一个社会网络环境里、在目标明确结构稳定的基础上,经过这些关键的结点就能够影响消费者的购买,也能产生预期的一种营销。

  基于微博的大数据分析可以分析很多信息。比如演员在微博上互动的关系,这种互动关系可以看到每个演员都跟谁经常互动。我把所有的像爱奇艺、乐视、PPTV中的电视剧演员互动的关系抓下来,来感知整个演员网络之间是一个什么样的合作网络,由此可以分析他们的角色,或许某个演员跟某个导演合作会产生更好的收视结果。当然在这里面这些都可以在线,通过实现互联网上也就是网络的查询,只要点击任何一个人查询任何一个人。在这样的传播模式中,我们可以看到人际的沟通,形成我们基于网络环境下基于关系环境下的第五大时代。

大数据改变了媒体报道方式

  这是2014年新年的时候推特发布的一个实时数据,看到人们正好在发微博搞新年祝贺,在一个时间轴上,这也是大数据上很重要的实时应用,可以捕捉到这个城市各个地方在不同时区在进入新年的时候人们发布新年祝贺这样词汇的一个捕捉和监测,这些都是大数据时代的应用。

  在这个过程中我们可以看到,最典型的在大数据时代对于我们传媒特别是新闻诞生一种新的新闻形式,叫数据新闻。我直接就在这,时间不够,我就不再点击了。它实际上是一种什么形态呢?过去我们说了新闻是新近发生的新闻报道,现在基于大数据时代我们会发现,新闻是从数据中发现的最新报,这种发现最新的报道是什么呢?这张图是BBC前一段时间发生的窃听门事件,当时这个事件发生以后,人们实时讨论这个话题是什么,这样通过这种数据的可视化捕捉这些数据。法庭审判的时候,人们在推特上的话题不停转换,这就形成了一种新的报道形式。最近我们看到这种数据新闻所形成对社会的影响方式也会产生,这个也是一种大数据时代的一种应用。

  当然在我们今天进入大数据时代以后,对我们广电行业特别是我们传媒行业提出了一些新的挑战。过去我们更多的是在内容,现在我们要针对微博、软件、技术,实现各种各样的挖掘能力。就像当年我一个学数学的,十几年前被丁老师带到了新闻学院的这种感觉。

  大数据时代也带来了我们对新闻传播领域的一种新的理解。我们希望通过大数据的分析来感知到社会的情绪,能够更好的洞察无论是在商业还是对社会的影响上。

摘自:搜狐

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2014-01-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

AI为人人服务,Google IO 2018亮点特写与CEO皮柴的公开信

1372
来自专栏钱塘大数据

【干货】1000位产品经理推荐的数据分析书籍

世界如此喧嚣,知识何其稀少。这是一个信息爆炸的时代,被资讯洪流裹挟的我们,都养成了非常不好的思维习惯:把信息当作知识,把收藏当作学习,把阅读当作思考,把储存当作...

5156
来自专栏大数据文摘

没有可视化,就没有大数据

35414
来自专栏大数据文摘

制做信息图的六件不可为之事

3166
来自专栏PPV课数据科学社区

怎样判断一个人是否适合做数据分析?

部门要找几个人做数据分析。现几个人原来是在不同的岗位上的,以前没有做过数据分析,怎么样才能看看出他们是不是适合做数据分析呢,在进行竞聘时使用什么样的题目会比较合...

38610
来自专栏Bug生活2048

语音识别-人工智能的重要手段

如今人工智能大热,不管什么行业都会联想到人工智能,当年的PC时代,到现在的移动时代,主要还是靠文字搜索,显然,文字搜索的效率和局限性相比语音差了很多。

1372
来自专栏AI科技大本营的专栏

Google把AI芯片装进IoT设备,与国内造芯势力何干?

一直以来,Google 就通过自研 AI 芯片以满足其神经网络日益增长的计算需求。北京时间昨日晚间,远在太平洋彼岸的 Google Cloud Next 201...

1072
来自专栏developerHaoz 的安卓之旅

我的 2017

不知不觉,2017 已经过去了,回头想想这一年的经历,确实发生了不少事情,以前一直没有写年终总结的习惯,一方面是自己觉得好像没有什么内容可写,另一方面是没有写作...

802
来自专栏新智元

强化学习处理自适应码流播放,爱奇艺AI推荐提升观看率15%

3087
来自专栏云计算D1net

IT企业对私有云的兴趣随着市场成熟而增长

专家表示,IT专业人员对于私有云不断增长的兴趣反映了其对云计算更好的理解。 在过去的一年里,因为私有云在市场上具有更成熟的平台和更大的能力,IT专业人士对其兴趣...

35910

扫码关注云+社区

领取腾讯云代金券