张华平:从非结构化数据中获取洞察力

本文由经管之家小编整理自大数据工委会主任张华平在“2015中国数据分析师行业峰会”的演讲,如需转载请注明出处。

非常荣幸有这个机会跟大家来谈一谈非结构化大数据分析,今天我们讲到了很多数据分析。其实更多的层面,我听到的除了袁博士讲到的之外,我想跟大家分享一个概念。现在的大数据,可以说有结构化和非结构化的数据。结构化的数据大家比较清楚,比如说各种各样的数据库。这种数据库,现实生活中绝大部分数据是没有办法处理的,现在我们非结构化的数据规模是结构化数据的100倍以上,所以它的体量非常大。

我今天的题目主要跟大家讲社会化新媒体与非结构化大数据分析。其实我们在座的企业和这个也很像,我们先看一看网络发生了什么样的变化,最早的天涯,包括现在的微博、QQ、微信。现在我们发展到新媒体的时代,但是我们传统行业目前的模式还是什么样的状态呢?大家可以看到这是我们经常看到的场景,以后还会经常看到。

总体的感觉是,现在我们的网络3.0时代或者是我们到了社会化新媒体时代。但是我们政府的管理以及现在企业很大程度上还在1.0版本,企业稍微好一点充其量是在2.0版本。最直接的结果是当它们之间发生冲撞的时候会发生很多的矛盾和冲突,有很多匪夷所思的事情源于这两个版本不对等所造成的。

今天有很多人质疑大数据,到底什么是大数据?说难听一点,现在我听到更多的只有数据大,数据大并不是大数据。我来个举例子,比如说手机监控,手机监控的数据确实很大,它大到什么样的地步呢?我在央视专门做过一个解说,所有的实验我都做过,现在我们拿到的数据量还不算太大。

手机监控的原理我不解释了,我们来看一看,假如说每个人的手机,突然有一个人告诉我你出现在什么地方,这没有什么了不得的,用数据可以检索出来,仅此而已。如果这个归结为大数据,其实就差了很多。我们看这里面,这种表层的数据之后我们来做哪些事情。比如说我们可以推算出几个活动规律,比如说起床你的作息规律,包括一个官员什么时候去过中国澳门赌博,这里面的数据都可以发现。

除此之外,我们还可以推算出他的职业和性别。因为我们知道对性别的判别,其实在经济学系里是非常简单的问题。我们用贝叶斯,不需要那么多深入的分析的方法就可以非常高速的识别,我们的准确率大概95%以上,我们可以很清楚地知道女性和男性去的地方是不一样的。

更加恐怖的是,在这个过程当中我们可以分析出这个人整个的社交圈。比如说白天你更多是和你的合作伙伴在一起,如果是晚上,可能是和你的家里人在一起更多,我们看到大数据的洞察。我对大数据的理解,其实更多的是来源于我们用各种各样的数据对人进行完整的洞察。

一、社会化新媒体

所以我今天主要会跟大家分享社会化新媒体非结构化大数据、大数据搜索与挖掘关键技术,新媒体分析实战案例。社会化新媒体,大家可以看到现在的新旧媒体,包括《纽约时报》要抵押大楼,我们的彪哥要去收购大楼等等,我们可以看到这里面的变化,这原来是不可想象的事情。包括我们中央级的媒体也好不到哪里去,现在包括我们知道中国香港有很多传统比较好的报纸都处于倒闭的状态。是不是媒体不行了呢?其实恰恰相反,我们社会化的媒体,比如说《今日头条》,我们不生产新闻,我们只是做新闻的搬运工。所以这里面我们能看到全球的搜索市场变化,我们能够清楚地看到像Google它的搜索量,百度只是它的1/4。我们可以看到传统媒体央视,我们看2012年的百度,现在我们可以看到百度占的市场份额非常大,包括它的新媒体。

为什么会造成这种现象,我们做了一些分析可以看到,媒体内容的生产,实际上它的生产过程耗费非常大。在利益分配的时候是这么一个情况,生产远远小于品牌渠道,渠道远远小于品牌,品牌远远小于社群。比如说写书的不如卖书的,卖书的不如卖粉丝的。现在我们有更好的像《小时代》,主流媒体对它批判很多,但是一点不影响它的票房。我们看一下主要的原因在于传统媒体是内容为王,新媒体更注重用户。

我收集了一些传统媒体各种比较匪夷所思的事情。比如说有害气体,台北人民23年不吃不喝才能买得起房。当然还有一些更多的情况是这种的,比如说栾川风传溃坝的传说,还有就是三峡大坝可抵御百年一遇的大洪水,现在我们已经讨论了很多年。

社会化媒体,刚才讲到了什么是社会化媒体,我们简单的来讲,就是社会关系+传媒。传统媒体实际不太注重社会关系。我们可以看到,社会化媒体的发展历程,从1.0的BBS,到后期的即时通讯,再到Web2.0的博客,视频和社区,以及到现在的微博、微信,按照一些特点我就不去分析。

我们从信息传播的角度来看,传播的要素这是我们总结的图,比如主题,我想表达我的主题,时机,最后把这个信息传播给受众。最终传播的渠道就是我们所谓的媒介。

我们来比较一下,传统媒体和新媒体的差别在哪里?这里面我们要看到新媒体的内容是非正式的,大家来看为什么当年新浪极力推博客,博客始终火不了?微博和博客的差别在哪里呢?其实就是一个小的变化,说我们原来是要求像小学生写日记一样,写长篇大论,现在140字就可以了,这就导致了内容的非正式。还有这里是更多的多对多点,一个社交型的。尤其想强调的是现在在新媒体的环境下,它是一个对等交流,比如说我们CCTV和人民日报,它更多的是政治宣传,这就相当于它是一个在农村的大喇叭广播,我在这里广播,我不需要大家反馈,大家听着就好了。为什么现在一些政府,包括一些大的媒体在社交网络上已经成为了一个弱势群体,反而一些草根大V做的非常好,原因就在于他们没有把握他的场景变化。现在新媒体环境下更像是不站在台上讲,而是搬着椅子坐在你旁边讲。

我们再来看看内容的,这里有一些技巧,这有一个“三情”的理论。尤其现在比较火的传播,基本利用了人的基本需求,尤其是生理需求和安全需求。大家看一看现在很多的新闻网站,都在利用打擦边球,会经常放一个看上去,我刚刚还看了一条,让我们来看看河南的情色大片,点进去一看是它们很好的美景。安全需求,就是像你不转就不是中国人。还有就是在情绪方面的,具体在中国的表现就是仇官、仇富情绪。我经常举例子讲,如果我们想要攻击一个人,我们只需要说几句话就可以,说这个人开着玛莎拉蒂来上学,他的背景很深,具体有多深我不知道。这有两个就够了,这个过程当中,仇官仇富情绪一引发,这过程没有人追踪他是谁,所有的情绪都过来了。

还有像代入感,像我们现在经常传播的时候经常用的一些词:“深深震撼”、“激发梦想”、“乐享生活”。还有像我去要饭,左边说无家可归,帮帮我吧。右边说,如果你饿了,会怎么办?这个在新媒体上大家会经常用这样的技巧,就是让你感觉你在饥饿。还有我们经常看到手机发布会,说我的手机有什么样的技术参数,有64G闪存,其实这时候对64G都没有什么概念。还有其他的讲述的方式,我们可以看到好好学习的一些内容。再比如说漫画,这个实际在内容的传播方式也在发生变化。还有角色的扮演,还有很多话题,它的主题创意,我们常见的是像这种政府发的通知,说几层几层的紧急通知。实际上在我党历史上,传播最厉害的,就是打土豪分田地,六个字,一般农民都看懂了。这么多年来我们看到表叔,微笑局长,房姐,这就起到了很好的借用。

二、非结构化大数据

我们切入到非结构化大数据。我在说我看法之前给大家解释一下我所理解的大数据是什么,我所理解的是,大家能看到十几张图片实际上是一个普通的信息,我不用说要多大的数据,我十几张就Ok了。这样叠加在一起就产生一个1+1>2的效果,在这个过程中我们可以获取知识。实际上大数据的过程是信息叠加,产生知识的过程。

大数据给我们带来的是决策方式的变化。我们在决策的时候四个要素,主体、依据、机制、效率。像《富春山居图》,这很烂的片,当时它的票房很好,原因也很简单,它是一个审丑效应,大家都想看它有多烂,所以最后还是拿了那么高的票房。但是这个片子就没这么幸运了,《失孤》,它非得让大家来看,说刘德华扮演农民工是什么样子。大家看到,最终的票房也差,口碑也很差。原因很简单,它的决策流程是传统的小数据模式,就是因为我作为老板来说,我就喜欢刘德华,所以我非得选刘德华不可。当然也有好的例子,像唱小苹果的老男孩,这个实际上应用在业务库有一个三分钟的视频,有几百万人的访问,把这些人数据拿过来分析,这个是根据消费者,洞察他们的需求作出的决策。

有很多特征,我把它中国化的理解,实际上就是多快好省。大数据不是说投大量资金建立一个大数据中心,实际上现在大数据的技术和结构是能够以很小的性价比获得更好的价值。所有的大数据实际上是由无数的小数据组合而成,像袁博士讲到的大数据和小数据的差别。有时候大数据的精髓在小数据上。所以在认识的方式上,我们第一个,知著见微。知著就是宏观分析。最后一点,就是晓意,如果对语义不了解的话,有时候也理解不到。我们终极的目标是让计算机来自动理解人类的语言。最后,我们对客观世界的洞察,是我们通过人类自然语言来完成的。

我最终的结论,大数据更大意义上是非结构化内容的理解,因为结构化数据我们在大数据之前,我们通过数据挖掘各种各样工具,基本上来说没有新的问题和挑战了。我们最终的目标实际上就是我们希望从大数据里获得大的洞察力,这就实现我们去了解谁,什么时间,我们在做什么样的事情。

三、大数据搜索与挖掘关键技术

这里的关键技术,我给大家看一些例子。我们实验室的在线演示,我们来访问一下新浪新闻,我们就拿第一篇的新闻来说,我跟大家稍微解说一下。首先我们整个的分析平台,在这个地方是可以输入你任何网页,如果你不输入的话,我们系统可能是浏览器的问题会自动抓取一篇新浪网最新的文章,这是刚才的一篇文章,给大家展示一下。第一个,我们会把刚才的文章进行切分,比如说昨日,因为我们知道在中文里,我们是不做空格,之后再做色线标注。像这里的橘色表示的是时间,当讲到国务院李克强,李克强是人的名字,所以这里我们会做自动的识别,大家会看到,非结构化语义理解,完全的会直接的识别所有的这些工作。

另外,大家可以看到用户自定义词,这个过程当中你可以把自己专业的词汇定义进去。比如说华为,每一部新的手机都在用我们的工具,它定义了衣食住行各种各样的专业术语。比如跟美食相关的大概有几万个词,所以这里可以看到我们的分析。

前面都是自动生成的,大家可以访问我们的网址。这是一个词关联。这里面大家看到,比如,卡尔这个词我们会关联到卡尔马克思等等这样的词,对于这样的词我们会进行十几次的关联训练,所以每个词我们都会看到。

我们来看我们已经分析好的一个效果,这里展示的是这篇文章当中出现了哪些人,哪些地方和哪些机构,以及有哪些主题,这个会自动的计算出来。对词的理解上面,我们很多情况下是需要了解名词、动词、形容词的变化,还有一些情感分析,我们会分析出这篇文章是正面的还是负面的情感,同时可以输入一个产品,能够把这个文章对这个产品的正负面做一个计算。还有自动的打拼音,还有我们一篇文章可以用250个字或者300个字,把你的意思做一个自动的摘要。

这里我介绍一下我们做的一套大数据搜索引擎。像语法,我就一些负面消息,这个负面消息要在12次以上等等,这里可以看到一些效果。像搜查土豆,会出马铃薯,并且对搜索进行分类。一旦这里的数据发生变化,我们10秒钟内就会体现出来。还有对维吾尔语的搜索。我们还提供了二次开发包,现在在Linux等等上面都可以使用我们的系统。还有像对十八大理解和科学发展观等等都是自动算出来的。以及自动的发现甲流的问题,还有用我们的工具做用户的画像,我们还会分析人的情绪变化,大家看到蓝色部分的人情绪波动非常厉害,还有我们对价值观的分析,我们看到比如说我们刚刚宣判的郭美美,我们计算的结果,就是她的安全项非常低,所以她的一些行为大家容易理解,极度自卑会导致她用炫耀的方式来弥补。

四、新媒体分析实战案例

后面的案例部分,我们把马英九两年来两次的就职演说做一个对比。我们大家看一看,两岸的问题变得越来越重要。比如说把汪峰所有的歌拿过来,最后可以写一个汪峰的歌。比如说国家气象局,我们把过去五年以来所有的天气预报做了一个分析。在社交网络上专门抓失独老人这个词,主要的技术方案实际上是利用内容和社会关系。大家可以看到左边所有的变化是我们会根据已有的关系来发现亲人。

简单来讲,我们建一个候选人名单,如果候选人名单里面有三个这个不是偶然现象。现在我们在社交网上有一万多个失独老人。这是新媒体的编辑器,这是地域划分,包括在国内,以及在美国和国外分布的情况。这张图大家可以看清楚,这是草根的观点,以及所有大V的观点和媒体的观点。中国地图表示的是中国国内和体制内的媒体对这件事情的评价,这是国际媒体。大家基本上可以看到国际媒体和国内媒体关注点完全不一样。

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2015-09-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

CNCC 2018 字节跳动马维英演讲:人工智能赋能内容创作和交流

AI 科技评论按:2018 中国计算机大会(CNCC2018)于 10 月 25-27 日在杭州国际博览中心举办,会议由中国计算机学会(CCF)主办,杭州市萧山...

13220
来自专栏数据科学与人工智能

【数据动态】 需求高涨的数据科学家

从技术方面来看,硬盘价格下降,NoSQL数据库等技术的出现,使得和过去相比,大量数据能够以廉价高效的方式进行存储。此外,像Hadoop这样能够在通用性服务器上工...

26860
来自专栏人工智能头条

未来5-10年,自然语言处理将走向成熟

9330
来自专栏程序员笔记

藏在游戏外表之下的

19640
来自专栏机器人网

iCub 一个拥有自我意识的机器人

人的自我有5个组成部分。机器现在已经具备了其中3个。那么,人工意识离我们还有多远呢?它又能揭开哪些关于我们人类自身的秘密呢? 什么是自我?17世纪,勒奈·笛卡...

34560
来自专栏数据科学与人工智能

【数据科学家】2015年最热门的职业:关于数据科学家的概念、职责、技能素养和学习资源完全手册

你是精通数学、擅长Python或者R并对某一特定行业有着深入理解的Geek么? 如果你的答案是Yes,不妨考虑一下21世纪最性感的职业——数据科学家。 领英最近...

250100
来自专栏CreateAMind

奇点大学公开课-颠覆你的思维

14520
来自专栏新智元

【彭博研究巨献】2016 机器学习生态全景图 3.0:机器智能改变世界

【新智元导读】Bloomberg Beta 团队回顾总结全球机器学习 2016 一年发展,总结技术、应用、产业等各方面并展望未来。核心请看他们绘制的《机器学习生...

42590
来自专栏大数据文摘

到底人工智能会不会统治世界?

15820
来自专栏PPV课数据科学社区

【案例】如何用大数据优化技术提高Linkedin内容运营效果数十倍?实战干货分享

作者简介 宋碧莲博⼠是商业优化专家。 擅长机器学习客户行为,海量数据价值挖掘,对商业目标精准预测和决策优化。曾经是Linkedin,eBay的大数据核⼼成员。...

41480

扫码关注云+社区

领取腾讯云代金券