美国数据科学家:重视非结构化数据分析 走出两大“经典”误区

非结构化数据分析既不等同于舆情分析,也不等同于情感分析,它是一个数据驱动的将语义分析、人机互动、舆情分析三者结合的不断循环改进的良性过程。 虽然基本上国内大部分公司,言必提“大数据”,但是对于大部分CIO、CTO们来说,对数据的分析仍然停留在过去的阶段:对于非结构化数据分析的成熟度还远远落后于结构化数据。 但是现在移动端所带来的爆发式增长给大数据从业者带来了非常大的挑战,这些数据有很多是非结构化数据,充斥了人们交流的空间,相应的,对非结构化数据的分析也变得越来越重要——对非结构化数据进行分析、提取出有价值的东西,成为CIO、CTO们最关注的问题。 但是目前,很多人仍有非结构化数据分析等同于舆情分析的粗暴认知。

非结构化数据分析就是舆情分析?错!

“非结构化数据分析就是舆情分析,这个技术中国现在已经发展的很快了。”类似这样的言论在CIO、CTO们的交流中屡见不鲜。

但是美国数据分析科学家、美国非结构化数据分析鼻祖企业Taste Analytics创始人及全美五大可视化研究中心的Derek Wang(汪晓宇)博士表示,事实上这是完全不对的,舆情分析其实仅是非结构化数据分析的一部分。

舆情分析,是人们通过先前经验制定监控的KPI以及监控模型,而后通过模型预知和监控未来风险的过程。

但是真正的非结构化数据分析,是一个由数据驱动(Data-driven)的语义分析加舆情分析的整体过程,这比单纯的舆情分析更具科学性,内涵更丰富。

首先,舆情分析具有滞后性,而非结构化数据分析具有前瞻性。

舆情分析是一个先建词库、后验证的过程。举例来说,比如公司要监控某次危机,舆情分析就需要先将与这个危机有关的词汇建立到学习范本里,一旦随后的搜索监控结果与范本里的词汇有所匹配,那么就说明已经出现了这个趋势。

可以看到,这是一个后验的过程,但是,非结构化数据分析则是机器从未知的数据里实时提取出重要的关键信息,作为未来舆情建模的基础性标准,具有明显的前瞻性。

“语义分析其实是舆情分析的对立面。舆情是你知道这件事再去监测,而非结构化数据分析则是不知道的时候去挖掘、建立监测的模型。一旦数据容量呈爆炸式增长或流行词汇更新换代,非结构化数据分析可以实时更新学习范本,重新定义监控模型。”Derek Wang博士说。

第二,舆情分析会依赖于人们的经验来建立模型,而非结构化数据则是数据驱动,更为客观科学。

“虽然舆情监控也有机器学习的技术在里面,但是最大不同在于,它是一个后验的过程。”Derek Wang博士说,“这要求人们先要有这个经验去建模和监测。”

而语义分析是非结构化数据分析里的一个重要部分,相对于舆情分析需要先建立相关的词汇库,语义分析则是一个用机器学习的方法从数据源里提取出关键信息的过程。由于它是通过统计学和深度学习的方法产生,所以能保证科学性,更客观自然地把文档里的关键信息提取出来。

第三,人机互动可以补足技术短柄。

真正的非结构化数据分析,比如Taste Analytics研发出来的技术,不仅包括舆情分析和语义分析,更为关键的是,还加上了人机互动的创新机制,涵盖了整个非结构化数据分析全过程——从语义分析到人机互动,再到舆情分析,三者缺一不可。

据了解,目前美国工业界已经充分认可了这种三位一体的非结构化分析理念:在语义分析的结果基础上,企业内部分析师对机器学习的结果进行学习和KPI筛选,而后再建立舆情模型,进行长时间监控。

这样合理地整合“舆情”加“语义”两大技术系统,再把企业内部分析师的主观能动性有机结合起来,才能实现客观的数据分析。

美国一家知名银行的受访人士也表示,此前他们委托第三方建立的舆情体系,其实最终效果并不让人满意。“按照人为经验建立的舆情体系下,监控和分析的结果都很片面,”对方称,“所以我们最终还是转向了Taste Analytics结合舆情、语义和人机互动的更加客观高效的非结构化数据分析服务。”

非结构化数据分析就是情感分析?错!

不仅国内,即使在美国,非结构化数据分析也属于非常前沿的技术,企业简单粗暴地把非结构化数据分析等同于舆情分析的也不在少数。他们甚至还走入了另外一个误区:把非结构化数据分析和原来美国流行的情感分析也混为一谈。

美国很多企业都和客户关系很紧密,非常注重客户的反馈。而情感分析就是这样应运而生的:它让机器试图理解人说的这段话是正面、褒义的,还是负面、贬义的。

很多美国企业在过去3、4年里,都把所谓的非机构化数据分析,当成情感分析。但是,即使是业界最高水平,也仅仅能够把用户情感度划分成11个层级,来让机器了解人们对这个产品是喜欢、还是讨厌,却无法真正让企业理解用户的深层次需求。

Derek Wang博士介绍说,情感分析的局限性非常大,最多只能作为企业数据分析的一个参考指标,而不能保证100%正确。

比如,嘲讽的语气就是机器无法识别的。美国就曾有公司过于信赖情感分析模型,完全错把顾客的嘲讽当成夸赞,搞反了产品研究的方向。

另外,情感分析缺乏对客户想法的深入挖掘。

机器可以尝试对喜恶赋值,但是这一数值没有办法为企业解释上下文是什么,也就是说永远搞不清客户为什么而喜欢/讨厌它,这样一来情感分析的参考价值就大大缩水。

但是,非结构化数据分析却可以实现“溢价分析”,也就是说,它不仅可以告诉企业客户的情感度多少,还能指出客户在哪里有情感不满。这样就为企业提供了科学的决策辅助工具,有助于企业在今后有效地提升用户满意度。

“我们的语义分析可以把很多种自然语言分析模块有机结合在一起,把自然语言学习、分词、聚类、情感分析都立体整合,把整体化的语义分析带给市场。” Derek Wang博士介绍说,“这其实也是非结构化数据分析和传统情感分析最大的不同。”

海量的客户需求,巨大的市场空白

据IBM商业价值研究院和牛津大学赛德商学院共同发布的《分析:大数据在现实世界中的应用》显示,全球仅四分之一的受访者表示自己具备了分析高度非结构化数据的能力,而对大部分组织而言,掌握先进的非结构化数据分析能力仍是从“大数据”中获得价值的重大挑战。

事实上,任何需要和客户直接打交道的企业,都应该从现在开始,重视非结构化数据分析的重要性。

为什么呢?至少有两点显而易见的理由。

首先,非结构化数据分析可以排查出致命纰漏,保住了企业的“底线”。

企业服务里可能存在很多难以察觉但是致命的纰漏,用别的方法是很难排查的。比如,美国某著名家电厂商CIO表示,他们在启用The Taste Signals Platform的第一天,就发现了一年以来客户邮件一直在抱怨的一个小纰漏,从而及时挽回了品牌声誉。

其次,非结构化数据分析提升了企业客户服务的效率。

目前,大多数企业已经建立了多个客户沟通渠道,平均下来有6-7种之多。企业每天都要安排大量的客服人员和客户沟通,但是却“治标不治本”。

企业对客户投诉等这些典型的非结构化数据的分析很少,更多的是疲于解决问题,而不是找到投诉背后的主要原因,而从根本上解决它。

“很多时候,客户一抱怨,客服就是去安抚,甚至安排退货,很少有企业来看说每月为什么有退货,而只是在被动解决问题。”Derek Wang博士表示,“而非结构化数据分析,对客户的抱怨不仅知其然,更将其作为分析结果呈现给企业,企业可以做出改进,从而从根本上解决大批客户的抱怨,大大提升了客户满意度。”

“事实上,不仅如此,以美国企业的经验来看,数据驱动的科学的非机构化数据分析,可以帮助企业提升内部分析师的效率,并且实现明显的商业价值。”Derek Wang博士表示。

目前,中美企业都意识到了非结构化数据分析的重要性,但是苦于市场上几乎没有成熟的解决方案。

Derek Wang博士也表示,排除BAT之外,能够在内部建立非结构化数据分析团队的公司,几乎可以称得上凤毛麟角,很多都是交给第三方服务公司。但问题在于,很少有第三方公司可以完全独立承担非结构化数据分析服务,而且技术也远远不能满足现在企业的需求。

另外,即使有一些非结构化数据分析的工具,由于它们都不是给最终用户设计的,所以普遍都很难用,需要长时间对员工下进行培训,这样产生的经济价值很小。

“CIO们几乎都没有一个工具,可以来调动员工分析数据的热情。而让第三方给他们提供的话,效果也不好。”Derek Wang博士说,“很多时候很多大数据分析工具看起来卖相很好,但是很难被大范围使用,这是企业的损失。”

美国率先实现非结构化数据分析

尽管企业对非结构化数据分析有很大的需求,但是这个市场几乎是一片空白,而由美国夏洛特图像可视化中心的几个年轻的科学家成立的Taste Analytics,看到了这个领域的巨大潜力,决定用自己的研究成果来颠覆传统的数据分析服务。

目前已有6家福布斯全球500强公司以及多家美国主流企业都采用了Taste的新型非结构化数据分析平台The Taste Signals Platform,而且他们的销售额在以400%的速度增长。

“Taste Analytics的优势非常明显,他们可以对数据、文字以及语音进行实时分析,结合了舆情分析、语义分析、人机互动三重机制,再加上可视化分析结果和简单易用的使用界面,他们不仅能帮助企业了解新的市场增长点、做出正确的决策,而且可以充分调动分析师们的积极性。”业内专家表示。

另外,Taste Analytics的服务适用于各种非结构化数据分析场景,只要有聊天记录、对话记录和邮件记录,他们的服务就可以和数据源直接对接,非常易用而且安全。

“我们也给中国企业提供了非常本地化的服务。从安全角度来说,如果是企业内部的私有数据,我们可以把平台放到企业防火墙内或者内部云里;如果是外部数据,我们的爬虫会自动抓取这些数据,”Derek Wang博士说,“我们一直希望的就是,让企业用最小的付出,得到最好的结果。

(来源:爱数据网 作者 硅星闻)

1、回复“数据分析师”查看数据分析师系列文章 2、回复“案例”查看大数据案例系列文章 3、回复“征信”查看相关征信的系列文章 4、回复“可视化”查看可视化专题系列文章 5、回复“SPPS”查看SPSS系列文章 6、回复“答案”查看hadoop面试题题目及答案 7、回复“爱情”查看大数据与爱情的故事 8、回复“笑话”查看大数据系列笑话 9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载 PPV课大数据ID: ppvke123 (长按可复制)大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2015-09-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

干货长文 | 如何用大数据构建精准用户画像?

什么是用户画像? 用户画像(User Profile),作为大数据的根基,它完美地抽象出一个用户的信息全貌,为进一步精准、快速地分析用户行为习惯、消费习惯等重...

83180
来自专栏钱塘大数据

【推荐阅读】如何用大数据构建精准用户画像?

什么是用户画像? 用户画像(User Profile),作为大数据的根基,它完美地抽象出一个用户的信息全貌,为进一步精准、快速地分析用户行为习惯、消费习惯等重...

1.3K60
来自专栏AI科技评论

卡耐基梅隆邢波眼里的人工智能:它的价值在于通用性

GAIR 今年夏天,雷锋网将在深圳举办一场盛况空前的“全球人工智能与机器人创新大会”(简称GAIR)。大会现场,雷锋网将发布“人工智能&机器人Top25创新企...

38250
来自专栏新智元

2017开源大调查:每天在Github上默默贡献的都是什么人

【新智元导读】 在今天的数字世界中,开源软件几乎为现代社会和经济的全部赋能。了解构建,维护和使用这些开源项目的人员对于关心开源的可持续发展的任何人,以及依赖于...

40370
来自专栏机器之心

观点 | Facebook数据泄露事件之后,还有哪些AI危机在等着我们?

选自Medium 作者:François Chollet 机器之心编译 参与:白悦、李泽南 自今年三月以来,由 Facebook 数据泄漏、「大数据杀熟」等事件...

26970
来自专栏机器之心

业界 | 微软官方解读自家机器阅读研究:要教机器学会阅读、回答和提问

选自Microsoft Blog 作者:Allison Linn 机器之心编译 参与:李亚洲、黄小天 ? Rangan Majumder、Yi‐Min Wan...

28760
来自专栏CSDN技术头条

如何用机器学习和知识图谱来实现商业智能化?

7 月22-23日中国人工智能大会(CCAI 2017)在杭州国际会议中心盛大开幕。德国人工智能研究中心(DFKI)科技总监、北京人工智能技术中心(AITC)总...

41390
来自专栏机器之心

业界 | 优图、音视频实验室之后,腾讯SNG量子实验室也浮出水面

52580
来自专栏AI科技大本营的专栏

如何跨越人工智能技术与产品的鸿沟?

【AI100导读】:“鸿沟理论”指的就是高科技产品在市场营销过程中遭遇的最大障碍:高科技企业的早期市场和主流市场之间存在着一条巨大的“鸿沟”,能否顺利跨越鸿沟并...

402140
来自专栏AI科技大本营的专栏

CCAI 2017 | 德国DFKI科技总监Hans Uszkoreit:如何用机器学习和知识图谱来实现商业智能化?

文/CSDN大琦 7 月22 - 23 日,由中国人工智能学会、阿里巴巴集团 & 蚂蚁金服主办,CSDN、中国科学院自动化研究所承办的第三届中国人工智能大会(C...

38360

扫码关注云+社区

领取腾讯云代金券