前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【推荐】更多数据……巨多数据……大数据!

【推荐】更多数据……巨多数据……大数据!

作者头像
小莹莹
发布2018-04-20 15:04:47
8510
发布2018-04-20 15:04:47
举报
如果你所在的企业正在利用大数据支撑运营型分析工作,本章讲的正是这时你需要掌握和了解的那些关乎大数据的重要趋势。过去的许多年间,企业积累的数据越来越多。尤其是到了近几年,数据累积的节奏开始加速。今天,数据格式往往呈现新颖化的趋势,分析手段往往呈现多样化的趋势。大数据正是在这个趋势上打的标签,它带来的是更大的数据挑战,更多的数据源,以及不同的数据格式。

当一家企业开始思考大数据,并且思考大数据将如何影响企业的业务分析流程时,它必须高瞻远瞩地思考很多概念。本章讲述了我们经常会遇到的那些花样繁多的大数据炒作热点,需要为大数据做的一些准备措施,以及如何客观地看待大数据等内容。大数据并不像乍一上来看到的那么可怕。只有正确理解了大数据的整体定位,才有可能成功地将其应用于运营型分析。

1 穿越炒作的迷雾

毫无疑问,围绕大数据已经集聚了大量的宣传和概念炒作。我们必须透过层层炒作迷雾,关注什么才是真正重要的。本节将要介绍的是一些有助于此的概念。本节并没有对大数据的重要性或价值有任何贬低的意思,而是要让大数据切切实实地回归现实本原。可以说,制定切实可行的期望应该是成功迈向大数据的第一步。

1.1 大数据的定义是什么?管它呢!

见客户的时候,我有一个经常会被问到的问题:“比尔,在你心里,大数据是如何定义的?”为什么大家总是乐此不疲地纠结于大数据的定义呢?其实,如果想对这方面有直接的认识和把握,可以访问Linkedln(领英网)上的大数据讨论组。过去数年间,各个小组论坛里都以各种不同的方式,反复出现着关于大数据该如何定义的问题。“大数据的定义是什么?”有关于这个问题的问答,我参与过的讨论到不了几百也得有几十次。论坛发帖如果回帖数超过几十个是极为罕见的情况。随着讨论的继续,大家都是企图拿一些细微差别来压倒对方,而这些差别本身与大数据的定义可能相关也可能不相关。我感觉这很愚蠢,而且太过学术化。

社会上的人特别喜欢把关注点放在大数据本身的定义上。而我不管在哪儿,一直都喜欢借用下面的大数据定义,这也可能是最短的定义,这个略带叛逆感的定义只有三个字组成,但我认为这是与大数据最相关的定义:“管它呢!”听上去是不是感觉很极端?那为什么我还要说这个定义呢?下面我来解释一下。

如果企业最关心的是如何通过新的运营型分析解决具体的业务问题,实际上根本不需要再纠结大数据的定义本身了。为什么这么说呢?那些应当遵循的流程以及企业在这些年当中本应一直遵循的流程,其实都很简单。如果有问题要解决,应该先行调查,然后再提出问题:“我们应该在分析过程中收集、整理和使用哪些数据,才能完善解决我们的问题的答案呢?”一旦我们能掌握哪些是必要数据,我们需要做的就是想清楚怎样才能收集到数据,整理好数据,并且把这些数据融合到数据分析当中。但下面这个问题才是要点。第一个问题是,“这份数据对业务有价值吗?”这个问题肯定和大数据的定义无关。数据本身可能是大数据,也可能是小数据,或者也有可能是一堆电子表格。

定义不重要,结果才重要

即使每个人都认同大数据的一个定义,也不会给业务问题的解决带来任何价值。虽然定义大数据是一项非常有趣的学术训练,但了解某个给定的数据源是正式的大数据(或者不是)根本没有任何用处。如果我们需要分析某个数据源,不管给它打上什么标签,我们都会找到办法把它用好的。

到了企业意识到必须要上线大数据这类东西时,这时再关心定义是什么为时已然过晚,我们需要的是数据。也许,数据的结构性不好,数据量又太大,但它刚好满足Gartner行业分析师创造的“数据量、数据种类、处理速度”(Volume, Variety, Velocity)这个著名的理论框架的定义。了解数据如何适配3V框架其实也没什么用,因为我们需要的只是数据,这时候我们需要的只是搞懂如何利用数据,其实这和大数据本身的定义根本无关。我一直还想说的,其实也是最重要但是往往容易被忽视的,与大数据最相关的V其实是价值(Value)。3我们担心其他特征会带来的影响,根本原因在于我们相信数据存在价值,值得花功夫收集和分析。

不要曲解我的意思。如果企业加工处理的数据能满足大数据的典型定义,这时把大数据与分析流程相融合,肯定会影响到我们所使用的工具与技术。这里,最大的区别在于,对于工具和技术的选择只是一个实现策略问题,而刚开始,战略层面的问题一般是:“这份数据有重要的信息吗?”到了我们可以回答这个问题的时候,企业必须完成相应的工作,才能让数据真正起到作用。

不要再没完没了地纠结于大数据拥有哪些特征,缺少哪些特征了。相反,我们要关心的是,如何把那些已经识别出来的重要的数据源融合到企业的分析流程当中。

1.2 从正确的角度出发

之前的话题蕴涵着这样的意思:我们要从正确的角度出发。我们不能只是收集数据并保存下来,然后就妄想着某天能把数据价值挖掘出来。如图2-1所示,企业应该从业务问题出发,让业务问题来牵引,然后才能把正确的数据找出来。如果确有合适的理由,我们可以付出努力,投入成本,拿到数据源并且使用好。在大数据的世界里,很容易陷入这样的境地,面对每一份可以接触到的数据都试图要努力收集,然后才去考虑收集到的数据如何才能产生价值。企业往往会因为要收集那些后续用不到的数据而变得忙碌无比。

图2-1 从正确的角度出发

从业务问题开始,而非从数据开始,听上去很简单,但在大数据领域,我看到过太多极其聪明的、细致入微的企业完全摒弃了这条基本原则。起初,这种倾向性让我感到很困惑,但之后不久,我就意识到究竟是哪些地方出了问题。2014年初,当我要着手开始本书的写作时,围绕大数据有太多炒作,没有什么人想错过这个潮流。董事会会问CEO:“你要拿大数据干什么?”CEO又会问CIO、CMO和CFO:“你要拿大数据干什么?”每位执行官接下来又会问各自的团队:“你要拿大数据干什么?”

不要迫于压力而变得目光短浅

不要屈服于压力而向外界展示你正在用大数据做什么事情。系统构建、数据捕获只是为了支撑验证有效的商业机会。许多聪明的企业因为被市场炒作蛊惑的原因,一头冲进去做大数据,实际上是在冒险,他们学到的是一些显而易见的教训,但代价却很高。

没人愿意回答“还没有”或者“有计划,但我们得先调查清楚,怎么把它弄对了”。正是因为炒作的存在,这些回答肯定都没法儿让人接受。结果,很多企业一猛子扎进来就去搞大数据了。有时候,企业在大数据上的投入手笔很大,但对如何运用投资,企业自身往往缺乏明晰的计划。他们只是买来一堆存储设备,再弄进来一堆数据,然后就幻想着自己往下做着做着就能自然而然地把事情搞定。

这种方法的最大问题在于:它只能让你应付好今年这一年。你站在了大数据潮流之巅,做了这样一些事情,得到了众人的交口称赞。但是,在接下来的一年或者一年半时间里又会发生什么呢?那时候,同一拨人会回头来问:“我们很清楚你在大数据项目上投入了很多资源,但我们该怎样验证它的投资价值呢?”如果事先不清楚我们能拿数据干什么,那大数据的后端投资会难以快速证实自己的价值合理性。我讨厌这样的回答:“噢,我们是根据要求积极投身大数据的,但现在还没什么好演示的。”

既然要投身大数据,企业就一定要保证自身训练有素。我们还要再花些时间,从一个真实的业务问题开始,制订好相关的计划。要搞清楚我们能用数据做哪些分析。这花不了多少时间,但如果这么做,成功的可能性会更高。不要迫于炒作的压力,摒弃执行基本原则。

1.3 大数据有泡沫吗

面对所有这些大数据的炒作,我们常常会遇到大数据是否存在泡沫这个问题。行业分析公司Gartner在2013年1月提出了一个官方观点,宣称大数据已经越过了炒作的峰值点,正在迈向幻灭低谷期。一名记者在听完Garnter报告后打电话给我,问我大数据是不是马上要走下坡路,泡沫是不是要破裂。经过思考以后,我给出了一个初看自相矛盾但经过解释又觉得很有意义的回答。我的回答是,从某些层面上讲,大数据确实存在泡沫,但在更重要的层面上却又不存在泡沫。本文总结了这些观点,参见表2-1。

表2-1 大数据有泡沫吗

在这些方面,是

在这些方面,不是

不切实际的期望

新信息总会给分析增加能量

相信几个快捷键就可以搞定

大数据通过努力确实会产生价值

把钱砸向领域相关的公司

有真实的成功故事

以某种观点看,我确实认为大数据存在泡沫,肯定要破灭。这个问题起源于市场不切实际的期望。很多人似乎认为他们能够很轻松地进入大数据领域,按下一个“自动魔术化”按钮,就能得到提交的所有问题的答案。对于许多分析工作来说,这条假设很愚蠢。在大数据的世界里,这同样也是很愚蠢的。

大数据根本没有所谓的快捷键!使用大数据构造分析流程是要花时间和投入精力的,就像面对其他任何数据类型一样。因为大数据刚刚出现,所以一开始要投入更多的时间。由于这些错误假设所造成的影响,市场上肯定会出现一些大家都能看到的大数据的失败案例。我看到有些失败案例已然开始发生。这些最初的失败案例会刺破不切实际的炒作泡沫,从这个角度来讲,这对大家都有好处。对于大数据和运营实践而言,这是绝对可以做到的。相反,在成本、时间和投入等方面,企业应该带着切实的期望置身于大数据。

大数据没有快捷键

要有多少投入大数据实践才能获得成功,此间期望是脱节的,这确为事实。从这个意义上讲,确实存在泡沫。但是,大数据带来的深远影响以及大数据分析,最终将远超今天炒作宣传的想象空间。互联网泡沫并没有阻止互联网本身的潜力发挥,同样,大数据泡沫也没有阻止大数据本身的潜力发挥。

现在,我们将注意力转向大数据泡沫不会发生破裂的方面。大家往往认为泡沫破裂是因为一开始的支撑前提本身就是虚假的。我们可以确信,大数据肯定不是一个虚假的前提条件。大数据会对我们的未来生活产生巨大的影响。下面我会用比喻来解释个中缘由。

我们回头来看1999年和2000年的互联网泡沫。那时候,互联网公司有巨大的泡沫,很多人都赔了大把的钱。但这里有一个重要的观点。回头找找1999年末或2000年间互联网泡沫顶峰时期的新闻故事,看看那些文章是怎么吹嘘互联网将会如何改变我们的生活,如何改变我们的事业的。我相信你会发现互联网的发展已经超过了那个时代最狂野的梦想。

互联网泡沫承载着当时被炒作的所有(甚至更多)期望,是真是假其实已经没什么本质关系了。互联网泡沫的存在是因为人们认为能以较少成本、快速简单地获得这些收益。在互联网泡沫发生期间,只要公司创始人愿意把“i”或“e”字母加在公司名字前面,就能轻松获得投资。我感觉这和现在大数据没什么两样。如果我在2013年创立一家公司,宣称自己是一家基于云的、大数据的、机器学习的、分析即服务的公司,相信我可能会超快地搞定投资。

在接下来的几年间,大数据领域市场会重新洗牌,会有很多商业失败案例发生。由于市场异常火爆,公司带着不切实际的期望置身其中,他们会因犯下的错误而买单,因此肯定会有公司遭遇灭顶之灾。但是,再往下五到十年,大数据将会拥有它曾经标榜过的所有影响,甚至更多。基于大数据的运营型分析带来的影响将会远超我们今天所讨论的内容。不管本节之初我们说过要心存何种警惕,企业都不能仅仅是冷眼旁观。你的企业肯定要投身其中,只是我们要睿智而理性地对待大数据这个新事物。

2 为大数据做好准备

如果企业现在对大数据已经有了正确的期望认知,那它应该再做好哪些准备呢?在制定大数据战略时,哪些概念最重要?本节讨论的正是可以帮我们做好准备,穿越大数据的炒作迷雾的话题。

2.1 大数据浪潮已经到来

毫无疑问,数据浪潮已经到来,每一家企业都要有能力驾驭数据浪潮,这样才能勇立潮头。这正是我所编写的《驾驭大数据》一书1的主题。我之所以选这个名字,是因为海洋是数据的一个非常好的比喻。试想乱石穿空、惊涛拍岸的场景。如果你坐在汽车内胎上,浪涛打身,这时即使浪涛不比你的腰身高多少,也能把你打翻。如果你身处大浪之下,大浪击打你的身体,肯定会把你弄伤。数据也是如此。数据量越积越多,最后变得巨大而难以应对。如果你只是任由数据浪潮击打你,那只会把你打翻,而你自己什么也得不到。

无论面对的是海浪还是数据浪潮,我们都要掌握好如何才能挺立潮头。海上冲浪要有冲浪板。那些对冲浪毫无概念的人,容易认为冲浪就是冲浪,冲浪板就是冲浪板,但事实并非如此。走到冲浪用品商店,四周看一看,肯定有很多种不同类型的冲浪板。冲浪板有长有短,形状也各有不同,有些有鳍,有些没鳍。冲浪运动员选择某种板型的原因与浪形、技巧娴熟度、是否追求速度以及是否要玩花式有关。

同样,当我们面对数据和分析时,门外汉经常会认为不就是采采数据、存存数据,然后再用个工具分析分析数据嘛。但理解分析的人会认为存取数据以及执行数据分析会用到很多不同种类的工具和平台。大数据肯定会加入一些新的工具组合,就像冲浪运动员一段时间过后会增加多块板子一样。正如在如何使用两块不同的冲浪板之间相似性大于差异一样,在不同类型的数据和分析上应用不同的分析工具和平台,相同之处同样也会大于差异。

做好准备开始大数据冲浪

如果有很强的员工可以帮助企业充分利用过往的数据,那么即便说需要投入一些精力,他们肯定也能用好大数据。就像职业冲浪选手能用冲浪板在任何地方冲浪一样,专业分析人员也一样可以使用任何工具或平台分析任何数据。

如果企业到了该使用大数据工具的时点,相应地,肯定需要配备熟稔工具用法的人员。就算给我最好的冲浪板,让我在最大的浪上冲,我保准我会掉下来,因为我压根不会冲浪。对于职业冲浪选手而言,就算到了新的海滩,面对新的冲浪板,对着大小、浪形都不怎么熟悉的浪花,肯定也能玩得很好。刚开始,他肯定也会歪歪斜斜,但几小时以后,他们就会立直,会像以往那样开始冲浪。那是因为新板子、新海滩、新海浪,这些都是增量变化。它们并非是不可克服的量子跃迁场景。同样,专家级专业分析人员已经掌握了大数据处理的底层技术,面对新数据和新需求,他们只需要把各自的技能略微调整即可。就像冲浪选手可以适应任何海滩上的任何板型的道理一样,专业分析人员在任何数据上执行任何分析时也一样能够适应,因为改变是增量进行的。这并非是一个不可克服的量子跃迁过程。

2.2 新信息使大数据变得更强大

是什么让大数据如此强大,如此让人兴奋?为什么我预测大数据能产生巨大的影响?根本原因在于大数据能够提供新的信息。2大数据源通常能够在某一两个维度上给企业提供新的信息。首先,大数据所能处理的数据细节是以往看不到的。其次,大数据还能提供以前获取不到的一些内容信息。

比方说,汽车厂商现在都使用大数据来预测汽修意向。这么多年,汽车一旦出现故障,车厂就要努力找出汽车发生故障的原因,推演出是哪些因素造成了故障的发生。今天,在发动机研发和测试期间,以及从新车销售后卖出的发动机上,嵌入式传感器都能提供密集的数据监控。利用这些传感器数据,汽车厂商现在都能在出现故障、车损之前识别出故障模式,这就是所谓的预测性维修。

有了发动机传感器数据,我们就能及早识别出故障警告。出现故障之前,有的部件是不是已经开始发热?在一个常见的电路问题发生之前,电池电压是不是已经有所下降?是不是有些部件会成组成对地坏掉而不是独自坏掉?以往,这些问题的答案肯定不能事先知晓,因为没有数据可以支撑答案。但是现在我们已经拿到这些数据,可以进行详尽的分析了。

在这个案例中,传感器数据的效能并不仅仅在于数据量本身。数据包含了以前没有提供过的全新信息。如果能够提前预测出问题,那么在故障发生之初,一般都还有时间可以主动把问题解决掉。这样,客户满意度会更高,保修成本则会更低,这是因为汽车到店后花的时间会更少,避免问题的发生通常也比问题发生后再进行修复的投入要更低。

以前,专业分析人员要花很多时间使用一组特定的数据源来对现成的模型做微调。一段时间过后,专业分析人员又会主动尝试应用最新最好的建模方法并增加从数据中衍生的指标。这样,模型能力会得到增量式提升,努力是有价值体现的。

几乎每一次新信息都会把新算法打败

企业激进地开展大数据业务,原因在于大数据往往能提供全新信息。使用既有数据调整当前的分析流程,肯定是有好处的。但是,增加新信息有可能会获得巨大收益。测试新信息的优先级应该永远比基于老数据测试新方法或新指标来得更高。

一次小小的改变就有可能会大幅提升某些特定分析流程的效能。只要发现与某个问题相关的新信息,企业就应该立即从传统调优方案上调头。新信息一旦被发现就会很有效能,分析专家这时应该不再思考如何使用现有信息来完善既有模型,而是立即把注意力投向新信息的融合和测试上。

即使对于新信息相当简单的使用,也会对分析流程的性能产生巨大的影响,其影响可能远超通过既有信息对流程做出的调整。即便说刚开始会做得比较粗糙,我们也要尽可能快地把新信息融合到既有流程当中。等到融合完成以后,再回过头来渐进地调整和完善分析流程。新信息几乎每次都能把基于既有信息的新算法和新指标打败。

2.3 找新问题提问

企业数据使用与工具应用的范围越来越广,在此基础之上,我们必须提升重视程度,寻找新问题提问,或者在老问题上提出新方法。通常,在发现新数据源的时候,人们往往能立即想到的是,如何针对老问题的已有解决方案增加某些新的能力。但我们还要再从两个角度进行思考,如图2-2所示。

图2-2 激发大数据价值的三种方法

首先,我们要找到那些可以使用新信息来解决的、全新的、具有差异性的问题。这是一个看似显而易见的提议,但人们往往容易墨守成规,只喜欢省事地把数据用于常见问题。然而,企业必须把工作重点放在找寻新的数据机会上。其次,我们还应该找到新方法来解决当下的问题。我们可以检视那些待解决的问题,思考这些问题是否可以通过引入新数据从一个全新的角度来解决。这么做肯定能提升洞察效力。在客户数据上实施这些活动,有一个框架会给予帮助,也即动态客户策略,这个框架由Jeff Tanner在《Dynamic Customer Strategy: Big Profits from Big Data》一书中提出。对动态客户策略感兴趣的读者,可以深入参考这本书。提出新问题从概念上讲很简单,所以,我们会把重点放在下面这个例子上,即如何使用大数据以全新的视角重温老问题。在医疗卫生行业,临床试验是黄金法则。临床试验通过所谓的双盲方法最终确定测试和控制结构。双盲临床试验中,医生和病人互相都不知道谁在接受何种治疗。这是一种严格控制下的环境,只有这样才能异常准确地查明治疗或者用药的正负效果。幸运的话,在投入数千万美元,经过许多年试验以后,临床试验会有2000~3000名试验参与者。这并非是一个很大的样本量。这说明,虽然临床试验可以准确测量研究人员预先想要测量的内容,但对于各种意外影响,测试数据根本不充分。

样本匮乏会造成何种结果呢?几年前,我身边出现过类似的场景,COX-2抑制剂止痛药系的多种药物,其中就有Vioxx和Celebrex,遇到了一些麻烦。研究人员发现这些药物与心脏病有关,是心脏病普通发病率的2~4倍5。在最初的临床试验中,这些问题并没有显现,产品上市好多年后问题才得以发现。

以全新视角思考待解决的问题

如果发现含有新信息的新数据,这时一定要记得重温老问题。往往是我们认为已经解决的问题,如果使用新信息来处理,方法会靠谱得多,同时问题解决的方法还是全新的。

我们快进到今天来看。在对照试验环境外,我们还能使用大数据来提升临床试验的效果吗?在不远的将来,详细的电子医疗档案肯定会变成常态化。药物一旦上市,就可以监控到千百万人的用药趋势。这时我们可以做到的是,考虑药物本身与其他各种药品组合以及治疗方案的配合使用,分析用药以后可能会产生的疾病组合。肯定有人会用错药,或是没有用好药品本身的药效,或者是用了其他本不该搭配使用的药物。这些事很可能无法在临床试验中得到有效的评估。

使用电子医疗历史档案,我们能够挖掘出预想之外的药品正负疗效(当然,我们同时要保护病人的隐私)。我们的数据当然不会来源于像临床试验这种充分受控的环境。不过,我们是不是有可能越来越早地识别出将要发生的事情,就像Vioxx会引发心脏问题那样?我们还需要做更进一步的对照研究才能验证那些从医疗档案中发现的结果,研究人员要知道从哪个地方查找速度会更快。我们不是要使用非对照医疗数据来替代临床试验,而是因为这关乎着研究人员识别新药与疗效正负效果的能力,是否能通过使用非对照数据而有巨大提升。需要做的就只是思考如何以不同的方式来解决问题,即便说这些问题当前已经被充分思考过。

2.4 数据留存不再是两元决策

大数据的出现使企业在数据收集、存储以及存储期限上的政策不得不做出相应改变。一直到最近还是这样,除非是最关键的数据,否则我们绝不能浪费资源,因为那样成本太高。如果数据足够重要,需要收集的话,即便说不需要永久保存,也有必要保存相当长的一段时间。当我们有了很多大数据资源以后,就必须从“收集或不收集”的两元决策转变态度,再也不能把收集到的数据无休止地永久保存下去。这时候,实施多级决策机制就是很有必要的。

首先,我们是不是一定要收集数据的各项内容呢?其次,数据源到底应该采集多少内容,要保留多长时间?对于大数据源来说,我们只能捕获到一小部分内容,而且我们获取到的数据在删除之前也只能保存很短一段时间。如何确定正确的方法,需要我们评估数据的当前价值和未来价值。

为了说明数据是否有收集价值,请看下面的例子。譬如说,你的房子通过传感器和宽带与外界有很多联系。每间屋子都有自己的恒温调节器,可以持续不断地把当前的温度反馈给中央控制系统,这样每个房间的温度才能保持恒定。恒温调节器在与中央控制系统通信时会持续不断地产生数据,但这些数据有价值吗?可以说,这些数据具有某些特定的战术价值,但如果说要长期获取这部分数据,很难想象其中的原因。除了系统更新升级以外,毫秒级温度其实也没什么意义。比方说,电力公司要把自己管辖范围内的所有家庭建筑的细节数据都存储下来,受存储能力的限制,电力公司将会不堪重负,但其实根本没有产生任何价值。

同时,我们也可以进行分析,减少数据量。降低数据量的过程,需要我们识别出可以忽略或者可以合并的数据字段,确保虽然工作指标比较少,但信息丢失程度比较低。例如,如果我们发现这样的规律,屋里相临房间的温差永远只有半度。这时,我们根本不需要保存每一个房间的温度值,只需要存储其中一个房间的温度值,并把它与一个区域内所有房间的读数关联起来即可。这样,数据存储需求肯定会下降,但信息分析的质量却不会相应下降。

在数据上使用过期限制

数据在保存一段时间后会被删除(如果已经把数据收集并保存下来),这是思想观念上的一次重大转变。我们有必要评估数据对于企业而言的时间价值。一些数据会立即失效,而另一些数据则会慢慢失效。作为今天大家的共识,只有一小部分数据会被长期保存。

在下面这个场景中,数据只是在一段时间内起到了关键作用。铁轨现在都安装了传感器,可以监控到火车的行进速度。直到最近,我才知道火车机车的车轮温度也是被监控的。如果机车上的载重不平衡,向一边倾斜的话,整个机车的车身就会倾斜。倾斜会把重量加在车身一边,摩擦就会增加,车轮温度会随之上升。如果车轮温度上升超过某个临界点就表明存在严重的失衡,失衡会有潜在的脱轨风险。火车在铁轨上呼啸而过,车轮其实是被实时监控的。如果一组车轮的温度超过警戒线,火车就会停车,有人会被派去检查和处理载重问题。从长期来看,这会节约大量资金,因为脱轨事件即使没有造成人员伤亡,肯定也是灾难性的,会有更多资金损失。

现在,我们重点来看收集到的车轮温度数据,以及它能发挥重要作用的时间段。比方说,一个大组列车在多天时段内行驶了2000英里的旅程。大约以30秒为固定时间间隔,测量各个车轮的温度。这时,收集数据并立刻分析就显得尤为重要了,只有这样才能保证不出任何问题。

现在往前快进几周。火车没有出现问题,安全抵达目的地,所有车轮读数都在期望温度半度以内。在那个时间点,保存读数实际上是没有意义的。而在旅途中进行采样是有意义的,这样异常点可以通过比对得到,这样就能保持一切正常。旅途中车轮温度的异常数据与平静旅途中的少量采样一样可以永久保存。其他数据根本就没有增加价值。

当然了,肯定还有数据要保存相当长的一段时间。银行或者经纪公司与客户之间可以维持几年甚至几十年的关系。这些企业需要保存客户的每一笔存款记录,以及与客户之间沟通的每一封邮件。这样才能做到更优质的长期服务,同时还能提供法律保护。这时,正如我们以往所做的那样,我们收集到的数据仍然会永久保存。

关键在于,企业会形成习惯,以一种全新的方式评估数据的收集、存储和保存策略。忽视数据的存在,以及删除收集到的数据,这种策略乍一看来让人很不舒服。但在大数据时代,这是很有必要的。

2.5 物联网时代即将到来

自2013年到2014年年初,物联网(Internet of Things,IOT)的概念逐渐引起了越来越多的关注。物联网是指所有东西都必须在线,相互之间都可以通信,且与我们有交互。随着传感器与通信技术变得越来越廉价,越来越多的物件都具备了与周围环境通信并报告信息的能力。我们看到,冰箱和钟表这类生活日用品正在与因特网进行连接,会定期发送和接收信息。

物联网肯定会产生海量数据。它甚至会超过以住所有其他大数据源的数据产生速度。关于物联网产生的大量数据,最有意思的是它们通常都是在战术层面发生的。任何通信的时间都非常短,而且包含的也只是简单信息。例如,钟表会从一个可靠外部源处收到一次实时更新,然后通过家庭网络把那条信息传递给房间内的其他钟表。总体而言,这肯定会产生大量数据,但大多数数据的价值都是很低的、非常偏战术层面的、非常短时的。

本书中给出的很多例子均可认为是物联网的一部分。一旦涉及传感器数据,基本可以算是就进入了物联网领域。如果所有设备均能互相通信,业务与消费者则均可从中获益。越来越多的个人物品间均可通信,伴随着这个趋势,许多新的机会点得以开启。

  • 房间会了解用户的照明、取暖等偏好,并会根据情况自动调节。
  • 当灯泡、空气清新剂等物品需要更换时,均可发生警告。
  • 根据个人以往消费记录以及物品过期信息,可自动创建购物清单。
  • 视频和音频内容会随着用户的脚步在房间内无缝切换,无需频繁开关设备。
  • 位于用户身体上或靠近用户身体的传感器设备会监控和报告用户的睡眠模式、卡路里消耗、体温以及所有其他类别的事实数据。

我们的物品会成为最大的个人数据来源

物联网来得可真快。过不了多久,我们的物品,不论大小,都会安装传感器,相互之间均可通信。今天我们所收集的那些数据与个人物品产生的数据量相比,则会相形见绌。而个人图像以及视频存储的数据量在与所有个人物品发送的各种数据量相比时,也会相形失色。

虽然物联网的出现会驱动产生最大体量的数据,但与多数数据相比,其上的过滤力度要强劲得多。事实上,我们决定保存下来的数据肯定是相对可控的。物品在不停地自由通信,而我们其实只需要捕获那些关键的通信片段。第6章对此将有更多的讨论。

很快,物联网就会变成一个非常热门的、非常流行的话题。我们不可能只拿这么短的介绍来评判话题的公正性,但这个主题绝对不能忽视。就像大数据一样,物联网方面的书籍和文章也一样会马上泛滥起来。感兴趣的读者一定会谨慎观察趋势发展。正如本书当中许多示例所描述的那样,许多运营型分析活动都是由来自我们身边各式各样的物品所产生的数据来驱动的。物联网很快就会变成各家企业分析策略中的重要一环。

3 纵观全局看待大数据

大数据是如何适应现状的?为什么说大数据具有特殊性?大数据以后发展方向是什么?这些问题都很常见,大多数企业都会碰到。就像所有新鲜事物一样,关于大数据究竟能干哪些事情,肯定也会出现混淆和不一致的地方。本节探讨的正是那些必须理解的主题和概念,这样我们才能纵观全局,全面地思考大数据。把大数据放到正确的背景下思考,这样在使用大数据做运营型分析时,会更容易达成目标。

3.1 与其说是大数据,还不如说是差异化数据

正如本章先前所述,大数据让人兴奋的原因之一是它包含了新的信息。但是,许多人都认为造成大数据挑战更多的原因只是大数据的体量巨大。数据体量其实并不是让许多大数据源与众不同的原因。关于大数据,通常最有挑战性的是不同的数据类型和不同格式的数据,我们能从中发现它所蕴涵的一些新信息,因此需要不同的分析方法。

以往,我们在商业环境中收集的用于分析的数据多是事务性的、描述性的、结构非常好的。这意味着,这些信息可以清晰识别,方便阅读。例如,电子表格中Sales列的数值以美元表示。企业里结构较差的数据,譬如书面文档或图片,往往无法用于分析。大数据技术出现以后,企业碰到了新的数据类型和格式,与传统数据源相比,它们当中很多都缺乏结构性。例如,传感器吐出的信息格式是很特殊的,GPS数据描述的则是人和物在空间中的位置信息,人或企业之间的关系强度往往也是重要数据。从数据格式和数据分析方法看,这些数据的类型完全不同。我们将会在第7章中讨论各类分析。

“差异性”其实比“数据之大”更有挑战性

大数据中的“大”得到的关注度最多,但往往大数据的“差异性”才是真正具有挑战性的。新的数据源多种多样,新的格式也富于变化,同时,信息类型也是新的。弄清楚如何从数据中提取出我们所需要的数据类型往往要比弄清楚该如何扩展分析流程投入的精力更多。

分析社交网络,评估人与人之间发生关系的数量与强度,需要完全不同的销售预测方法。大数据的“差异性”其实比“大数据量”带来的挑战要更大。为什么说它的挑战性更大呢?下面我们来看一个例子。

比方说,某家企业要首次启动做文本分析。他们要分析几千封电子邮件,准备好文本分析工具,配置好这些工具,定义好企业将会应用的文本分析逻辑。处理1万封邮件,与处理1千万封邮件和1亿封邮件,刚开始构造文本分析流程的时间和投入其实是差不多的。随着处理邮件数量的增长,应用逻辑必须要具有一定的可扩展性。因为文本是一种完全不同的数据类型,所以我们肯定要做一些准备工作,即使对于少量文本数据来说也是如此。

当然,在我们执行定好的数据分析流程时,1万封电子邮件的处理速度肯定要比1亿封邮件快得多。数据量增加需要流程具备可扩展性,但底层数据分析逻辑还是相同的。弄清楚如何处理大数据之间的差异性是我们需要迈出的第一步。如果我们能够处理差异性,我们就可以进而弄明白如何在不同尺度上处理数据的差异性。

3.2 大数据必须具有多维可扩展性

关于大数据带来的挑战,越来越多的关注放在了问题规模本身。尤其是,以往我们关注的是数据量和数据处理的规模。但是,如图2-3和图2-4所示,如果要在整个企业层面上实现分析,特别是当我们要实现运营型分析的时候,我们还需要在其他维度上也具备扩展能力。

图2-3 大数据扩展:典型的关注维度

图2-4 大数据扩展:必要的关注维度

首先,在用户数和用户多样性上要有扩展能力,因为用户既有存取底层数据的需求,又需要访问构筑于其上的分析流程所产生的结果。在任意时间,数以万计的员工都能看到不同的原始数据视图以及分析结果。企业平台必须对用户友好,可以兼容多种工具及应用。

扩展性不只在于存储和处理能力

在讨论大数据扩展性挑战时,我们更多关注的是存储和处理能力的可扩展性。有些关键维度必须具备扩展性,但往往会被忽视,其中就有用户数、并发度、负载管理以及安全性等。如果系统在这些维度上缺乏扩展能力,那么企业就不会获得运营型分析的成功。

其次,另一个可扩展性的关键需求是并发度。并发指的是在相同时间内能够访问给定信息集的用户或应用数。企业级并发还意味着数据虽然会不断变化,但用户接收到的答案却能保持一致。随着并发度的提升,如果系统缺乏工程化实践能够应对相应的处理请求,风险就会逐渐加大。如果大型企业要构造自己的运营型分析流程,就必须有一个环境,让各种不同的用户和应用可以同时存取和运用相同的信息。

再次,负载管理工具也要有可扩展能力。在架构上面的安全层上,不同用户类型会提交各种不同的分析请求,必须有软件可以对负载实施管理。平衡并发请求本身就不是一项简单的任务,我们很容易忘记这方面的可扩展性。我们构造的系统既要能有效地管理很小的战术请求,同时还要能管理非常大的战略请求,这是非常困难的。

最后,安全协议也要有可扩展性。企业必须能锁定数据,按需进行访问控制。用户只允许看到授权自己可以看到的数据段。大型企业在构建平台时,必须要以一种健壮的方式把安全性构筑其中。

所有这些可扩展的维度——数据量、处理能力、用户数、并发度、负载管理及安全性,从一开始时都是互有依赖的,只有都做到,运营型分析才能成功实施。只关心存储能力可扩展性和处理能力可扩展性的企业注定会失败。

3.3 实现大数据价值的最大化

我曾见过的最常见错误类型之一是,企业虽然很努力地要把大数据融入现有的分析流程当中,但他们却认为大数据是一个完全独立的特殊问题。许多公司都成立了内部机构,负责处理大数据,而且只处理大数据。1事实上,有些企业会远去硅谷设立办公室,开展自己的大数据业务。这其实是在自找麻烦,因为最重要的是,大数据只是总体数据和分析策略的一方面而已。我们的策略应该是唯一的、内聚的,可以同时处理所有的数据,无论是大是小,如图2-5和图2-6所示。

图2-5 以独立竖井模式呈现的大数据

图2-6 整合后的大数据

下面我们看一个相似情形,它说明了为什么缺乏单一数据和分析策略就会有问题。电子商务时代到来时,许多零售商没有想清楚电子商务只是零售策略的另一面而已。相反,许多零售商对待电子商务的态度就好像它是全新的一样。于是,许多零售商都成立了独立部门来应对这些电商活动。有时候,该部门还会有一个独立的法务实体。这些独立实体都有自己的供应链流程、自己的产品体系、自己的定价策略等。

现在,让我们快进到今天的状态。同样还是这些零售商,他们渴望拥有自己的唯一业务视图。他们想让自己的电子商务和其他店面不仅在统一视图之下,而且还想跨渠道提供无缝的客户体验。在体系与系统完全不兼容的场合,零售商是花了很多年投入了很多资金才完全接受这些内容的。

制定整体的数据及分析策略

我们必须使大数据成为数据与分析整体策略的另一个组成部分。如果做不到这一点,就会面对零售商所面对的同一类问题,刚开始的时候不会把电子商务看作是零售策略的另一方面。

10~15年前零售商清楚地认识到电子商务会带来新的挑战,但他们其实还应该认识到电子商务应该与他们的整体零售策略是相契合的。电子商务要以某种方式与核心业务进行整合,刚开始的时候,花的时间要多一些,但长期来看,节省的时间和资金会大得多。

一定要确保我们的企业不会在大数据上犯相同的错误。前面多花一些时间,这样才能想清楚大数据如何才能与数据分析整体策略相匹配。这是非常重要的,因为数据源本身不会提供最优价值。把多种数据源合在一起,是实现价值最大化的唯一方法。例如,我们需要把销售数据、网页浏览数据、人口属性数据以及更多的数据组合起来,这样才能充分理解客户。

企业如果在建立独立的大数据系统和流程时没有先行考虑数据整合需求,在后端产生期望价值就会困难得多。公司的工作目标是创设整合分析环境,让大家可以在任何时间在任意类型和数据量的数据基础上执行任意类型的分析。我们将会在本书中更细致地探讨如何让这一点变为现实。对于那些希望从大数据中获得深入营销价值的读者,推荐阅读我的同事Lisa Arthur所撰写的《大数据营销:如何让营销更具吸引力》一书。

3.4 回到未来

大数据现在热炒的概念之一是,非关系型工具集并非是以关系数据库为基础的,这是一个全新的世界,根本不需要用SQL作为主要的接口。SQL即结构化查询语言,它已经被称为“商业语言”很多年了。其实,就算应用的话,非关系型工具集也不会只使用SQL语言。非关系运动背后的基本前提是SQL虽然在许多公司里是唯一的商业语言,但肯定还需要其他类型的语言。毕竟,商业环境为什么就不能是多语言的呢?其实本应如此,而且应该一如既往地如此下去。

下面我们来直面炒作中的致命缺陷。事实上,非关系型分析并非新概念。在我开始分析生涯时,在商业界,关系数据库还不存在。当然SQL也是不存在的。因此,我们所做的只是基于非关系型方法来生成分析结果。至于我,我通常愿意使用SAS工具。对于我这样的人来说,SQL就像街区上新来的孩子一样。过上一段时间后,我们这些专业分析人员都注意到SQL是一种比较好的方式,可以用来处理某些类别的问题。当然,肯定还有某些处理要求专业分析人员在SQL环境之外执行。

大数据带来的真正改变之一是,企业重新发现了在SQL环境之外展开处理的价值。碰巧在大数据源的条件下做出非关系型的选择要比在传统数据源下更有意义。许多公司其实做过头了,要把所有处理规则都往SQL上扔。这其实是个错误,企业肯定还要把其他选项加入到这个行列当中。对于我们来讲,只需记得非关系型方案一直可用就可以了。21世纪头十年,并非没有非关系型处理的需求。只是说公司朝SQL这个方向走得太远而已。可以想象,未来SQL肯定还是主流的数据分析方法,而非关系型分析关注的则是特殊需求。

大数据,大转变

预言SQL将亡的声音延续了很多年,非关系型平台在争着抢着实现SQL接口。尽管这是巨大的转变,但它也反映了业务需求的现实。

如果可以,企业应该赞同使用非关系型工具集,但不能简简单单地就认为这么做会否定他们身边的SQL需求。我们很容易滑向另一个极端,今天就有许多人在冒险那么干。这么多年来,很多人都曾经做出过SQL将亡的预言。在思想观念发生巨大转变之时,在Hadoop等大量非关系平台上支持类SQL功能,也是一场声势浩大的运动。我们要再次回到未来。在第5章和第6章中,我们要大谈这个趋势,以及该如何利用合适的处理手段。

3.5 大数据正在经历成熟度曲线

很多人都曾经跟我讲过,大数据压得他们喘不过气来。太多新的数据源和太多新的事情要处理,许多企业根本弄不清究竟该如何开始和如何处理。千万不要沮丧,大数据正在经历的是与其他任何新的数据源完全相同的成熟度曲线。现实状况是,新数据源首次可用之时,肯定是充满挑战的。我们往往不能明确如何才能最好地使用新数据,要从数据中创建哪些指标,发现哪些数据质量问题,以及诸如此类的问题。但是,经过一段时间以后,对于数据源的处理就会变成标准化流程。

许多年前,当我第一次分析POS数据时,我的团队和我都弄不清如何才能用好数据来分析客户行为,并得到较完美的业务结论。我们更想不清楚,如何才能使数据分析运营化。我们有许多理论和想法,但究竟可不可行本身是没有得到验证的。当然,我们没有把数据的输入、准备和分析过程标准化。一段时间过后,对POS数据的定期分析会让所有这些层面都实现标准化。今天,我们都认为POS数据处理起来很简单,可以应用到各种各样的问题上。

不要气馁

首次分析新数据源的时候,总是让人恐惧。一段时间过后,我们的理解就会逐渐成熟,数据用起来也开始得心应手。大数据也会出现相同的成熟过程。但大数据的情况好像要更糟一些,因为我们同时要处理太多的数据源。

面对每个新的数据源,企业会经历与图2-7所示大致相同的过程。大数据的根本不同在于,以往企业每隔几年才会面对一个全新的独立数据源,但在大数据时代,企业会同时面对多种新的数据源。

图2-7 任意新数据源都会面临的挑战

如今,专业分析人员的职责变成了要同时分析社交媒体的互动数据、客服会话数据、网站行为数据、传感器数据等内容。我们必须要在一套分析流程中同时使用这些数据。这样,我们会有同时经历成熟度曲线的多个数据源被同时应用。对于单一数据源而言,这种情形带来的挑战更大。更糟糕的是,如前所述,我们要考虑的不只是如何处理每个数据源,还要考虑如何把它们关联起来。

我们既不能忽视新数据处理的内在困难,也不能一上来就被它们吓倒。成功的道路上肯定布满荆棘。数据融合与分析方法必然会在很大程度上实现标准化,而现在一切都很好。我们要做的是转向处理下一个新的数据源,而这也正是大数据领域将要发生的和正在发生的事情。

3.6 大数据是全球现象

关于大数据,最后一个值得讨论的趋势是,对于大数据的认知和成熟度,如何在全球形成一致性。4在采纳曲线和成熟度曲线上,有些企业走得很靠前,有些企业走得靠后。说起来,我还去过几大洲,找过银行、保险公司、零售商和政府机构。我感到每个地球人都在思考几乎相同的问题。海关、法规虽然说肯定受本地市场因素的影响,但它们描述的基本业务问题却是高度一致的。同时,多数人会认为,其他行业以及世界其他地方的发展都要比自己的企业好,然而现实状况往往并非如此。

数学、统计学、分析和数据既没有以某种语言沟通交流,也不隶属于某种文化现象;相反,它们从本质上就是全球化的。中国的趋势图与西班牙的趋势图看起来一模一样,传递的信息也很相近。印度算平均值的方法与德国肯定是相同的。日本的交易记录与巴西的交易记录也有相同的信息。除了极少数情形,宣传大数据在某国某个行业独树一帜,所言定然不实。

你的企业可能并非那么落后

对于大数据,全球的公司目前所面临的问题都非常类似。不管哪儿的企业,它们的感受往往都一样,自己处在其他行业之后,在自己的行业里也靠后,与全球其他区域相比也靠后。既然每个人都认为其他人是先进分子,许多时候,差距其实比想象中要小得多。

形成同行业人脉关系,这事儿全球都差不多,社交媒体让一切变得简单了。其他企业面临的问题可能与我们的企业完全相同。但是,我们自己企业的数据分析肯定不可能与直接竞争对手之间展开有价值的讨论话题。不过,我们肯定能与地球另一面没有竞争威胁的人们进行对话。信息与经验教训的分享,企业都能获益良多。

不管我们的企业正在经历着大数据带来的何种阵痛,我们完全可以相信,其他企业其实也在经历着类似的痛苦。过上一段时间,就会出现针对这些痛点的解决方案,而这些方案也会迅速传遍大江南北。在运营型分析中融合大数据变得越来越容易,越来越常见。我们肯定算不得是世界上第一次解决某些问题的企业,但我们不能守株待兔,直到问题能够充分解决,我们才会往下走。在这一点上,我们要付出的努力无非是往前追、往前赶而已。跟随策略肯定不是我们的致胜法宝。

本文摘自《数据分析变革:大数据时代精准决策之道》

作者简介

Bill Franks

Bill Franks 现任天睿公司首席分析官,他不仅在大数据和分析领域发展趋势方面为企业提供深刻见解,同时帮助客户理解如何使用大数据及分析来改进业务。他擅长将复杂的分析用通俗的语言阐述以便企业用户更容易理解。Bill Franks是《驾驭大数据》一书的作者,该书是Tom Peters 2014年排行榜“必读”书籍之一。他同时也是国际分析研究院的教员。

内容简介

畅销书《驾驭大数据》作者、Teradata公司的首席分析官Bill Franks最新力作! 想要通过建立企业的分析基础来赶超竞争对手的企业管理者和业务领导者必读图书!

本书确切地讲述了使分析运营化到底意味着哪些变革,并告诉读者如何建立团队、创建文化、升级分析方法论并利用技术,使企业向更好、更快、更有效决策的运营型分析演变。本书提供了一个在所有类型的业务流程中嵌入分析流程的可扩展框架。在这本书中,读者将了解如何梳理头绪,扫清障碍,积极利用当前主流趋势和流程,确保能够持续超越竞争对手。

专家说

“国家科技发展战略需要创新,而随着创新成果在产业化过程中的应用,其对我国的经济发展产生了重大的积极影响。在大数据浪潮中,随着最近几年大数据技术的快速发展,过去的方法和技术已经不符合目前非常复杂的环境和应用需求。我们必须认识到这场产业的革新已经开始了,必须通过创新把数据在决策流程中的巨大价值发掘出来,才能最终依靠这种创新技术和成果形成新的产业增长点,加速传统产业的升级改造,增强企业和国家的竞争能力。本书特别提出从今天就开始拥抱大数据,确定数据分析战略,从简单的环节开始创新,最终实现整个产业的成熟,这些都值得全社会的深思和借鉴。”

——朱丽兰,科学技术部原部长、中国发明协会理事长

“如何有效分析和应用大数据是当前的热点问题。这本书系统性地归纳了大数据分析应用的三种主要类型——解释性分析、预测性分析和运营型分析,尤其是开创性地发展了运营型分析的方法论,通过大量案例展示了未来大数据最能发挥作用的领域。本书对从事大数据分析方法论研究的专业人员和企业信息分析工作者都具有重要价值。”

——陈道斌,工商银行总行资深信息管理专家

PPV课其他精彩文章:


1、回复“干货”查看干货 数据分析师完整知识结构

2、回复“答案”查看大数据Hadoop面试笔试题及答案

3、回复“设计”查看这是我见过最逆天的设计,令人惊叹叫绝

4、回复“可视化”查看数据可视化专题-数据可视化案例与工具

5、回复“禅师”查看当禅师遇到一位理科生,后来禅师疯了!!知识无极限

6、回复“啤酒”查看数据挖掘关联注明案例-啤酒喝尿布

7、回复“栋察”查看大数据栋察——大数据时代的历史机遇连载

8、回复“数据咖”查看数据咖——PPV课数据爱好者俱乐部省分会会长招募

9、回复“每日一课”查看【每日一课】手机在线视频集锦

PPV课大数据ID: ppvke123 (长按可复制)

大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-08-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PPV课数据科学社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据保险箱
数据保险箱(Cloud Data Coffer Service,CDCS)为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据,避免误删带来的损害,还可以将数据跨地域存储,防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入,实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载,最终实现数据的安全存储和提取。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档