即使商业世界仍在处理如何充分利用来自各种不同客户接触点的业务以及交易和相互作用产生的大量数据的问题,我们也看到了另一方面数据的曙光 ,即实时流数据 ,如果不是更多的话可能具有与存储和历史数据一样多的价值。
但是一些至今没有使用大数据分析的人会说,这是一个没有实现的愿景。这是由于经验证的使用案例数量较少,而最好的结果是显而易见的,而且还有很多事实在我们看到一些真正的价值之前完成, 实时流数据似乎对商业和普通用户有很大的保证。
许多行业和活动可以通过实时流处理得到很大帮助。这种情况很快就从管理已经生成亦或是很久以前的数据转变为处理连续的数据流。如果企业可以像从传感器(GPS,温度),相机,新闻源,卫星,股票代码,网络爬行,服务器日志,Flume,Twitter,传统数据库甚至Hadoop系统等各种数据源流入数据一样快速,那么它可以被证明是一个商业决策工具,可以提高业务绩效。
话虽如此,每个行业都会有独特的实时数据分析使用案例,使管理层或负责人员当从风险数据中产生的信息中发现风险和机会时能够立即采取行动。实时数据分析具有实现优化决策的潜力,促进对关键事件更快速的响应,并且通常提取要点,从而大大提高业务洞察力。更重要的是,由于大多数的见解都可能是可操作的,主要是因为它们实时捕获,所以利益相关者可以看到业务发生的情况。
处理流式传输的速度是一项艰巨的任务,因为实时事件/事务/交互所产生的数据以每秒数百万事件的速率流入,并且需要由系统收集。即使在收集数据时,系统也应该足够健壮并且能够并行处理数据。然后执行事件关联的复杂任务,以便能够从数据中提取有意义的信息。就好像这已经不是令人生畏的事情了,所有这些都需要以容错和分布的方式进行 , 这意味着为此目的而采用的系统应该是低延迟的,从而能够实现更快的计算,从而便于更加实时地响应事件。
为了解决这个复杂的需求,必须使用一些工具的组合。Apache Kafka用于收集数据流,通过Apache Storm或Apache Spark(基于系统需求)路由到HIVE / HDFS,然后允许分析引擎提取洞察信息并将其发送到仪表板。
来自包括Web抓取数据,传感器数据(GPS,温度传感器),服务器日志,Flume或Twitter在内的任何来源的数据都会暂时收集并存储在卡夫卡群集中,其中按照Zoo-Keeper-> Broker-> Topic机制执行。然后,它会通过Storm或Spark Streaming发送到HIVE / HDFS,后者会进一步发送到分析引擎(例如SAS VA)进行处理 -。所有这些都是实时发生的,并推送到仪表板供用户评估事物和行为。
最终,为了能够从任何实时数据分析中获得最大的收益,人们可以想象企业绝对需要有能力的人。大数据中经过验证和展示的能力是选择分析合作伙伴的起点。然后,合作伙伴熟练掌握工具、技术和机制使实时数据分析真正有效。最后,合作伙伴应该通过广泛接触各种垂直行业反映出对各自业务及其复杂性的深刻理解。
因此,选择具有这些特点的合作伙伴会达到事半功倍的效果。把另一半留给技术合作伙伴来负责!
总结:对于许多与终端用户有着众多接触点的企业,以及负担公共福利和安全责任的国家机构,每一秒钟都是一个决定性时刻。如果他们能够即时了解正在发生的事情以及可能发生的事情,他们的努力将会更加富有成效。实时数据分析为他们提供了获得这种能力的选择或者更多!