实时数据分析：未来之路

一零

发布于 2018-06-07 16:40:07

2K0

发布于 2018-06-07 16:40:07

即使商业世界仍在处理如何充分利用来自各种不同客户接触点的业务以及交易和相互作用产生的大量数据的问题，我们也看到了另一方面数据的曙光，即实时流数据，如果不是更多的话可能具有与存储和历史数据一样多的价值。

但是一些至今没有使用大数据分析的人会说，这是一个没有实现的愿景。这是由于经验证的使用案例数量较少，而最好的结果是显而易见的，而且还有很多事实在我们看到一些真正的价值之前完成，实时流数据似乎对商业和普通用户有很大的保证。

实时分析的使用案例

许多行业和活动可以通过实时流处理得到很大帮助。这种情况很快就从管理已经生成亦或是很久以前的数据转变为处理连续的数据流。如果企业可以像从传感器（GPS，温度），相机，新闻源，卫星，股票代码，网络爬行，服务器日志，Flume，Twitter，传统数据库甚至Hadoop系统等各种数据源流入数据一样快速，那么它可以被证明是一个商业决策工具，可以提高业务绩效。

话虽如此，每个行业都会有独特的实时数据分析使用案例，使管理层或负责人员当从风险数据中产生的信息中发现风险和机会时能够立即采取行动。实时数据分析具有实现优化决策的潜力，促进对关键事件更快速的响应，并且通常提取要点，从而大大提高业务洞察力。更重要的是，由于大多数的见解都可能是可操作的，主要是因为它们实时捕获，所以利益相关者可以看到业务发生的情况。

医疗保健和生命科学：
- ICU监测 - 有效的监督能够主动和及时关注处于重症监护的患者。
- 远程医疗监护 - 这在远程医疗监护方面也非常有效，可以轻松获取并了解患者的病史，从而确保他们适时得到适当和优质的治疗，从而也可以减少不必要的成本。
- 临床试验和医疗设备数据 - 仪器数据流分析可能指向不寻常或令人不安的行为或揭示未知的方面，可用于更好的诊断和治疗。换句话说，它也有助于检测疾病的早期征兆，确定多个患者之间的相关性，并计算被给予的治疗的疗效。
- 流行预警系统 -实时传感器数据分析可以作为预防和准备的预警系统，帮助检测可能爆发的流行病。
保险
- 欺诈识别
- 更好的案例管理
- 政策登记过程中的易感性检查
- 政策绩效评估
- 更好地预测未来事件，并相应地设计、开发和提供产品
- 细分为合适的产品价格组合
- 基于当前销售趋势的销售预测分析
- 尽可能的预测未来，实时筛选出不需要的被保险人

电信提供商可以深入了解客户行为，向其客户提供定制和相关服务（例如，基于位置的服务，优惠或建议等），并通过跟踪移动会话，分析使用情况、偏好、趋势等来实现忠诚以及惠顾。这有助于实现许多其他功能，例如改进的计费，提供的服务质量，安全性和防欺诈。
能源
- 智能电网是能源领域实时数据分析的一个经过验证的用例。更多的使用案例将在适当的时候发展，为一个非常节能的世界做出贡献。
- 预测特定条件下设备的行为
- 检测许多设备的阈值水平以减轻故障（状况）的影响
- 通过对勘探和生产数据的实时分析，降低在现场的人员的风险

电子商务
- 客户分析
- 建议
- 社交媒体情绪分析可用于损害控制或纠正方向。

运输
- 通过GPS实时跟踪
- 智能交通管理，在繁忙时间缓解繁忙路线的拥堵
- 能够连接车辆进行即时和自动远程信息处理

投机市场
- 情绪分析
- 动量计算器
- 天气对股市和股价的影响
- 超低等待时间的市场数据分析。

执法
- 智能警务（传感器，已安装并与中央云数据库连接的CCTV摄像头，牌照识别，语音识别，已知犯罪嫌疑人和罪犯的GPS跟踪等）
- 监视发现不寻常的活动或行为或事件，以便更快更及时地做出决策，既可以预防也可以减少犯罪事件。
- 刑事侦察
- 监测执法部门与公众之间的互动
技术
- 网站流量分析和参与度（大多数浏览过的页面，花在页面上的最长时间，访问者行为，用户导航模式等）
- 分析移动应用程序的下载、会话、偏好、交易、使用模式等，以便有效地进行客户分析和设计服务，从而更好地服务他们

实时数据处理的挑战

处理流式传输的速度是一项艰巨的任务，因为实时事件/事务/交互所产生的数据以每秒数百万事件的速率流入，并且需要由系统收集。即使在收集数据时，系统也应该足够健壮并且能够并行处理数据。然后执行事件关联的复杂任务，以便能够从数据中提取有意义的信息。就好像这已经不是令人生畏的事情了，所有这些都需要以容错和分布的方式进行，这意味着为此目的而采用的系统应该是低延迟的，从而能够实现更快的计算，从而便于更加实时地响应事件。

如何去做

为了解决这个复杂的需求，必须使用一些工具的组合。Apache Kafka用于收集数据流，通过Apache Storm或Apache Spark（基于系统需求）路由到HIVE / HDFS，然后允许分析引擎提取洞察信息并将其发送到仪表板。

它如何能够简单地完成

来自包括Web抓取数据，传感器数据（GPS，温度传感器），服务器日志，Flume或Twitter在内的任何来源的数据都会暂时收集并存储在卡夫卡群集中，其中按照Zoo-Keeper-> Broker-> Topic机制执行。然后，它会通过Storm或Spark Streaming发送到HIVE / HDFS，后者会进一步发送到分析引擎（例如SAS VA）进行处理 -。所有这些都是实时发生的，并推送到仪表板供用户评估事物和行为。

最终，为了能够从任何实时数据分析中获得最大的收益，人们可以想象企业绝对需要有能力的人。大数据中经过验证和展示的能力是选择分析合作伙伴的起点。然后，合作伙伴熟练掌握工具、技术和机制使实时数据分析真正有效。最后，合作伙伴应该通过广泛接触各种垂直行业反映出对各自业务及其复杂性的深刻理解。

因此，选择具有这些特点的合作伙伴会达到事半功倍的效果。把另一半留给技术合作伙伴来负责！

总结：对于许多与终端用户有着众多接触点的企业，以及负担公共福利和安全责任的国家机构，每一秒钟都是一个决定性时刻。如果他们能够即时了解正在发生的事情以及可能发生的事情，他们的努力将会更加富有成效。实时数据分析为他们提供了获得这种能力的选择或者更多！

数据分析