有奖捉虫:办公协同&微信生态&物联网文档专题 HOT
弹性 MapReduce(EMR)集群应用场景很多,Hadoop 和 Spark 能够支持的场景 EMR 都可以支持,因为 EMR 本质就是 Hadoop 和 Spark 的集群服务。下文为 EMR 应用的经典场景。

离线数据分析

把游戏、Web 应用、手机 App 等业务服务器上的海量日志同步到 EMR 的数据节点或 COS 后,可借助于 Hue 等工具,使用 Hive、Spark、Presto 等主流计算框架快速获取数据洞察力。可使用 Sqoop 等工具加载分散于各 TencentDB 或其他存储引擎的数据,并把分析后的数据同步到 TencentDB,为 RayData 这样的数据可视化产品提供数据支撑。


流式数据处理

在程序/工具中通过 API、SDK 把位于业务服务器上实时产生的数据 Push 到 CMQ 消息中间件之后,可在 EMR 产品中选择合适的流式数据处理引擎来分析数据,以实现对业务变动的实时告警;还可以把分析结果实时同步到 TencentDB 等存储引擎,以便于通过 RayData 等数据可视化产品对业务状态进行实时可视化检测。


分析 COS 数据

可通过 EMR 产品快速分析存储于 COS 上的海量数据,以实现彻底的存储计算分离。通过这样的设计,可充分利用 COS 提供的丰富数据同步工具,同时还可以让多个不同版本 Hadoop 集群分析同一份数据,以满足数据一致性及历史原因导致的多版本 Hadoop 集群共存的问题。