首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

五大最佳数据框架的快速比较

海量数据的不断生成需要数据管理和分析。让我们看看五个最好的Apache大数据框架是如何进行比较的。

无法使用传统数据处理软件处理的大量复杂数据的集合被称为大数据。大数据的功能包括: 隐私、数据存储、捕获数据、数据分析、搜索、共享、可视化、查询、更新、传输和信息安全。

有许多大数据技术可用于存储数据、更快地执行任务、使系统并行、提高处理速度和分析数据。还有许多分布式计算系统可以实时或近实时处理大数据。

以下是五个最好的Apache大数据框架的简要描述。

Apache Hadoop

Apache Hadoop是一个用Java编写的开源,可扩展和容错的框架。 这是一个处理框架,专门提供批处理,并有效地处理大量商品硬件上的大量数据。 Hadoop不仅是一个存储系统,而且是存储大量数据和处理的平台。

现代版本的Hadoop由多个组件或层组成,这些组件或层一起工作来处理批处理数据。 这些在下面列出。

HDFS(Hadoop分布式文件系统):这是分布式文件系统层,它协调跨群集节点的存储和复制。 尽管存在不可避免的主机故障,但HDFS确保数据仍然可用。 它用作数据源,存储中间处理结果,并保留最终的计算结果。

YARN:这是Yet Another Resource Negotiator的意思。 它是Hadoop堆栈的集群协调组件,负责协调和管理需要运行的底层资源和调度作业。 通过充当群集资源的接口,YARN使得可以在Hadoop群集上运行更多不同的工作负载。

MapReduce:这是Hadoop的本地批处理引擎。

Apache Storm

Apache Storm是一个流处理框架,专注于极低的延迟,可能是需要接近实时处理的工作负载的最佳选择。 它可以处理大量的数据,并以比其他解决方案更少的延迟交付结果。Storm很简单,可以和任何编程语言一起使用,也很有趣。

Storm有许多用例:实时分析,在线机器学习,连续计算,分布式RPC,ETL等等。 它速度很快 - 每个节点每秒处理超过一百万个元组的基准时钟。 它还具有可扩展性,容错性,可确保您的数据得到处理,并且易于设置和操作。

图1:大数据框架

Apache Samza

Apache Samza是一个流处理框架,与Apache Kafka消息系统紧密相关。 虽然Kafka可以被许多流处理系统使用,Samza专门设计用于利用Kafka独特的架构和保证。 它使用Kafka提供容错,缓冲和状态存储。

Samza使用YARN进行资源谈判。 这意味着,默认情况下,需要Hadoop集群(至少HDFS和YARN)。 这也意味着Samza可以依靠YARN内置的丰富功能。

Apache Spark

Apache Spark是一个通用和闪电般的集群计算系统。 它提供了Java,Scala,Python和R等高级API,并且是运行Spark应用程序的工具。 它比Big Data Hadoop快100倍,比从磁盘访问数据快10倍。 它可以与Hadoop集成并可以处理现有的Hadoop HDFS数据。

Apache Spark是具有流处理功能的下一代批处理框架。 使用Hadoop的MapReduce引擎的许多相同原理构建,Spark主要侧重于通过提供完整的内存中计算和处理优化来加快批处理工作负载。

Spark可以作为独立群集部署(如果与可用的存储层配对),或者可以挂钩到Hadoop中作为MapReduce引擎的替代方案。

表1:最佳大数据框架的比较

Apache Flink

Apache Flink是一个开源平台; 它是一个流式数据流引擎,为数据流上的分布式计算提供通信,容错和数据分布。 它是一个可扩展的数据分析框架,与Hadoop完全兼容。 Flink可以轻松执行流处理和批处理。

当Spark执行批处理和流处理时,由于其微量批处理架构,其流式传输不适用于许多用例。 Flink的流优先方法提供低延迟,高吞吐量和真正的逐条入口处理。

更多阅读

课课家教育_ 人工智能之从头开始学数学视频教程

只有少数人知道的关于物联网的未来预测

对于优惠与活动从不懈怠的课课家教育,这优惠力度也是没了谁……

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180425A0Y93V00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券