前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hadoop和spark:兼容才是可靠的解决方案

Hadoop和spark:兼容才是可靠的解决方案

作者头像
成都加米谷大数据
修改2021-07-05 18:07:43
5700
修改2021-07-05 18:07:43
举报
文章被收录于专栏:大数据开发

说起大数据计算框架,Hadoop和Spark这两者之间,一直都是存在着争议的,甚至一度还出现了Spark会替代Hadoop的声音,但是随着这两年的发展,事实告诉大家,Hadoop和Spark这两者之间,谁也没有消灭谁,都好好地存在着。

那些一定要在Hadoop和Spark之间分隔孰优孰劣的人,其实忽视了很重要的一点就是,设计人员最初的初衷,其实是需要Hadoop和Spark实现在一个系统当中的协同运行,共同提供更高效的大数据处理解决方案。

Hadoop和Spark
Hadoop和Spark

Hadoop和Spark,兼容合作才是目前大数据处理的最佳解决方案。Hadoop和Spark各有所长,并且各自的长处并不互相重叠。

举个很明显的例子,Spark的优势在于实时数据计算,而Hadoop的优势在于离线数据计算,如果完全依靠Spark的实时计算,当数据规模增长到一定的量级的时候,Spark的系统也会扛不住,所以如果将Hadoop和Spark结合起来,Hadoop处理时效性要求不高的数据,而Spark处理时效性要求高的数据,两相结合才是更优化的选择。

再比如说,Spark没有文件管理功能,必须依靠于其他的分布式文件系统才能进行工作,而Hadoop的HDFS文件系统就能提供这样的帮助。Spark拿来和Hadoop做比较,本身是没有可比性的,Spark更倾向于是数据计算引擎,而非是完善的数据处理平台。

关于Hadoop和Spark,需要记住的一点就是,这两者之间,不是非此即彼的关系,不是说一方要成为另一方的替代者,而是两者彼此兼容,提供更强大的数据处理解决方案。Spark真正擅长的是处理流工作负载、交互式查询和基于机器的学习等,而Hadoop作为一个完备的大数据处理平台兼容Spark,也能实现各方面的性能提升。

在现阶段的趋势来看,Hadoop和Spark都在大数据领域内占有自己的地位,并且也各自在数据处理上发挥所长,作为技术人员,更应该思考的是,如何实现两者之间更好的兼容和性能的提升。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据处理套件 TBDS
腾讯大数据处理套件(Tencent Big Data Suite,TBDS)依托腾讯多年海量数据处理经验,基于云原生技术和泛 Hadoop 生态开源技术提供的可靠、安全、易用的大数据处理平台。 TBDS可在公有云、私有云、非云化环境,根据不同数据处理需求组合合适的存算分析组件,包括 Hive、Spark、HBase、Flink、Presto、Iceberg、Elasticsearch、StarRocks 等,以快速构建企业级数据湖仓。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档