数据采集、数据存储和管理、数据处理和分析和数据隐私和安全。主要关注点是:
解决数据存储问题,代表:
解决数据高效计算问题,带表
Hadoop
中相关组件有
资源调度管家
,一个集群支持多种框架。管理系统,系统、CPU
和内存等,解决开发成本高和集群资源利用率等问题ETL
,完成各个组件之间的互联互通功能
Hadoop的缺点是:
spark(2009年)是一个单纯的计算框架,比MapReduce更佳,取而代之,本身不具备存储能力。火的原因:社区好、企业支持早
操作多样化
Spark中的操作不再仅限于map和reduce两个操作,操作类型多,表达能力更强,操作还包含:
提供内存计算
数据生成之后,将数据写入内存中,下次直接在内存中进行调用即可。
底层是spark core
,spark
框架图:
Apache Flink 是一个分布式大数据处理引擎,2008年诞生,也是一个计算框架。可对有限数据流和无限数据流进行有状态或无状态的计算,能够部署在各种集群环境,对各种规模大小的数据进行快速计算。
Flink
更适合做流计算
Beam
是谷歌公司提出来的,想将各种框架统一起来。