学习笔记2:数据库—流数据分析与处理

1、典型大数据批处理系统架构是什么样的?

通过数据采集工具,我们将数据库或日志的一些数据导到大数据平台上,比如说HDFS,这样的数据在数据库系统中,然后,在这个集群环境下,我们需要一些离线的查询处理的引擎,MapReduce,Spark,需要一些资源调度工具,Resoure manager,node manger,在这样的集群环境下做大规模分析处理,通常消耗时间比较长。

2、什么是YARN?

Apache Hadoop YARN(Yetanother resource negotiator,另一种资源协调者),是一种新的Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群再利用率、资源统一管理和数据共享方面带来了巨大的好处。

YARN的基本思想是将JobTracker的两个主要功能(资源管理和作业调度/监控)分离。

参考资料:

MOOC中国人民大学《数据库系统概论(新技术篇)》

第14讲流数据分析与处理/流数据分析与处理陈跃国

百度百科YARN词条

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180911G1OFEY00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券