首页
学习
活动
专区
工具
TVP
发布

Hadoop实操

专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏成员
974
文章
2436775
阅读量
707
订阅数
0889-7.1.7-Hive on Tez解析以及日志分析
1.Tez简介 Tez 是支持 DAG 作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升 DAG 作业的性能。 从本质上讲,Tez 组成非常简单,只有两个组成部分: 数据处理管道引擎,其中一个引擎可以输入,处理和输出实现以执行任意数据处理 数据处理应用程序的主机,通过它可以将上述任意数据处理“任务”组合到任务 DAG 中,以根据需要处理数据。 总的来说MR任务在map和reduce阶段都会产生I/O落盘,但是Tez就不要这一步骤了。 Tez采用了DAG(有向无环图)来组织MR任务。核心
Fayson
2022-08-29
3.7K0
0872-7.1.4-如何启用CGroup限制YARN CPU使用率
1.文档编写目的 首先说明什么场景下适合使用CGroup,为什么会在集群YARN 中对CPU 进行Vcore数超配的情况下同样一个作业,同样的资源参数,有时候处理很快,有时候处理很慢,出现作业的运行效率无法预估情况? 当我们期望通过合理分配CPU的使用率,使应用预期性能的运行,排除其他因素的影响下,如应用中每分配一个Vcore,预估它能处理多少数据,就需要启用CGroup对CPU进行严格的使用率限制来实现。 在混合工作负载的示例是运行 MapReduce 和 Storm-on-YARN 的集群。MapRed
Fayson
2022-03-24
1.8K0
0850-7.1.4-如何为distcp作业设置application tag
如果需要管理作业生命周期。期望通过作业的application tag来进行定位。本文档就如何设置distcp作业的application tag来进行说明。
Fayson
2021-07-05
8860
一篇文章让你了解Hive调优
老工在职场多年,从事过海量(PB级)数据的关系型数据库数据处理工作,后由于数据平台升级的要求,将数据迁移到Hadoop集群,做了多年的数据研发和数据产品的研发工作,从业务理解、数据模型构建、数据采集、数据清洗,到数据产品前端/服务端的研发都做过,基本涵盖了数据的生命周期。对于Hive调优,老工自有一番理解。下面将从一个过度优化的案例说起。
Fayson
2020-02-27
2.1K0
0734-5.16.1-集群外客户端跨网段向Kerberos环境的Hadoop集群提交作业(续)
在前面的文章《如何在集群外节点跨网段向HDFS写数据》和《外部客户端跨网段访问Hadoop集群方式(续)》中介绍了如何在集群外的客户端节点上访问Hadoop集群,本篇文章在前面文章的基础上基于Kerberos环境的CDH集群介绍,如何在集群外客户端跨网段向Kerberos环境的Hadoop集群提交MapReduce和Spark作业。
Fayson
2019-12-16
2.1K0
0507-Hive查询json格式表执行MapReduce任务错误问题分析和解决
本篇文章主要介绍hive里创建的json格式的表,全表查询时成功,当查询时需要提交mapreduce任务时失败问题描述和解决。
Fayson
2019-11-28
9590
0643-Spark SQL Thrift简介
这是一个复杂的历史,基本上是一个“忒修斯船”(Ship of Theseus)的故事。最开始的时候,Spark SQL的代码几乎全部都是Hive的照搬,随着时间的推移,Hive的代码被逐渐替换,直到几乎没有原始的Hive代码保留。
Fayson
2019-05-29
3.2K0
0620-5.16.1-如何设置MR作业的Map或Reduce日志级别
在Hadoop集群有大量的MapReduce作业,为了分析定位作业的问题需要考虑输出Map或Reduce的详细日志,通过作业的详细的日志更快速的定位问题并解决,同样也可以通过配置日志输出级别而减少日志量。本篇文章Fayson主要介绍如何通过Cloudera Manager配置MapReduce作业的Map、Reduce、ApplicationMaster的日志级别。
Fayson
2019-05-14
2K0
0588-6.1.0-命令行动态指定MapReduce运行参数无效问题分析
在本地完成MapReduce程序的开发后,打包提交到服务器上,然后在命令行使用hadoop jar命令运行,并在运行时动态的指定参数(如:Map和Reduce的内、资源池等参数)。通过在命令行添加“-D mapreduce.job.queuename=资源池名”的方式来指定。本篇文章Fayson主要讲述动态指定MapReduce作业参数无效问题分析。
Fayson
2019-04-28
1.2K0
Hive启用Sentry后如何限制用户提交Yarn资源池
在前面Fayson介绍了《如何使用Cloudera Manager设置使用YARN队列的ACL》和《如何在Cloudera Manager中配置Yarn放置规则》。通过放置策略可以自动的将用户分的作业分配到对应的资源池,如果用户手动指定资源池则也可以正常提交作业到指定的资源池,因此需要结合Yarn队列的ACL控制,可以防止用户随意指定资源池问题。
Fayson
2018-11-16
4.3K0
如何在CM中启用YARN的使用率报告
CDH的高级功能"群集利用率报告"(Cluster Utilization Report)是整个多租户方案体系里的一部分,可以用来查看租户的资源使用情况,并可以通过Cloudera Manager的API导出资源使用报表。
Fayson
2018-03-29
4.3K0
如何在HDFS上查看YARN历史作业运行日志
在未开通Yarn Web界面端口8088,或者开通了8088,没有开通单个NodeManager如8042时,在MapReduce作业有失败时,往往我们没法直接通过界面查看某个container具体报错日志,从而不方便分析作业出错原因。这时,我们可以在HDFS上查看MapReduce的历史作业日志。本篇文章主要介绍如何通过HDFS查看YARN历史作业Container日志。
Fayson
2018-03-29
6.1K0
如何使用java命令从非集群节点向CDH集群提交MapReduce作业
在前面文章Fayson讲过《如何使用hadoop命令向CDH集群提交MapReduce作业》和《如何跨平台在本地开发环境提交MapReduce作业到CDH集群》,但有些用户需要在非CDH集群的节点提交作业,这里实现方式有多种一种是将该节点加入CDH集群管理并部署GateWay角色,可以参考Fayson前面的文章《如何给CDH集群增加Gateway节点》,还有一种方式就是使用java命令向CDH集群提交MR作业。本篇文章主要讲述如何使用java命令向CDH集群提交MapReduce作业
Fayson
2018-03-29
1K0
CENTOS6.5安装CDH5.12.1(一)
本文档主要描述离线环境下,CentOS6.5操作系统部署CDH5.12.1企业版的过程。本安装文档主要分为4个步骤:
Fayson
2018-03-29
1.7K0
Yarn的JobHistory目录权限问题导致MapReduce作业异常
0: jdbc:hive2://localhost:10000>select count(*) from student;
Fayson
2018-03-29
4.8K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档