Hadoop实操-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Hadoop实操

专注Apache Hadoop，CDH和HDP的实操，如安装部署，安全配置，排障过程，经验分享，性能

专栏成员

974

文章

2438905

阅读量

707

订阅数

0889-7.1.7-Hive on Tez解析以及日志分析

hive sql yarn node.js mapreduce

1.Tez简介 Tez 是支持 DAG 作业的开源计算框架，它可以将多个有依赖的作业转换为一个作业从而大幅提升 DAG 作业的性能。从本质上讲，Tez 组成非常简单，只有两个组成部分：数据处理管道引擎，其中一个引擎可以输入，处理和输出实现以执行任意数据处理数据处理应用程序的主机，通过它可以将上述任意数据处理“任务”组合到任务 DAG 中，以根据需要处理数据。总的来说MR任务在map和reduce阶段都会产生I/O落盘，但是Tez就不要这一步骤了。 Tez采用了DAG（有向无环图）来组织MR任务。核心

2022-08-29

3.7K0

0872-7.1.4-如何启用CGroup限制YARN CPU使用率

yarn node.js mapreduce spark

1.文档编写目的首先说明什么场景下适合使用CGroup，为什么会在集群YARN 中对CPU 进行Vcore数超配的情况下同样一个作业，同样的资源参数，有时候处理很快，有时候处理很慢，出现作业的运行效率无法预估情况？当我们期望通过合理分配CPU的使用率，使应用预期性能的运行，排除其他因素的影响下，如应用中每分配一个Vcore，预估它能处理多少数据，就需要启用CGroup对CPU进行严格的使用率限制来实现。在混合工作负载的示例是运行 MapReduce 和 Storm-on-YARN 的集群。MapRed

2022-03-24

1.8K0

0850-7.1.4-如何为distcp作业设置application tag

单片机 yarn node.js 专用宿主机 mapreduce

如果需要管理作业生命周期。期望通过作业的application tag来进行定位。本文档就如何设置distcp作业的application tag来进行说明。

2021-07-05

8900

一篇文章让你了解Hive调优

hive 数据处理 mapreduce sql

老工在职场多年，从事过海量（PB级）数据的关系型数据库数据处理工作，后由于数据平台升级的要求，将数据迁移到Hadoop集群，做了多年的数据研发和数据产品的研发工作，从业务理解、数据模型构建、数据采集、数据清洗，到数据产品前端/服务端的研发都做过，基本涵盖了数据的生命周期。对于Hive调优，老工自有一番理解。下面将从一个过度优化的案例说起。

2020-02-27

2.1K0

0734-5.16.1-集群外客户端跨网段向Kerberos环境的Hadoop集群提交作业（续）

kerberos xml spark mapreduce yarn

在前面的文章《如何在集群外节点跨网段向HDFS写数据》和《外部客户端跨网段访问Hadoop集群方式(续)》中介绍了如何在集群外的客户端节点上访问Hadoop集群，本篇文章在前面文章的基础上基于Kerberos环境的CDH集群介绍，如何在集群外客户端跨网段向Kerberos环境的Hadoop集群提交MapReduce和Spark作业。

2019-12-16

2.1K0

0507-Hive查询json格式表执行MapReduce任务错误问题分析和解决

json yarn hive node.js mapreduce

本篇文章主要介绍hive里创建的json格式的表，全表查询时成功，当查询时需要提交mapreduce任务时失败问题描述和解决。

2019-11-28

9600

0643-Spark SQL Thrift简介

hive 专用宿主机 sql hadoop mapreduce

这是一个复杂的历史，基本上是一个“忒修斯船”(Ship of Theseus)的故事。最开始的时候，Spark SQL的代码几乎全部都是Hive的照搬，随着时间的推移，Hive的代码被逐渐替换，直到几乎没有原始的Hive代码保留。

2019-05-29

3.2K0

0620-5.16.1-如何设置MR作业的Map或Reduce日志级别

yarn node.js mapreduce github git

在Hadoop集群有大量的MapReduce作业，为了分析定位作业的问题需要考虑输出Map或Reduce的详细日志，通过作业的详细的日志更快速的定位问题并解决，同样也可以通过配置日志输出级别而减少日志量。本篇文章Fayson主要介绍如何通过Cloudera Manager配置MapReduce作业的Map、Reduce、ApplicationMaster的日志级别。

2019-05-14

2K0

0588-6.1.0-命令行动态指定MapReduce运行参数无效问题分析

mapreduce hadoop jar 面向对象编程打包

在本地完成MapReduce程序的开发后，打包提交到服务器上，然后在命令行使用hadoop jar命令运行，并在运行时动态的指定参数（如：Map和Reduce的内、资源池等参数）。通过在命令行添加“-D mapreduce.job.queuename=资源池名”的方式来指定。本篇文章Fayson主要讲述动态指定MapReduce作业参数无效问题分析。

2019-04-28

1.2K0

Hive启用Sentry后如何限制用户提交Yarn资源池

hive yarn git http mapreduce

在前面Fayson介绍了《如何使用Cloudera Manager设置使用YARN队列的ACL》和《如何在Cloudera Manager中配置Yarn放置规则》。通过放置策略可以自动的将用户分的作业分配到对应的资源池，如果用户手动指定资源池则也可以正常提交作业到指定的资源池，因此需要结合Yarn队列的ACL控制，可以防止用户随意指定资源池问题。

2018-11-16

4.3K0

如何在CM中启用YARN的使用率报告

yarn node.js mapreduce 容器 hadoop

CDH的高级功能"群集利用率报告"(Cluster Utilization Report)是整个多租户方案体系里的一部分，可以用来查看租户的资源使用情况，并可以通过Cloudera Manager的API导出资源使用报表。

2018-03-29

4.3K0

如何在HDFS上查看YARN历史作业运行日志

大数据 mapreduce yarn github node.js

在未开通Yarn Web界面端口8088，或者开通了8088，没有开通单个NodeManager如8042时，在MapReduce作业有失败时，往往我们没法直接通过界面查看某个container具体报错日志，从而不方便分析作业出错原因。这时，我们可以在HDFS上查看MapReduce的历史作业日志。本篇文章主要介绍如何通过HDFS查看YARN历史作业Container日志。

2018-03-29

6.1K0

如何使用java命令从非集群节点向CDH集群提交MapReduce作业

专用宿主机 kerberos mapreduce xml 打包

在前面文章Fayson讲过《如何使用hadoop命令向CDH集群提交MapReduce作业》和《如何跨平台在本地开发环境提交MapReduce作业到CDH集群》，但有些用户需要在非CDH集群的节点提交作业，这里实现方式有多种一种是将该节点加入CDH集群管理并部署GateWay角色，可以参考Fayson前面的文章《如何给CDH集群增加Gateway节点》，还有一种方式就是使用java命令向CDH集群提交MR作业。本篇文章主要讲述如何使用java命令向CDH集群提交MapReduce作业

2018-03-29

1K0

CENTOS6.5安装CDH5.12.1(一)

linux mapreduce hive

本文档主要描述离线环境下，CentOS6.5操作系统部署CDH5.12.1企业版的过程。本安装文档主要分为4个步骤：

2018-03-29

1.7K0

Yarn的JobHistory目录权限问题导致MapReduce作业异常

hadoop mapreduce 大数据 jdbc yarn

0: jdbc:hive2://localhost:10000>select count(*) from student;

2018-03-29

4.8K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态