公有云大数据平台弹性 MapReduce

27 篇文章
160 人订阅

大数据

洛杉矶

腾讯 · 高级工程师 (已认证)

NameNode 高HA

NameNode 保存了整个 HDFS 的元数据信息,一旦 NameNode 挂掉,整个 HDFS 就无法访问。为了提高HDFS的高可用性,在 Hadoop2....

8.7K60
shangwen_

EMR常见FAQ (持续更新中)

1. 去到不健康节点的机器,用du命令去查看/data目录数据大小的分布情况,找出占比最大的目录

82820
sundyxiong

腾讯 · 高级开发工程师 (已认证)

多EMR-Presto集群共享EMR-Hive集群配置方案

EMR的某些客户的数据仓库使用EMR-Hive存储,presto连接hive快速ad-hoc查询,但是有些场景下不同的业务部门有各自不同的使用presto查询需...

38280
sundyxiong

腾讯 · 高级开发工程师 (已认证)

分布式sql引擎原理分析-逻辑执行计划生成

本文档以当前流行的分布式大数据查询引擎Presto为切入点,分析一个query语句怎么生成为一个分段的逻辑计划。

1.3K130
liubang01

基于 Flume 和 EMR 构建低成本大数据应用

Flume 是一个分布式的日志收集系统,它可以将应用服务器产生的日志、消息中间件 (比如 kafka) 的消息等其他数 据串联起来发送到指定的存储以供数据分析使...

3K260
程序猿

EMR上Zeppelin入门

简而言之,就是一个大数据分析平台。用户可以利用提供好的WEB UI,在线编写分析逻辑代码,输出结果,并且能够利用可视化工具,形象生动的在线展示结果。

19810
宋超

腾讯 · 技术测试工程师 (已认证)

ResourceManager中的Resource Estimator框架介绍与算法剖析

本文首先介绍了Hadoop中的ResourceManager中的estimator service的框架与运行流程,然后对其中用到的资源估算算法进行了原理剖析。

2.5K160
shangwen_

简单了解公平调度器的一些队列设置

在腾讯云EMR的用户日常反馈中,经常会遇到因为YARN的队列配置不合理导致资源利用率不高,任务提交不上的问题,所以有了以下的文章,方便用户在日常按照一定的需求将...

23320
shangwen_

浅谈Hadoop Distcp工具的InputFormat

从Hadoop的出现到现在已经超过十年了,它在大数据领域扮演着一个重要的角色,相信在Hadoop的使用过程中,或多或少的都会用到自带的一个常用工具,就是Hado...

27230
fastio

腾讯 · 高级工程师 (已认证)

腾讯云EMR使用说明: 配置工作流

本文将通过一个简单,并且具有典型代表的例子,描述如何使用EMR产品中的Hue组件创建工作流,并使该工作流每天定时执行。

10.1K130
liubang01

Hbase Region Split compaction 过程分析以及调优

Hbase以高并发写入而闻名,而Compact和Split功能贯穿了hbase的整个写入过程,而只有掌握了Compact和Split内部逻辑以及控制参数才能根据...

1.9K00
liubang01

Hbase 调优之 RPC

本文暂时先研究了hbaserpc部分的代码,rpc作为调用的入口,先从入口处明白原理以及内部实际控制参数进行调整来满足自己的以为需要。

2.2K00

扫码关注云+社区

领取腾讯云代金券