首页标签弹性 MapReduce

#弹性 MapReduce

安全、低成本、高可靠、可弹性伸缩的云端托管 Hadoop 服务

Oceanus Kudu Sink总结

spiderwu

腾讯云 · 大数据高级工程师 (已认证)

外部表(CREATE EXTERNAL TABLE)不受Impala管理,并且删除此表不会将表从其源位置(此处为Kudu)丢弃。只会去除Impala和Kudu之...

9330

通过数据组织优化加速基于Apache Iceberg的大规模数据分析

鱼跟猫

数据湖(Data lake)是一种将数据以原始格式存储在同一个系统或存储库的设计思想。它可以实现在一份数据之上进行多种数据计算,以避免为了多种计算场景而导致数据...

237140

腾讯云EMR基于YARN针对云原生容器化的优化与实践

腾讯云大数据团队

腾讯 · ES技术支持 (已认证)

导语 | 传统HADOOP生态系统使用YARN管理/调度计算资源,该系统⼀般具有明显的资源使⽤周期。实时计算集群资源消耗主要在⽩天,而数据报表型业务则安排在离线...

33950

【全网最新】如何在本地IDE Run起OpenTSDB源码

garyhwang

腾讯 · 工程师 (已认证)

有需求了解一下Opentsdb的源码,然后想着能在本地run起来,打些断点和日志来跟一下,然后兴致勃勃去网上找了资料看看能否快速run起来,但是发现所有的博客、...

18660

HBASE BufferedMutator 批量写入使用举例与源码解析

大鹅

腾讯 · 后台开发 (已认证)

BufferedMutator主要用来异步批量的将数据写入一个hbase表,就像Htable一样。通过Connection获取一个实例。

18450

基于Sentry的大数据权限解决方案

岳涛

腾讯云 · 大数据SRE工程师 (已认证)

Apache Sentry 是Cloudera公司发布的一个Hadoop开源组件,截止目前还是Apache的孵化项目,它提供了细粒度级、基于角色的授权以及多租户...

25950

基于Kerberos+Ldap复合认证的大数据权限

岳涛

腾讯云 · 大数据SRE工程师 (已认证)

关于Kerberos与Ldap两个方案,此处就不再赘述,分别参考我的另外两篇文章:

20560

基于Kerberos认证的大数据权限解决方案

岳涛

腾讯云 · 大数据SRE工程师 (已认证)

Kerberos是由麻省理工(MIT)开发,对三方进行验证鉴权的服务安全管理系统。该系统很好的体现了西方三权分立的思想,其名字也很形象,来源于希腊神话地狱三个脑...

27750

Hive全库数据迁移方案

岳涛

腾讯云 · 大数据SRE工程师 (已认证)

考虑到多数场景是迁移整个Hive数据库,该篇文章只介绍迁移的第二种,即元数据及Hive数据全量迁移。

32770

Impala-查询调优:join 优化

shifeng

本篇章继续Impala查询机制相关的探索和学习,本篇主要讲解join优化器的优化原理和思路。

53930

基于Alluxio优化大数据计算存储分离架构的最佳实践

腾讯云大数据团队

腾讯 · ES技术支持 (已认证)

近年来,随着大数据规模的增长,以及大数据应用的发展,大数据技术的架构也在持续演进。早期的技术架构是计算资源和存储资源高度融合,计算和存储资源一体化存在以下明显的...

44340

秒级去重:ClickHouse在腾讯海量游戏营销活动分析中的应用

腾讯云大数据团队

腾讯 · ES技术支持 (已认证)

导语 | 腾讯内部每日都需要对海量的游戏营销活动数据做效果分析,而活动参与人数的去重一直是一项难点。本文将为大家介绍腾讯游戏营销活动分析系统——奕星,在去重服务...

55640

存算分离下写性能提升10倍以上,EMR Spark引擎是如何做到的?

腾讯云大数据团队

腾讯 · ES技术支持 (已认证)

腾讯云弹性 MapReduce(EMR) 是腾讯云的一个云端托管的弹性开源泛 Hadoop 服务,支持 Spark、Hbase、Presto、Flink、Dru...

18540

基于Alluxio优化大数据计算存储分离架构的最佳实践

sundyxiong

腾讯 · 高级开发工程师 (已认证)

近年来,随着大数据规模的增长,以及大数据应用的发展,大数据技术的架构也在持续演进。早期的技术架构是计算资源和存储资源高度融合,计算和存储资源一体化存在以下明显的...

1.5K100

hbase迁移EMR实践

pwpeng

腾讯 · 业务运维 (已认证)

一、业务背景: 业务方需要搭建一套hbase集群,数据来源是hive表。 集群数据规模:每天4.5kw个key,420亿条左右数据,平均每个key每天1000个...

20260

EMR数据盘扩容

Yannic

腾讯 · 业务运维 (已认证)

EMR产品文档中说明,当集群的存储资源不足时,可通过控制台对Core节点(Core为存储数据及计算的节点,Task为纯计算节点,不存储数据)进行扩容。当集群的计...

31780

ClickHouse案例:查询结果不一致

Yannic

腾讯 · 业务运维 (已认证)

某用户反馈其使用的ClickHouse集群同样的查询返回了不同的结果,是否是ClickHouse数据不能够保证一致性,还是集群有问题。

2.4K80

聊聊EMR Hadoop集群关于资源分配这些事

pwpeng

腾讯 · 业务运维 (已认证)

EMR用户常常会将使用不同资源管理系统的组件混合部署在同一个集群,这样会出现资源竞争的情况。若各组件资源超额配置,可能有机器宕机的风险。本文将从案例分析来聊聊混...

24650

彪悍性能:腾讯云ClickHouse性能调优及实践

腾讯云大数据团队

腾讯 · ES技术支持 (已认证)

ClickHouse 是俄罗斯开源的OLAP数据库,以彪悍的性能著称。开源5年以来,以性能优异、简单易用的特点,吸引了大量的用户群体。本次分享将通过对Click...

30620

腾讯云游戏数据分析概览

童轶

腾讯 · 高级工程师 (已认证)

每一个游戏制作者都想制作出一款让玩家满意的游戏。但是作为开发者,如何知道哪些点是让游戏玩家满意的,哪些是不满意的?今天我们就聚焦这些点来进行讨论。

84571

扫码关注云+社区

领取腾讯云代金券