公有云大数据平台弹性 MapReduce

44 篇文章
104.2K 次阅读
265 人订阅

全部文章

鱼跟猫

通过数据组织优化加速基于Apache Iceberg的大规模数据分析

数据湖(Data lake)是一种将数据以原始格式存储在同一个系统或存储库的设计思想。它可以实现在一份数据之上进行多种数据计算,以避免为了多种计算场景而导致数据...

457141
腾讯云大数据

腾讯云EMR基于YARN针对云原生容器化的优化与实践

导语 | 传统HADOOP生态系统使用YARN管理/调度计算资源,该系统⼀般具有明显的资源使⽤周期。实时计算集群资源消耗主要在⽩天,而数据报表型业务则安排在离线...

48451
腾讯云大数据

Alluxio Day 2021 线上直播

2020年Alluxio经历了前所未有的快速增长,并入选十大基于Java的重要(Critical)开源软件项目。此次研讨会系列,我们将围绕如何基于最新的开源技术...

50610
腾讯云大数据

基于Alluxio优化大数据计算存储分离架构的最佳实践

近年来,随着大数据规模的增长,以及大数据应用的发展,大数据技术的架构也在持续演进。早期的技术架构是计算资源和存储资源高度融合,计算和存储资源一体化存在以下明显的...

60750
腾讯云大数据

秒级去重:ClickHouse在腾讯海量游戏营销活动分析中的应用

导语 | 腾讯内部每日都需要对海量的游戏营销活动数据做效果分析,而活动参与人数的去重一直是一项难点。本文将为大家介绍腾讯游戏营销活动分析系统——奕星,在去重服务...

68741
腾讯云大数据

存算分离下写性能提升10倍以上,EMR Spark引擎是如何做到的?

随着大数据技术架构的演进,存储与计算分离的架构能更好的满足用户对降低数据存储成本,按需调度计算资源的诉求,正在成为越来越多人的选择。相较 HDFS,数据存储在对...

27041
腾讯云大数据

重磅来袭:腾讯云ClickHouse支持数据均衡服务

ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。它于2016年以apache 2.0协议开源,以优秀的查询性能,深受广大大数...

19720
腾讯云大数据

Clickhouse在大数据分析平台-留存分析上的应用

你可能听说过Growingio、神策等数据分析平台,所在部门也在构建自己的大数据分析平台MVP(地址:http://mvp.wsd.com),本文主要介绍实现留...

56020
腾讯云大数据

节约60%成本!虎牙直播云端大数据是怎么做到的?

虎牙是中国第一家上市的游戏直播公司,旗下产品包括知名游戏直播平台虎牙直播、风靡东南亚和南美的游戏直播平台NimoTV等,产品覆盖PC、Web、移动三端。其中,游...

36630
腾讯云大数据

QQ音乐PB级ClickHouse实时数据平台架构演进之路

QQ音乐是腾讯音乐旗下一款领先的音乐流媒体产品,平台打造了“听、看、玩”的立体泛音乐娱乐生态圈,为累计注册数在8亿以上的用户提供多元化音乐生活体验,畅享平台上超...

41620
腾讯云大数据

看云上 ClickHouse 如何做计算存储分离

12月6日-7日,由InfoQ 中国主办的综合性技术盛会QCon全球软件开发大会深圳站召开。QCon 内容源于实践并面向社区,演讲嘉宾依据热点话题,面向资深的技...

57671
sundyxiong

腾讯 · 高级开发工程师 (已认证)

基于Alluxio优化大数据计算存储分离架构的最佳实践

近年来,随着大数据规模的增长,以及大数据应用的发展,大数据技术的架构也在持续演进。早期的技术架构是计算资源和存储资源高度融合,计算和存储资源一体化存在以下明显的...

1.7K100
fastio

腾讯 · 高级工程师 (已认证)

ClickHouse源码导读:网络IO

ClickHouse是一款开源的列式数据库,主要应用于在线分析查询场景(OLAP)。其显著特点就是:性能强悍。

1K157
fastio

腾讯 · 高级工程师 (已认证)

ClickHouse 导入数据实战:MySQL篇

在生产环境中,经常遇到将数据库中的数据写入ClickHouse集群中。本文介绍2种将MySQL数据库中的数据导入到ClickHouse集群的方案。

8.1K125
fastio

腾讯 · 高级工程师 (已认证)

ClickHouse 数据导入实战:Kafka 篇

在生产环境中,经常遇到将数据从消息队列Kafka写入ClickHouse集群中。本文介绍如何将Kafka中的数据导入到ClickHouse集群的方案。

7.2K177
AAACCC

腾讯 · 开发工程师 (已认证)

​Tez 优化参数

tez是hive的常用引擎之一,本文介绍tez常用的调试参数。主要是内存,map/reduce数量方面的调试。

2.9K75
AAACCC

腾讯 · 开发工程师 (已认证)

ResourceManager因为块丢失而重启失败

在非HA情况下,如果HDFS中RM-Restart相关的块丢失,会导致RM无法启动。

571114
洛杉矶

腾讯 · 高级工程师 (已认证)

NameNode 高HA

NameNode 保存了整个 HDFS 的元数据信息,一旦 NameNode 挂掉,整个 HDFS 就无法访问。为了提高HDFS的高可用性,在 Hadoop2....

10.3K156
shangwen_

腾讯 · 后台开发 (已认证)

HiveServer2用户名和密码认证

解压之后将libjpam.s复制到/usr/local/service/hadoop/lib/native中

7K75
shangwen_

腾讯 · 后台开发 (已认证)

EMR常见FAQ (持续更新中)

1. 去到不健康节点的机器,用du命令去查看/data目录数据大小的分布情况,找出占比最大的目录

1.1K84

扫码关注云+社区

领取腾讯云代金券