首页
学习
活动
专区
工具
TVP
发布

公有云大数据平台弹性 MapReduce

专栏作者
45
文章
184400
阅读量
292
订阅数
自建迁移EMR实践案例
自建开源大数据平台会随着企业数据的增长遇到:性能慢、扩容周期长、平台稳定性差、运维难、投入成本高等问题。在这里我们将从 EMR 的简介、EMR与自建Hadoop对比优势、自建迁移上云的实践案例来介绍 EMR 是如何解决这些问题的。
腾讯云大数据
2023-03-20
3.6K0
通过数据组织优化加速基于Apache Iceberg的大规模数据分析
数据湖(Data lake)是一种将数据以原始格式存储在同一个系统或存储库的设计思想。它可以实现在一份数据之上进行多种数据计算,以避免为了多种计算场景而导致数据冗余存储和搬迁成本。以数据湖架构建立数据分析平台能让企业以较低的成本实现原始数据的集中式管理,提供统一口径和灵活的分析能力。当前,比较主流的开源数据湖格式有Iceberg,Hudi和DeltaLake。
鱼跟猫
2021-07-06
2.4K0
腾讯云EMR基于YARN针对云原生容器化的优化与实践
导语 | 传统HADOOP生态系统使用YARN管理/调度计算资源,该系统⼀般具有明显的资源使⽤周期。实时计算集群资源消耗主要在⽩天,而数据报表型业务则安排在离线计算集群中。离在线业务分开部署的首要问题就是资源使用率低,消耗成本⾼。随着业务的增⻓和突发的报表计算需求,为了解决为离线集群预留资源,腾讯云EMR团队和容器团队联合推出Hadoop Yarn on Kubernetes Pod,以提⾼容器资源使用率,降低资源成本,将闲时容器集群CPU使⽤率提升数倍之多。本文主要介绍HADOOP资源调度器YARN在容器环境中的优化与实践。
腾讯云大数据
2021-06-28
1.9K0
基于Alluxio优化大数据计算存储分离架构的最佳实践
近年来,随着大数据规模的增长,以及大数据应用的发展,大数据技术的架构也在持续演进。早期的技术架构是计算资源和存储资源高度融合,计算和存储资源一体化存在以下明显的挑战:
腾讯云大数据
2021-01-08
1.6K0
秒级去重:ClickHouse在腾讯海量游戏营销活动分析中的应用
导语 | 腾讯内部每日都需要对海量的游戏营销活动数据做效果分析,而活动参与人数的去重一直是一项难点。本文将为大家介绍腾讯游戏营销活动分析系统——奕星,在去重服务上的技术思路和迭代方案,希望与大家一同交流探讨。
腾讯云大数据
2021-01-08
1.6K0
关注专栏作者,随时接收最新技术干货
腾讯云大数据
腾讯大数据技术
fastio
腾讯高级工程师
alexcqtan
腾讯助理工程师
存算分离下写性能提升10倍以上,EMR Spark引擎是如何做到的?
随着大数据技术架构的演进,存储与计算分离的架构能更好的满足用户对降低数据存储成本,按需调度计算资源的诉求,正在成为越来越多人的选择。相较 HDFS,数据存储在对象存储上可以节约存储成本,但与此同时,对象存储对海量文件的写性能也会差很多。
腾讯云大数据
2021-01-08
1.6K1
基于Alluxio优化大数据计算存储分离架构的最佳实践
近年来,随着大数据规模的增长,以及大数据应用的发展,大数据技术的架构也在持续演进。早期的技术架构是计算资源和存储资源高度融合,计算和存储资源一体化存在以下明显的挑战:
sundyxiong
2021-01-05
2.9K0
ResourceManager因为块丢失而重启失败
在非HA情况下,如果HDFS中RM-Restart相关的块丢失,会导致RM无法启动。
AAACCC
2019-12-06
1.7K0
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档