首页
学习
活动
专区
工具
TVP
发布

公有云大数据平台弹性 MapReduce

专栏作者
45
文章
183678
阅读量
292
订阅数
自建迁移EMR实践案例
自建开源大数据平台会随着企业数据的增长遇到:性能慢、扩容周期长、平台稳定性差、运维难、投入成本高等问题。在这里我们将从 EMR 的简介、EMR与自建Hadoop对比优势、自建迁移上云的实践案例来介绍 EMR 是如何解决这些问题的。
腾讯云大数据
2023-03-20
3.5K0
通过数据组织优化加速基于Apache Iceberg的大规模数据分析
数据湖(Data lake)是一种将数据以原始格式存储在同一个系统或存储库的设计思想。它可以实现在一份数据之上进行多种数据计算,以避免为了多种计算场景而导致数据冗余存储和搬迁成本。以数据湖架构建立数据分析平台能让企业以较低的成本实现原始数据的集中式管理,提供统一口径和灵活的分析能力。当前,比较主流的开源数据湖格式有Iceberg,Hudi和DeltaLake。
鱼跟猫
2021-07-06
2.4K0
腾讯云EMR基于YARN针对云原生容器化的优化与实践
导语 | 传统HADOOP生态系统使用YARN管理/调度计算资源,该系统⼀般具有明显的资源使⽤周期。实时计算集群资源消耗主要在⽩天,而数据报表型业务则安排在离线计算集群中。离在线业务分开部署的首要问题就是资源使用率低,消耗成本⾼。随着业务的增⻓和突发的报表计算需求,为了解决为离线集群预留资源,腾讯云EMR团队和容器团队联合推出Hadoop Yarn on Kubernetes Pod,以提⾼容器资源使用率,降低资源成本,将闲时容器集群CPU使⽤率提升数倍之多。本文主要介绍HADOOP资源调度器YARN在容器环境中的优化与实践。
腾讯云大数据
2021-06-28
1.9K0
Alluxio Day 2021 线上直播
2020年Alluxio经历了前所未有的快速增长,并入选十大基于Java的重要(Critical)开源软件项目。此次研讨会系列,我们将围绕如何基于最新的开源技术,如Alluxio,Presto,Kubernetes,Hudi,Fluid,Kylin等,构建云原生或者混合云数据和AI平台这一话题展开讨论,并重点关注其中关键性数据工程方面的挑战和解决方案。
腾讯云大数据
2021-01-12
1.1K0
基于Alluxio优化大数据计算存储分离架构的最佳实践
近年来,随着大数据规模的增长,以及大数据应用的发展,大数据技术的架构也在持续演进。早期的技术架构是计算资源和存储资源高度融合,计算和存储资源一体化存在以下明显的挑战:
腾讯云大数据
2021-01-08
1.6K0
关注专栏作者,随时接收最新技术干货
腾讯云大数据
腾讯大数据技术
fastio
腾讯高级工程师
alexcqtan
腾讯助理工程师
秒级去重:ClickHouse在腾讯海量游戏营销活动分析中的应用
导语 | 腾讯内部每日都需要对海量的游戏营销活动数据做效果分析,而活动参与人数的去重一直是一项难点。本文将为大家介绍腾讯游戏营销活动分析系统——奕星,在去重服务上的技术思路和迭代方案,希望与大家一同交流探讨。
腾讯云大数据
2021-01-08
1.6K0
存算分离下写性能提升10倍以上,EMR Spark引擎是如何做到的?
随着大数据技术架构的演进,存储与计算分离的架构能更好的满足用户对降低数据存储成本,按需调度计算资源的诉求,正在成为越来越多人的选择。相较 HDFS,数据存储在对象存储上可以节约存储成本,但与此同时,对象存储对海量文件的写性能也会差很多。
腾讯云大数据
2021-01-08
1.6K1
重磅来袭:腾讯云ClickHouse支持数据均衡服务
ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。它于2016年以apache 2.0协议开源,以优秀的查询性能,深受广大大数据工程师欢迎。为了服务客户业务,腾讯云于2020年4月正式上线ClickHouse服务。
腾讯云大数据
2021-01-07
1.1K0
Clickhouse在大数据分析平台-留存分析上的应用
你可能听说过Growingio、神策等数据分析平台,所在部门也在构建自己的大数据分析平台MVP(地址:http://mvp.wsd.com),本文主要介绍实现留存分析工具相关的内容。
腾讯云大数据
2021-01-07
2K0
节约60%成本!虎牙直播云端大数据是怎么做到的?
虎牙是中国第一家上市的游戏直播公司,旗下产品包括知名游戏直播平台虎牙直播、风靡东南亚和南美的游戏直播平台NimoTV等,产品覆盖PC、Web、移动三端。其中,游戏直播平台虎牙直播月活达1.5亿。
腾讯云大数据
2021-01-07
1.3K0
QQ音乐PB级ClickHouse实时数据平台架构演进之路
QQ音乐是腾讯音乐旗下一款领先的音乐流媒体产品,平台打造了“听、看、玩”的立体泛音乐娱乐生态圈,为累计注册数在8亿以上的用户提供多元化音乐生活体验,畅享平台上超过3000万首歌曲的海量曲库。优质服务的背后,是每天万亿级新增音乐内容和行为数据,PB数据量级的数据计算服务。
腾讯云大数据
2021-01-07
2.5K0
看云上 ClickHouse 如何做计算存储分离
12月6日-7日,由InfoQ 中国主办的综合性技术盛会QCon全球软件开发大会深圳站召开。QCon 内容源于实践并面向社区,演讲嘉宾依据热点话题,面向资深的技术团队负责人、架构师、工程总监、开发人员分享技术创新和实践。
腾讯云大数据
2021-01-05
2.5K0
基于Alluxio优化大数据计算存储分离架构的最佳实践
近年来,随着大数据规模的增长,以及大数据应用的发展,大数据技术的架构也在持续演进。早期的技术架构是计算资源和存储资源高度融合,计算和存储资源一体化存在以下明显的挑战:
sundyxiong
2021-01-05
2.9K0
ClickHouse源码导读:网络IO
ClickHouse是一款开源的列式数据库,主要应用于在线分析查询场景(OLAP)。其显著特点就是:性能强悍。
fastio
2020-03-23
2.4K0
ClickHouse 导入数据实战:MySQL篇
在生产环境中,经常遇到将数据库中的数据写入ClickHouse集群中。本文介绍2种将MySQL数据库中的数据导入到ClickHouse集群的方案。
fastio
2020-03-23
15.3K2
ClickHouse 数据导入实战:Kafka 篇
在生产环境中,经常遇到将数据从消息队列Kafka写入ClickHouse集群中。本文介绍如何将Kafka中的数据导入到ClickHouse集群的方案。
fastio
2020-03-23
14.1K19
​Tez 优化参数
tez是hive的常用引擎之一,本文介绍tez常用的调试参数。主要是内存,map/reduce数量方面的调试。
AAACCC
2019-12-15
8K0
ResourceManager因为块丢失而重启失败
在非HA情况下,如果HDFS中RM-Restart相关的块丢失,会导致RM无法启动。
AAACCC
2019-12-06
1.7K0
NameNode 高HA
NameNode 保存了整个 HDFS 的元数据信息,一旦 NameNode 挂掉,整个 HDFS 就无法访问。为了提高HDFS的高可用性,在 Hadoop2.0 中,HDFS NameNode支持了高可用架构,如下图。
洛杉矶
2019-03-18
12.5K0
HiveServer2用户名和密码认证
解压之后将libjpam.s复制到/usr/local/service/hadoop/lib/native中
shangwen_
2018-12-03
13.3K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档