公有云大数据平台弹性 MapReduce-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

公有云大数据平台弹性 MapReduce

专栏成员

45

文章

189589

阅读量

292

订阅数

自建迁移EMR实践案例

弹性 MapReduce 大数据 emr

自建开源大数据平台会随着企业数据的增长遇到：性能慢、扩容周期长、平台稳定性差、运维难、投入成本高等问题。在这里我们将从 EMR 的简介、EMR与自建Hadoop对比优势、自建迁移上云的实践案例来介绍 EMR 是如何解决这些问题的。

腾讯云大数据

2023-03-20

3.7K0

通过数据组织优化加速基于Apache Iceberg的大规模数据分析

大数据弹性 MapReduce hadoop 存储

数据湖（Data lake）是一种将数据以原始格式存储在同一个系统或存储库的设计思想。它可以实现在一份数据之上进行多种数据计算，以避免为了多种计算场景而导致数据冗余存储和搬迁成本。以数据湖架构建立数据分析平台能让企业以较低的成本实现原始数据的集中式管理，提供统一口径和灵活的分析能力。当前，比较主流的开源数据湖格式有Iceberg，Hudi和DeltaLake。

2021-07-06

2.5K0

Alluxio Day 2021 线上直播

2020年Alluxio经历了前所未有的快速增长，并入选十大基于Java的重要（Critical）开源软件项目。此次研讨会系列，我们将围绕如何基于最新的开源技术，如Alluxio，Presto，Kubernetes，Hudi，Fluid，Kylin等，构建云原生或者混合云数据和AI平台这一话题展开讨论，并重点关注其中关键性数据工程方面的挑战和解决方案。

腾讯云大数据

2021-01-12

1.1K0

基于Alluxio优化大数据计算存储分离架构的最佳实践

大数据 mapreduce 弹性 MapReduce

近年来，随着大数据规模的增长，以及大数据应用的发展，大数据技术的架构也在持续演进。早期的技术架构是计算资源和存储资源高度融合，计算和存储资源一体化存在以下明显的挑战：

腾讯云大数据

2021-01-08

1.7K0

秒级去重：ClickHouse在腾讯海量游戏营销活动分析中的应用

大数据 mapreduce 弹性 MapReduce

导语 | 腾讯内部每日都需要对海量的游戏营销活动数据做效果分析，而活动参与人数的去重一直是一项难点。本文将为大家介绍腾讯游戏营销活动分析系统——奕星，在去重服务上的技术思路和迭代方案，希望与大家一同交流探讨。

腾讯云大数据

2021-01-08

1.7K0

关注专栏作者，随时接收最新技术干货

腾讯高级开发工程师

腾讯高级工程师

存算分离下写性能提升10倍以上，EMR Spark引擎是如何做到的？

大数据 mapreduce 弹性 MapReduce

随着大数据技术架构的演进，存储与计算分离的架构能更好的满足用户对降低数据存储成本，按需调度计算资源的诉求，正在成为越来越多人的选择。相较 HDFS，数据存储在对象存储上可以节约存储成本，但与此同时，对象存储对海量文件的写性能也会差很多。

腾讯云大数据

2021-01-08

1.7K1

重磅来袭：腾讯云ClickHouse支持数据均衡服务

大数据云数据仓库 ClickHouse mapreduce

ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。它于2016年以apache 2.0协议开源，以优秀的查询性能，深受广大大数据工程师欢迎。为了服务客户业务，腾讯云于2020年4月正式上线ClickHouse服务。

腾讯云大数据

2021-01-07

1.1K0

Clickhouse在大数据分析平台-留存分析上的应用

大数据云数据仓库 ClickHouse

你可能听说过Growingio、神策等数据分析平台，所在部门也在构建自己的大数据分析平台MVP（地址：http://mvp.wsd.com），本文主要介绍实现留存分析工具相关的内容。

腾讯云大数据

2021-01-07

2.1K0

节约60%成本！虎牙直播云端大数据是怎么做到的？

大数据 mapreduce

虎牙是中国第一家上市的游戏直播公司，旗下产品包括知名游戏直播平台虎牙直播、风靡东南亚和南美的游戏直播平台NimoTV等，产品覆盖PC、Web、移动三端。其中，游戏直播平台虎牙直播月活达1.5亿。

腾讯云大数据

2021-01-07

1.4K0

QQ音乐PB级ClickHouse实时数据平台架构演进之路

QQ音乐是腾讯音乐旗下一款领先的音乐流媒体产品，平台打造了“听、看、玩”的立体泛音乐娱乐生态圈，为累计注册数在8亿以上的用户提供多元化音乐生活体验，畅享平台上超过3000万首歌曲的海量曲库。优质服务的背后，是每天万亿级新增音乐内容和行为数据，PB数据量级的数据计算服务。

腾讯云大数据

2021-01-07

2.5K0

看云上 ClickHouse 如何做计算存储分离

12月6日-7日，由InfoQ 中国主办的综合性技术盛会QCon全球软件开发大会深圳站召开。QCon 内容源于实践并面向社区，演讲嘉宾依据热点话题，面向资深的技术团队负责人、架构师、工程总监、开发人员分享技术创新和实践。

腾讯云大数据

2021-01-05

2.6K0

node.js 大数据 hadoop ide

NameNode 保存了整个 HDFS 的元数据信息，一旦 NameNode 挂掉，整个 HDFS 就无法访问。为了提高HDFS的高可用性，在 Hadoop2.0 中，HDFS NameNode支持了高可用架构，如下图。

2019-03-18

12.6K0

EMR常见FAQ (持续更新中)

大数据大数据解决方案

1. 去到不健康节点的机器，用du命令去查看/data目录数据大小的分布情况，找出占比最大的目录

2018-09-17

1.5K0

多EMR-Presto集群共享EMR-Hive集群配置方案

xml hadoop hive 大数据

EMR的某些客户的数据仓库使用EMR-Hive存储，presto连接hive快速ad-hoc查询，但是有些场景下不同的业务部门有各自不同的使用presto查询需求，多EMR-Presto集群共享EMR-Hive集群配置方案可以满足这种需求。

2018-09-17

1.5K0

分布式sql引擎原理分析-逻辑执行计划生成

sql 分布式大数据

本文档以当前流行的分布式大数据查询引擎Presto为切入点，分析一个query语句怎么生成为一个分段的逻辑计划。

2018-08-26

6.7K2

基于 Flume 和 EMR 构建低成本大数据应用

大数据处理套件 TBDS hadoop 大数据

Flume 是一个分布式的日志收集系统，它可以将应用服务器产生的日志、消息中间件 (比如 kafka) 的消息等其他数据串联起来发送到指定的存储以供数据分析使用。EMR 是腾讯云提供的托管 Hadoop 服务，相比自建 hadoop 集群 EMR 提供了完善的集群管理、服务监控、安全管理、以及存储分离等特性，区别于自建 EMR 在计算存储分离方便做了大量优化工作以降低在使用 Hadoop 相关服务时候的成本，本文核心介绍如何使用 Flume、EMR、对象存储

2018-08-20

4.5K5

EMR上Zeppelin入门

简而言之，就是一个大数据分析平台。用户可以利用提供好的WEB UI，在线编写分析逻辑代码，输出结果，并且能够利用可视化工具，形象生动的在线展示结果。

2018-08-12

1.5K0

ResourceManager中的Resource Estimator框架介绍与算法剖析

编程算法 hadoop 大数据

本文首先介绍了Hadoop中的ResourceManager中的estimator service的框架与运行流程，然后对其中用到的资源估算算法进行了原理剖析。

2018-08-12

3.5K7

简单了解公平调度器的一些队列设置

在腾讯云EMR的用户日常反馈中，经常会遇到因为YARN的队列配置不合理导致资源利用率不高，任务提交不上的问题，所以有了以下的文章，方便用户在日常按照一定的需求将队列资源和优先级进行划分

2018-08-10

1.2K0

浅谈Hadoop Distcp工具的InputFormat

大数据 hadoop

从Hadoop的出现到现在已经超过十年了，它在大数据领域扮演着一个重要的角色，相信在Hadoop的使用过程中，或多或少的都会用到自带的一个常用工具，就是Hadoop的distcp工具，这篇文章就是简单的方式去了解他的拷贝策略原理。

2018-08-10

2.2K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态