首页标签MapReduce

#MapReduce

Google 提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算

大数据技术之Hadoop3.x笔记

硅谷子

MBP · 大数据开发工程师 (已认证)

3.x core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml workers

6930

Hadoop入门 WordCount案例和Echarts

Emperor_LawD

8210

大数据开发:MapReduce排序和合并机制

成都加米谷大数据

MapReduce作为Hadoop的核心计算引擎,算是学习当中必学的一个部分。虽然发展至今,MapReduce计算框架已经很少直接使用了,但是作为分布式并行计算...

12610

MapReduce是什么?大数据开发的学习之路必须缺它不可吗?

成都加米谷大数据

今天我们开始学习新的篇章MapReduce 系列知识,所以本期带来的是大数据开发-MapReduce ,MapReduce作为一种编程模型,它是如何将自己的功能...

20020

Alluxio集群搭建并整合MapReduce/Hive/Spark

岳涛

腾讯云 · 大数据SRE工程师 (已认证)

Alluxio是世界上第一个虚拟的分布式存储系统,以内存速度统一了数据访问。它为计算框架和存储系统构建了桥梁,使应用程序能够通过一个公共接口连接到许多存储系统。...

360183

大数据开发:MapReduce排序问题详解

成都加米谷大数据

关于大数据开发,MapReduce排序的相关问题,以上就为大家做了详细的介绍了。MapReduce在运行过程中,排序是一个重要的操作,理解了排序对于MapRed...

37610

基于Alluxio优化大数据计算存储分离架构的最佳实践

腾讯云大数据

近年来,随着大数据规模的增长,以及大数据应用的发展,大数据技术的架构也在持续演进。早期的技术架构是计算资源和存储资源高度融合,计算和存储资源一体化存在以下明显的...

55150

秒级去重:ClickHouse在腾讯海量游戏营销活动分析中的应用

腾讯云大数据

导语 | 腾讯内部每日都需要对海量的游戏营销活动数据做效果分析,而活动参与人数的去重一直是一项难点。本文将为大家介绍腾讯游戏营销活动分析系统——奕星,在去重服务...

63840

存算分离下写性能提升10倍以上,EMR Spark引擎是如何做到的?

腾讯云大数据

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎,可用来构建大型的、低延迟的数据分析应用程序。Spark 是 UC Berkeley A...

24640

重磅来袭:腾讯云ClickHouse支持数据均衡服务

腾讯云大数据

ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。它于2016年以apache 2.0协议开源,以优秀的查询性能,深受广大大数...

19120

节约60%成本!虎牙直播云端大数据是怎么做到的?

腾讯云大数据

首先利用虎牙IDC环境与腾讯云的专线,将温冷数据导入到腾讯云COS中(优先导入了本次分析用到的2019年数据);然后通过腾讯云弹性MapReduce(EMR)产...

32430

大数据开发:MapReduce任务流程

成都加米谷大数据

关于大数据开发,MapReduce任务流程,以上就为大家做了简单的介绍了。MapReduce在Hadoop生态当中,是重要的数据处理指导思想,理解了MapRed...

15610

大数据入门:Hadoop Yarn组件基础解析

成都加米谷大数据

在Hadoop框架当中,Yarn组件是在Hadoop2.0之后的版本开始引入,主要是为了解决资源管理和调度的相关问题,是在大数据平台的实际运用当中,根据实际需求...

15620

大数据入门:MapReduce基本原理

成都加米谷大数据

在围绕Hadoop形成的大数据技术生态当中,MapReduce的地位,在早期是处于核心地位的,但是伴随着数据处理实时性需求的不断提升,更多新的计算框架出现,Ma...

18920

一次误格式化引发的hdfs集群不可用

pwpeng

腾讯 · 业务运维 (已认证)

我们知道hadoop集群搭建之后,并不能马上启动集群进行使用,需要对namenode做格式化。具体执行的命令:hadoop namenode -format。n...

39180

大数据进阶之Spark运行流程

成都加米谷大数据

在大数据的诸多技术框架当中,Spark发展至今,已经得到了广泛的认可。Hadoop与Spark可以说是企业级数据平台的主流选择,基于不同的应用场景,来搭建符合需...

13920

HDFS集群缩容案例: Decommission DataNode

pwpeng

腾讯 · 业务运维 (已认证)

在HDFS集群运维过程中,常会碰到因为实际业务增长低于集群创建时的预估规模;集群数据迁出,数据节点冗余较多;费用控制等原因,需要对集群进行缩容操作。Decomm...

1.3K80

Hadoop核心学习之MapReduce编程入门

成都加米谷大数据

在IT技术领域,大数据是热点,大数据技术也是热点,以Hadoop为例,作为主流的第一代大数据技术框架,可以说是入门必学。而学习Hadoop,通常从核心框架HDF...

13030

【赵强老师】在MongoDB中使用MapReduce方式计算聚合

赵强老师

京东大学 · 大数据学院院长 (已认证)

MapReduce 能够计算非常复杂的聚合逻辑,非常灵活,但是,MapReduce非常慢,不应该用于实时的数据分析中。MapReduce能够在多台Server上...

16830

重要 | Spark和MapReduce的对比以及选型

大数据学习与分享

【前言:笔者将分两篇文章进行阐述Spark和MapReduce的对比,首篇侧重于"宏观"上的对比,更多的是笔者总结的针对"相对于MapReduce我们为什么选择...

21040

扫码关注云+社区

领取腾讯云代金券