腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

个人分享

专栏作者

238

文章

255643

阅读量

42

订阅数

Spark Shuffle数据处理过程与部分调优（源码阅读七）

mapreduce 缓存 hadoop spark

　　shuffle。。。相当重要，为什么咩，因为shuffle的性能优劣直接决定了整个计算引擎的性能和吞吐量。相比于Hadoop的MapReduce,可以看到Spark提供多种计算结果处理方式，对shuffle过程进行了优化。

2018-09-06

7370

大数据生涯感悟

大数据 hadoop mapreduce spark hbase

　　不知不觉，毕业一年半了，从实习开始接触大数据技术。那时懵懂的我，不对，应该说懵逼的我在想，卧槽，这是啥这么牛逼，我都不会啊。。。啥都不会完蛋了。。即便现在也是这样认为= =

2018-09-06

7150

MapReduce、Hbase接口API实践

mapreduce hbase api 云数据库 Redis

读取hdfs中文件并做处理，取出卡号，通过卡号连接hbase查询出对应客户号，写入redis,因为不用输出，所以不调用context.write方法，整个操作在一个map中便可完成

2018-09-06

3610

Hadoop数据读写原理

node.js hadoop 存储编程算法 mapreduce

　　MapReduce作业(job)是客户端执行的单位：它包括输入数据、MapReduce程序和配置信息。Hadoop把输入数据划分成等长的小数据发送到MapReduce，称之为输入分片。Hadoop为每个分片创建一个map任务，由它来运行用户自定义的map函数来分析每个分片中的记录。

2018-09-06

2.3K0

MapReduce格式与类型

mapreduce 数据处理 java api

　　MapReduce是一个简单的数据处理模型，map与reduce的输入和输出类型都为key-value形式的键值对。

2018-09-06

5980

Spark shuffle详细过程

spark mapreduce 编程算法

有许多场景下，我们需要进行跨服务器的数据整合，比如两个表之间，通过Id进行join操作，你必须确保所有具有相同id的数据整合到相同的块文件中。那么我们先说一下mapreduce的shuffle过程。

2018-09-06

2K0

海量数据处理技术学习

数据处理 mapreduce 分布式大数据

　　外排序：因为海量数据无法全部装入内存，所以数据的大部分存入磁盘中，小部分在排序需要时存入内存。

2018-09-06

5800

MapReduce编程job概念原理

mapreduce hadoop

　　在Hadoop中，每个MapReduce任务都被初始化为一个job,每个job又可分为两个阶段:map阶段和reduce阶段。这两个阶段分别用两个函数来表示。Map函数接收一个<key,value>形式的输入，然后同样产生一个<ey,value>形式的中间输出，Hadoop会负责将所有具有相同中间key值的value集合在一起传递给reduce函数，reduce函数接收一个如<key,(list of values)>形式的输入，然后对这个value集合进行处理，每个reduce产生0或1个输出，reduce的输出也是<key,value>形式。

2018-09-06

5240

Hadoop MapReduce编程学习

hadoop mapreduce spark

一直在搞spark，也没时间弄hadoop，不过Hadoop基本的编程我觉得我还是要会吧，看到一篇不错的文章,不过应该应用于hadoop2.0以前，因为代码中有 conf.set("mapred.job.tracker", "192.168.1.2:9001");新框架中已改为 Yarn-site.xml 中的 resouceManager 及 nodeManager 具体配置项，新框架中历史 job 的查询已从 Job tracker 剥离，归入单独的mapreduce.jobtracker.jobhistory 相关配置. mapred.job.tracker的主要用途在于合并map之后的中间文件，就如同spark的repatition函数吧，为了防止接下来shuffle所造成的RDD过多，合并下~

2018-09-06

6290

TDSQL MySQL 版 hbase 分布式 hadoop mapreduce

Hbase是运行在Hadoop上的NoSQL数据库，它是一个分布式的和可扩展的大数据仓库，也就是说HBase能够利用HDFS的分布式处理模式，并从Hadoop的MapReduce程序模型中获益。这意味着在一组商业硬件上存储许多具有数十亿行和上百万列的大表。除去Hadoop的优势，HBase本身就是十分强大的数据库，它能够融合key/value存储模式带来实时查询的能力，以及通过MapReduce进行离线处理或者批处理的能力。总的来说，Hbase能够让你在大量的数据中查询记录，也可以从中获得综合分析报告。

2018-09-06

5370

Hadoop系统架构

hadoop yarn node.js mapreduce rpc

步骤1　用户向YARN 中提交应用程序，其中包括ApplicationMaster 程序、启动ApplicationMaster 的命令、用户程序等。

2018-09-06

1.9K0

SparkSQL的解析详解

spark sql hive mapreduce

　　SparkSQL继承自Hive的接口，由于hive是基于MapReduce进行计算的，在计算过程中大量的中间数据要落地于磁盘，从而消耗了大量的I/O，降低了运行的效率，从而基于内存运算的SparkSQL应运而生。

2018-09-06

7590

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态