首页标签MapReduce

#MapReduce

Google 提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算

Hadoop、Spark、Kafka面试题及答案整理

Yajun_

reduceByKey:reduceByKey会在结果发送至reducer之前会对每个mapper在本地进行merge,有点类似于在MapReduce中的com...

2720

Spark Shuffle的技术演进

Yajun_

本文原文 http://www.leonlu.cc/profession/19-spark-shuffle ,作者 LeonLu

3330

JavaScript回调函数

奋飛

上海观安 · 前端负责人 (已认证)

JavaScript API里这样解释:A callback is a function that is passed as an argument to a...

5930

Scala基础——容器操作

羊羽shine

4720

Numpy 之ufunc运算

用户6021899

ufunc是universal function的缩写,它是一种能对数组的每个元素进行操作的函数。NumPy内置的许多ufunc函数都是在C语言级别实现的,因此...

8430

Hive 系列 之 开篇

kk大数据

如果是分析数据的 DQL (数据查询语句),Driver 就会将该语句提交给自己的编译器 Compiler 进行语法分析、语法解析、语法优化等一系列操作,最后生...

8050

5大典型模型测试单机训练速度超对标框架,飞桨如何做到?

AI科技大本营

为方便用户使用,飞桨提供一些不同粒度的Layer,其中有些Layer的组合可以通过单个Layer完成。比如:

7010

一文带你了解JavaScript函数式编程?

猿哥

函数式编程在前端已经成为了一个非常热门的话题。在最近几年里,我们看到非常多的应用程序代码库里大量使用着函数式编程思想。

7420

一文带你了解JavaScript函数式编程

Fundebug

函数式编程在前端已经成为了一个非常热门的话题。在最近几年里,我们看到非常多的应用程序代码库里大量使用着函数式编程思想。

7850

GraphX具体功能的代码使用实例-Scala实现

ZONGLYN

GraphX 为整个图计算流程提供了强大的支持,先前已经有若干篇文章先后介绍了GraphX的强大功能,在GraphX官方编程指南中,提供了部分简单易懂的示例代码...

9130

大数据学习(二)-------- MapReduce

实时计算

https://www.cnblogs.com/tree1123/p/10683570.html

5730

hive与hbase的联系与区别

ZONGLYN

6430

Hadoop 大量小文件问题的优化

smartsi

小文件是指文件大小明显小于 HDFS 上块(block)大小(默认64MB,在Hadoop2.x中默认为128MB)的文件。如果存储小文件,必定会有大量这样的小...

6030

JS中函数式编程基本原理简介

前端小智

在做了一些研究之后,我发现了函数式编程的概念,比如不变性和纯函数。这些概念使你能够构建无副作用的函数,因此更容易维护具有其他优点的系统。

8330

Spark2.3.0 RDD操作

smartsi

例如,map 是一个转换操作,传递给每个数据集元素一个函数并返回一个新 RDD 表示返回结果。另一方面,reduce 是一个动作操作,使用一些函数聚合 RDD ...

9020

Flink1.4 窗口函数

smartsi

在定义窗口分配器之后,我们需要在每个窗口上指定我们要执行的计算。这是窗口函数的责任,一旦系统确定窗口准备好处理数据,窗口函数就处理每个窗口中的元素。

8250

Flink 内部原理之作业与调度

smartsi

Flink中的执行资源是通过任务槽定义。每个TaskManager都有一个或多个任务槽,每个任务槽可以运行一个并行任务的流水线(pipeline)。流水线由多个...

8010

Hadoop中的Secondary Sort

smartsi

我们首先提出了一个查询问题,为了解决这个问题,需要在数据集的多个字段上进行排序。然后,我们将研究 MapReduce Shuff 阶段的工作原理,然后再实现我们...

6440

Hive 启用压缩

smartsi

提交后,一个复杂的 Hive 查询通常会转换为一系列多阶段 MapReduce 作业,这些作业将通过 Hive 引擎进行链接以完成整个查询。因此,这里的 ‘中间...

6920

Hive Count Distinct优化

smartsi

目前,Hive底层使用MapReduce作为实际计算框架,SQL的交互方式隐藏了大部分MapReduce的细节。这种细节的隐藏在带来便利性的同时,也对计算作业的...

8520

扫码关注云+社区

领取腾讯云代金券