#spark

Apache Spark是一个开源集群运算框架,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。

我的程序员之路03:我和大数据

叫我阿柒啊

又是一年乍暖还寒,春天的风迎面而来,凉意中夹杂着些许温暖。哦,你知道,是春天来了。就像那年的实习期,在挥手告别的毕业季,定格在了那年的七月。

8120

SparkStreaming使用mapWithState时,设置timeout()无法生效问题解决方案

叫我阿柒啊

当我在测试SparkStreaming的状态操作mapWithState算子时,当我们设置timeout(3s)的时候,3s过后数据还是不会过期,不对此key进...

9120

Spark中普通集合与RDD算子的sortBy()有什么区别

孙晨c

==结论==:普通集合的sortBy就没有**false**参数,也就是说只能默认的升序排。如果需要对普通集合中的元素需要升序排怎么办?

9620

Alluxio集群搭建并整合MapReduce/Hive/Spark

岳涛

腾讯云 · 大数据SRE工程师 (已认证)

Alluxio是世界上第一个虚拟的分布式存储系统,以内存速度统一了数据访问。它为计算框架和存储系统构建了桥梁,使应用程序能够通过一个公共接口连接到许多存储系统。...

215103

9张图告诉您 数据库的王者出现

杨漆

11220

与 Hadoop 对比,大厂技术栈们是如何看待 Spark 技术?

taskctl官方频道

首先看一下Hadoop解决了什么问题,Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。

11320

Spark的核心RDD,内存中集群计算的容错抽象

用户8241065

为了满足基于内存的分布式计算思想,需要定义一种分布式计算抽象,保证在分布式环境中能够正确、高效地完成任务。

11220

Spark底层原理详细解析(深度好文,建议收藏)

五分钟学大数据

Apache Spark是用于大规模数据处理的统一分析引擎,基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spa...

4700

大数据开发:Hive on Spark设计原则及架构

成都加米谷大数据

Hive的用户可以通过hive.execution.engine来设置计算引擎,该参数可选的值为mr和tez。为了实现Hive on Spark,我们将spar...

13620

Spark性能优化之道——解决Spark数据倾斜的N种姿势

taskctl官方频道

Spark3.0已经发布半年之久,这次大版本的升级主要是集中在性能优化和文档丰富上,其中46%的优化都集中在Spark SQL上,SQL优化里最引人注意的非Ad...

16640

【Spark Operator】webhook的NamespaceSelector和ObjectSelector

runzhliu

腾讯 · 后台开发工程师 (已认证)

之前走读 Spark Opeartor Webhook 部分的代码的时候发现,因为业务种类很多,我们需要在 webhook 层加很多参数和配置来控制用户的一些行...

16940

【云+社区年度征文】大数据常用技术梳理

时间静止不是简史

从上图我们可以看到, 从事大数据方向可以有很多具体方向的职位. 相较于Java开发, 选择面更加广泛

39893

大数据入门:Spark RDD、DataFrame、DataSet

成都加米谷大数据

在Spark的学习当中,RDD、DataFrame、DataSet可以说都是需要着重理解的专业名词概念。尤其是在涉及到数据结构的部分,理解清楚这三者的共性与区别...

10930

大数据入门:Spark持久化存储策略

成都加米谷大数据

持久化存储是Spark非常重要的一个特性,通过持久化存储,提升Spark应用性能,以更好地满足实际需求。而Spark的持久化存储,根据不同的需求现状,可以选择不...

10920

大数据入门:Java和Scala编程对比

成都加米谷大数据

在学习大数据之初,很多人都会对编程语言的学习有疑问,比如说大数据编程主要用什么语言,在实际运用当中,大数据主流编程是Java,但是涉及到Spark、Kafka框...

39130

Spark学习笔记

Debug的香蕉

7700

大数据入门:Spark RDD基础概念

成都加米谷大数据

在Spark框架的核心部分,SparkCore作为平台基础通用执行引擎,重要性自是不必多说。而在SparkCore当中,RDD作为SparkCore的核心抽象,...

11240

大数据入门:Spark Streaming实际应用

成都加米谷大数据

作为Spark负责流计算的核心组件,Spark Streaming是整个Spark学习流程当中非常重要的一块。对于Spark Streaming,作为Spark...

12630

大数据入门:Scala大数据黄金语言

成都加米谷大数据

在大数据的学习当中,关于编程语言选择的部分,是很多人在学习初期非常关注的。在企业大数据平台开发场景下,Java语言是主流选择,其次涉及到Spark部分,就不得不...

10820

Rainbond 5分钟部署 Spark Standalone 集群

曾庆国

Standalone 是 Spark 自身提供的一种主从集群部署模式。本文讲述一个常规1主多从的集群部署模式,该模式下master服务依靠Rainbond平台监...

16600

扫码关注云+社区

领取腾讯云代金券