#spark

Apache Spark是一个开源集群运算框架,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。

Spark 性能常规性能调优广播大变量

美食江湖

默认情况下,task中的算子中如果使用了外部的变量,每个task都会获取一份变量的复本,这就造成了内存的极大消耗。一方面,如果后续对RDD进行持久化,可能就无法...

7210

Spark主备切换机制原理

美食江湖

Master实际上可以配置两个,那么在spark原生的standalone上也是支持Master主备切换的,也就是说,当Active Master节点挂掉之后,...

8320

PySpark UD(A)F 的高效使用

flavorfan

腾讯 · 研究员 (已认证)

Spark无疑是当今数据科学和大数据领域最流行的技术之一。尽管它是用Scala开发的,并在Java虚拟机(JVM)中运行,但它附带了Python绑定,也称为Py...

11230

大数据技术之Hadoop3.x笔记

硅谷子

MBP · 大数据开发工程师 (已认证)

3.x core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml workers

7230

分布式计算引擎 Flink/Spark on k8s 的实现对比以及实践

legendtkl

以 Flink 和 Spark 为代表的分布式流批计算框架的下层资源管理平台逐渐从 Hadoop 生态的 YARN 转向 Kubernetes 生态的 k8s ...

20350

大数据开发:Spark SQL数据处理模块

成都加米谷大数据

Spark SQL作为Spark当中的结构化数据处理模块,在数据价值挖掘的环节上,备受重用。自Spark SQL出现之后,坊间甚至时有传言,Spark SQL将...

10420

大数据开发:Spark MLlib组件学习入门

成都加米谷大数据

在Spark生态圈当中,MLlib组件,作为机器学习库而存在,在大数据分析、数据挖掘等数据处理操作上,提供重要的支持。学习Spark,对于MLlib组件的学习,...

8540

大数据开发:Spark Structured Streaming特性

成都加米谷大数据

在Spark框架当中,早期的设计由Spark Streaming来负责实现流计算,但是随着现实需求的发展变化,Spark streaming的局限也显露了出来,...

7210

大数据开发:Spark运行原理

成都加米谷大数据

在大数据的诸多技术框架当中,Spark发展至今,已经得到了广泛的认可。Hadoop与Spark可以说是大部分企业级数据平台的主流选择,基于不同的应用场景,结合实...

7920

大数据开发:Spark核心概念RDD入门

成都加米谷大数据

Spark在大数据处理上的优势,很大一部分来自数据处理速度的提升,这使得Spark在面对大规模实时计算的数据任务时,能够更快地完成大批量数据的处理,提升大数据处...

11410

Flink会取代Spark吗?谈谈大数据框架之间的竞争

成都加米谷大数据

在大数据计算领域,先后出现了Hadoop、Spark、Storm、Flink等多个计算框架,并且每每当一个新兴计算引擎出现,大家就忍不住拿来与早期的计算引擎进行...

17830

大数据开发:Spark数据处理核心架构

成都加米谷大数据

作为大数据领域主流运用的大数据计算框架之一,Spark这几年的发展态势也越来越好了。一方面是由于Spark在不断地完善,更适用于现阶段的大数据处理;另一方面则是...

11510

大数据开发:Hadoop Hive和Spark的对比

成都加米谷大数据

在大数据处理框架不断更新和优化的过程中,Hadoop和Spark之间既有竞争关系,也有相互协同的需求。比方说Hive和Spark,在一段时间内,很多人认为Spa...

13120

Hadoop和spark:兼容才是可靠的解决方案

成都加米谷大数据

说起大数据计算框架,Hadoop和Spark这两者之间,一直都是存在着争议的,甚至一度还出现了Spark会替代Hadoop的声音,但是随着这两年的发展,事实告诉...

10110

大数据入门:Spark是否依赖Hadoop?

成都加米谷大数据

Spark正是在这样的背景下诞生的,Spark不像Hadoop采取磁盘读写,而是基于性能更高的内存存储进行数据存储和读写。而Spark本身作为平台也开发了str...

14720

基于K8S构建Zeppelin大数据可视化分析工具

house.zhang

大多数互联网企业都提供有类似Notebook类的产品,采用交互式的方式进行数据分析、数据建模及数据可视化。主要实现大多都是基于jupyter 、Zeppelin...

62160

我的程序员之路03:我和大数据

叫我阿柒啊

又是一年乍暖还寒,春天的风迎面而来,凉意中夹杂着些许温暖。哦,你知道,是春天来了。就像那年的实习期,在挥手告别的毕业季,定格在了那年的七月。

11520

SparkStreaming使用mapWithState时,设置timeout()无法生效问题解决方案

叫我阿柒啊

当我在测试SparkStreaming的状态操作mapWithState算子时,当我们设置timeout(3s)的时候,3s过后数据还是不会过期,不对此key进...

13820

Spark中普通集合与RDD算子的sortBy()有什么区别

孙晨c

==结论==:普通集合的sortBy就没有**false**参数,也就是说只能默认的升序排。如果需要对普通集合中的元素需要升序排怎么办?

13020

Alluxio集群搭建并整合MapReduce/Hive/Spark

岳涛

腾讯云 · 大数据SRE工程师 (已认证)

Alluxio是世界上第一个虚拟的分布式存储系统,以内存速度统一了数据访问。它为计算框架和存储系统构建了桥梁,使应用程序能够通过一个公共接口连接到许多存储系统。...

361183

扫码关注云+社区

领取腾讯云代金券