首页
学习
活动
专区
工具
TVP
发布

#spark

Apache Spark是一个开源集群运算框架,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。

最大化 Spark 性能:最小化 Shuffle 开销

大数据杂货铺

Apache Spark 通过将数据分布在多个节点并在每个节点上单独计算值来处理查询。然而有时节点需要交换数据。毕竟这就是 Spark 的目的——处理单台机器无...

7220

Apache Flink vs Apache Spark:数据处理的详细比较

大数据杂货铺

深入比较 Apache Flink和 Apache Spark,探索它们在数据处理方面的差异和优势,以帮助您确定最适合的数据处理框架。

6010

Hive/Spark/Flink增量查询Hudi最佳实践一网打尽

王知无-import_bigdata

它是先通过spark.read中添加增量参数的形式读Hudi表为DF,然后将DF注册成临时表,最后通过Spark SQL查询临时表的形式,实现增量查询的

11920

​PySpark 读写 Parquet 文件到 DataFrame

数据STUDIO

Pyspark SQL 支持读取和写入 Parquet 文件,自动捕获原始数据的模式,它还平均减少了 75% 的数据存储。Pyspark 默认在其库中支持 Pa...

10430

CDC一键入湖:当 Apache Hudi DeltaStreamer 遇见 Serverless Spark

ApacheHudi

创建好Application就可以提交作业了,Apache Hudi DeltaStreamer CDC是一个较为复杂的作业,配置项非常多,这一点从Hudi官方...

9130

PySpark 读写 JSON 文件到 DataFrame

数据STUDIO

PySpark SQL 还提供了一种读取 JSON 文件的方法,方法是使用 spark.sqlContext.sql(“将 JSON 加载到临时视图”) 直接从...

6120

图解Spark Graphx基于connectedComponents函数实现连通图底层原理

朱季谦

左边是一个连接图,该子图里每个顶点都存在路径相连,包括了顶点:{(5L, "Eve"), (7L, "Grace"), (1L, "Alice"), (2L, ...

8750

Spark-Core核心算子

ha_lydms

接收一个返回值为布尔类型的函数作为参数。当某个RDD调用filter方法时,会对该RDD中每一个元素应用f函数,如果返回值类型为true,则该元素会被添加到新的...

6130

优化 Apache Spark 性能:消除 shuffle 以实现高效数据处理

大数据杂货铺

Apache Spark 以其分布式计算能力彻底改变了大数据处理。然而,Spark 的性能可能会受到称为“shuffle”的常见挑战的影响。在本文中,我们将探讨...

7030

[开源] Web 框架Blazor Spark

科控自动化

快速构建生产就绪的全栈 Web 应用程序,无需费力。Spark的开源Web框架很容易上手:too

6630

图解Spark Graphx实现顶点关联邻接顶点的collectNeighbors函数原理

朱季谦

在一张社区网络里,可能需要查询出各个顶点邻接关联的顶点集合,类似查询某个人关系比较近的都有哪些人的场景。

261111

docker搭建spark集群

千羽

有个小技巧:先配置好一个,在(宿主机上)复制scp -r拷贝Spark到其他Slaves。

6810

Spark 启动时,报JAVA_HOME is not set

ha_lydms

6540

Spark之逻辑处理流程(二)

千万别过来

腾讯 · 算法工程师 (已认证)

本文参考许利杰老师的《大数据处理框架Apache Spark设计与实现》,在这里记录一下相关的笔记,补充了一些个人理解,如有不对还请指正。参考链接:https:...

293150

Spark RDD惰性计算的自主优化

朱季谦

RDD(弹性分布式数据集)中的数据就如final定义一般,只可读而无法修改,若要对RDD进行转换或操作,那就需要创建一个新的RDD来保存结果。故而就需要用到转换...

23710

进击大数据系列(八)Hadoop 通用计算引擎 Spark

民工哥

Spark 是一种通用的大数据计算框架,是基于RDD(弹性分布式数据集)的一种计算模型。那到底是什么呢?可能很多人还不是太理解,通俗讲就是可以分布式处理大量集数...

6320

基于Docker搭建大数据集群(四)Spark部署

程序员朱永胜

docker cp spark-2.4.4-bin-hadoop2.7.tar.gz cluster-master:/root/tar

9230

spark structure streaming初探

滕百川

Real-Time End-to-End Integration with Apache Kafka in Apache Spark’s Structured ...

9530

Hudi数据湖技术引领大数据新风口(三)解决spark模块依赖冲突

Maynor

修改了Hive版本为3.1.2,其携带的jetty是0.9.3,hudi本身用的0.9.4,存在依赖冲突。

6130

Hive SQL 常用零碎知识

千万别过来

腾讯 · 算法工程师 (已认证)

比如event_value是一个json格式的字段,然后想获取里面的id作为单独一列

24960
领券