首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#spark

Apache Spark是一个开源集群运算框架,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。

spark 操作 hive

码农GT038527

参考该文章:https://cloud.tencent.com/developer/article/2443534

9910

Spark中的性能优化有哪些方法?请举例说明。

GeekLiHua

腾讯 | 业务安全工程师 (已认证)

在Spark中,有许多方法可以进行性能优化,以提高作业的执行效率和减少运行时间。下面是一些常用的性能优化方法,并结合具体案例进行说明。

8610

Spark写入ES报错403|Forbidden问题处理

岳涛

腾讯云 | 大数据SRE研发工程师 (已认证)

本文描述问题及解决方法同样适用于 腾讯云 Elasticsearch Service(ES)。

8110

大数据Spark(五十八):Spark Pi介绍

Lansonli

Spark Pi是Apache Spark官方提供的一个示例程序,该案例使用 Spark 进行分布式计算,通过蒙特卡罗方法估算圆周率(π)的值,其估算π原理如下...

7410

大数据Spark(五十七):Spark运行架构与MapReduce区别

Lansonli

Apache Spark 和 Hadoop MapReduce 都是用于大规模数据处理的分布式计算框架,但它们在架构设计、数据处理方式和应用场景等方面存在显著差...

13610

大数据Spark(五十六):Spark生态模块与运行模式

Lansonli

Spark 生态模块包括:SparkCore、SparkSQL、SparkStreaming、StructuredStreaming、MLlib 和 Graph...

21010

大数据Spark(五十五):Spark框架及特点

Lansonli

Apache Spark 是一个专为大规模数据处理而设计的快速、通用的计算引擎。最初由加州大学伯克利分校的 AMP 实验室(Algorithms, Machin...

23010

Spark实时(六):Output Sinks案例演示

Lansonli

当我们对流式数据处理完成之后,可以将数据写出到Flie、Kafka、console控制台、memory内存,或者直接使用foreach做个性化处理。关于将数据结...

8210

Spark实时(五):InputSource数据源案例演示

Lansonli

在Spark2.0版本之后,DataFrame和Dataset可以表示静态有边界的数据,也可以表示无边界的流式数据。在Structured Streaming中...

10010

Spark实时(四):Strctured Streaming简单应用

Lansonli

注意:以上代码执行时Spark中写出的表由Spark 参数”spark.sql.warehouse.dir”指定的路径临时维护数据,每次执行时,需要将该路径下的...

9110

Spark实时(三):Structured Streaming入门案例

Lansonli

我们使用Structured Streaming来监控socket数据统计WordCount。这里我们使用Spark版本为3.4.3版本,首先在Maven po...

11910

大数据知识总结(七):Spark重要知识汇总

Lansonli

RDD(Resilient Distributed Dataset)弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计...

31010

【赵渝强老师】Scala编程语言

赵渝强老师

Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机)之上,并兼容现有的Jav...

9710

Spark Drive 端的 List 无法获取 Executor 中的数据吗?

shengjk1

好久没有写 Spark 相关的代码了,结果写了一个如下类似的代码,在 drive 端 new 了一个 arrayList,然后再 Executor 端进行 ad...

7300

spark sql 生成 json

shengjk1

想通过 spark sql 查询 hive 表然后将相应的字段组装成 sql,类似于 json_object ,不过可惜的是 spark 3.1.x 并没有 j...

4800

解决spark streaming重复提交第三方jar包问题

shengjk1

对于spark streaming而言,第三方jar包是一个值得探讨的问题,相信大部分都是打的源码包,然后提交jar,想通过–jars $(echo spark...

3610

spark连接kafka工具类

shengjk1

4700

Spark Streaming 中使用 zookeeper 保存 offset 并重用 Java版

shengjk1

1.特别是对于SparkStreaming连接kafka仅仅checkpoints也会导致数据丢失,无法保证at only one。此处着重说明一下若是因为sp...

5000

从InfluxDB到StarRocks:Grab实现Spark监控平台10倍性能提升

StarRocks

Huong Vuong, Senior Software Engineer, Grab

14410

【PySpark大数据分析概述】02 Spark大数据技术框架

Francek Chen

PySpark作为Apache Spark的Python API,融合Python易用性与Spark分布式计算能力,专为大规模数据处理设计。支持批处理、流计算...

12500
领券