首页
学习
活动
专区
圈层
工具
发布

#spark

Apache Spark是一个开源集群运算框架,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。

HBase高级特性与生态整合:深度解析BulkLoad、Spark SQL及数据优化策略

用户6320865

在大数据技术快速演进的今天,HBase作为Apache Hadoop生态中的分布式列式数据库,凭借其出色的可扩展性和高吞吐量,已成为海量数据存储与实时查询场景的...

7210

NVIDIA DGX Spark vs Jetson Thor:AI 计算王者之争,谁更适合你的需求?

GPUS Lady

在人工智能技术日新月异的当下,AI计算平台已成为推动行业创新与突破的核心驱动力。从生成式AI的蓬勃发展到物理AI与机器人技术的深度融合,高性能、低功耗且灵活易用...

51910

用 Spark 优化亿级用户画像计算:Delta Lake 增量更新策略详解

大熊计算机

腾讯云TVP | 成员 (已认证)

在亿级用户规模的系统中,用户画像计算面临三大核心挑战:数据体量巨大(PB级)、更新频率高(每日千万级更新)、查询延迟敏感(亚秒级响应)。传统全量计算模式在每日E...

10600

大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)

大熊计算机

腾讯云TVP | 成员 (已认证)

(1)维度灾难的本质与数学证明 当特征维度§增长时,样本空间体积呈指数级膨胀。在d维空间中,超立方体的体积是

10910

SparkStreaming 广播变量 + 懒加载:搞定 KafkaProducer 不可序列化问题

叫我阿柒啊

腾讯云TDP | 产品KOL (已认证)

在最早接触大数据开发的实时流处理开发的时候,是使用的 SparkStreaming,那时候还不知道有flink,所以 SparkStreaming 就是碾压 S...

15810

spark 操作 hive

码农GT038527

参考该文章:https://cloud.tencent.com/developer/article/2443534

12910

Spark中的性能优化有哪些方法?请举例说明。

GeekLiHua

在Spark中,有许多方法可以进行性能优化,以提高作业的执行效率和减少运行时间。下面是一些常用的性能优化方法,并结合具体案例进行说明。

13510

Spark写入ES报错403|Forbidden问题处理

岳涛

腾讯云 | 大数据SRE研发工程师 (已认证)

本文描述问题及解决方法同样适用于 腾讯云 Elasticsearch Service(ES)。

13110

大数据Spark(五十八):Spark Pi介绍

Lansonli

Spark Pi是Apache Spark官方提供的一个示例程序,该案例使用 Spark 进行分布式计算,通过蒙特卡罗方法估算圆周率(π)的值,其估算π原理如下...

14610

大数据Spark(五十七):Spark运行架构与MapReduce区别

Lansonli

Apache Spark 和 Hadoop MapReduce 都是用于大规模数据处理的分布式计算框架,但它们在架构设计、数据处理方式和应用场景等方面存在显著差...

19710

大数据Spark(五十六):Spark生态模块与运行模式

Lansonli

Spark 生态模块包括:SparkCore、SparkSQL、SparkStreaming、StructuredStreaming、MLlib 和 Graph...

26710

大数据Spark(五十五):Spark框架及特点

Lansonli

Apache Spark 是一个专为大规模数据处理而设计的快速、通用的计算引擎。最初由加州大学伯克利分校的 AMP 实验室(Algorithms, Machin...

30410

Spark实时(六):Output Sinks案例演示

Lansonli

当我们对流式数据处理完成之后,可以将数据写出到Flie、Kafka、console控制台、memory内存,或者直接使用foreach做个性化处理。关于将数据结...

13410

Spark实时(五):InputSource数据源案例演示

Lansonli

在Spark2.0版本之后,DataFrame和Dataset可以表示静态有边界的数据,也可以表示无边界的流式数据。在Structured Streaming中...

16210

Spark实时(四):Strctured Streaming简单应用

Lansonli

注意:以上代码执行时Spark中写出的表由Spark 参数”spark.sql.warehouse.dir”指定的路径临时维护数据,每次执行时,需要将该路径下的...

13310

Spark实时(三):Structured Streaming入门案例

Lansonli

我们使用Structured Streaming来监控socket数据统计WordCount。这里我们使用Spark版本为3.4.3版本,首先在Maven po...

15710

大数据知识总结(七):Spark重要知识汇总

Lansonli

RDD(Resilient Distributed Dataset)弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计...

39110

【赵渝强老师】Scala编程语言

赵渝强老师

Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机)之上,并兼容现有的Jav...

11710

Spark Drive 端的 List 无法获取 Executor 中的数据吗?

shengjk1

好久没有写 Spark 相关的代码了,结果写了一个如下类似的代码,在 drive 端 new 了一个 arrayList,然后再 Executor 端进行 ad...

17200

spark sql 生成 json

shengjk1

想通过 spark sql 查询 hive 表然后将相应的字段组装成 sql,类似于 json_object ,不过可惜的是 spark 3.1.x 并没有 j...

11800
领券