spark - 标签 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

首页标签spark

#spark

Apache Spark是一个开源集群运算框架，Spark使用了存储器内运算技术，能在数据尚未写入硬盘时即在存储器内分析运算。

SparkDesk× 腾讯云实战指南：国产大模型从 API 集成到场景落地

AI大模型API 18天前2025-10-01 11:30:03

SparkDesk（讯飞星火认知大模型）作为国产 AI 标杆，以 "1+N" 架构构建核心能力体系：

13010

Spark中DataFrame写入Hive表时的Schema不匹配问题排查与解决

用魔法才能打败魔法 2025-09-052025-09-05 09:50:35

Spark中DataFrame写入Hive表时的Schema不匹配问题排查与解决

18310

HBase高级特性与生态整合：深度解析BulkLoad、Spark SQL及数据优化策略

用户6320865 2025-08-272025-08-27 17:37:36

在大数据技术快速演进的今天，HBase作为Apache Hadoop生态中的分布式列式数据库，凭借其出色的可扩展性和高吞吐量，已成为海量数据存储与实时查询场景的...

23510

NVIDIA DGX Spark vs Jetson Thor：AI 计算王者之争，谁更适合你的需求？

GPUS Lady 2025-07-162025-07-16 16:05:40

在人工智能技术日新月异的当下，AI计算平台已成为推动行业创新与突破的核心驱动力。从生成式AI的蓬勃发展到物理AI与机器人技术的深度融合，高性能、低功耗且灵活易用...

87810

用 Spark 优化亿级用户画像计算：Delta Lake 增量更新策略详解

大熊计算机

腾讯云TVP ｜成员 (已认证)

2025-07-152025-07-15 12:33:36

在亿级用户规模的系统中，用户画像计算面临三大核心挑战：数据体量巨大（PB级）、更新频率高（每日千万级更新）、查询延迟敏感（亚秒级响应）。传统全量计算模式在每日E...

13700

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

大熊计算机

腾讯云TVP ｜成员 (已认证)

2025-07-152025-07-15 10:04:32

（1）维度灾难的本质与数学证明当特征维度§增长时，样本空间体积呈指数级膨胀。在d维空间中，超立方体的体积是

14510

SparkStreaming 广播变量 + 懒加载：搞定 KafkaProducer 不可序列化问题

叫我阿柒啊

腾讯云TDP ｜产品KOL (已认证)

2025-07-102025-07-10 17:12:13

在最早接触大数据开发的实时流处理开发的时候，是使用的 SparkStreaming，那时候还不知道有flink，所以 SparkStreaming 就是碾压 S...

17110

spark 操作 hive

码农GT038527 2025-06-062025-06-06 11:27:46

参考该文章：https://cloud.tencent.com/developer/article/2443534

15010

Spark中的性能优化有哪些方法？请举例说明。

GeekLiHua 2025-05-312025-05-31 15:04:05

在Spark中，有许多方法可以进行性能优化，以提高作业的执行效率和减少运行时间。下面是一些常用的性能优化方法，并结合具体案例进行说明。

16410

Spark写入ES报错403|Forbidden问题处理

岳涛

腾讯云｜大数据SRE研发工程师 (已认证)

2025-05-302025-05-30 16:45:37

本文描述问题及解决方法同样适用于腾讯云 Elasticsearch Service（ES）。

15210

大数据Spark（五十八）：Spark Pi介绍

Lansonli 2025-05-242025-05-24 09:56:44

Spark Pi是Apache Spark官方提供的一个示例程序，该案例使用 Spark 进行分布式计算，通过蒙特卡罗方法估算圆周率（π）的值，其估算π原理如下...

19610

大数据Spark（五十七）：Spark运行架构与MapReduce区别

Lansonli 2025-05-242025-05-24 09:56:17

Apache Spark 和 Hadoop MapReduce 都是用于大规模数据处理的分布式计算框架，但它们在架构设计、数据处理方式和应用场景等方面存在显著差...

24610

大数据Spark（五十六）：Spark生态模块与运行模式

Lansonli 2025-05-242025-05-24 09:55:47

Spark 生态模块包括：SparkCore、SparkSQL、SparkStreaming、StructuredStreaming、MLlib 和 Graph...

30410

大数据Spark（五十五）：Spark框架及特点

Lansonli 2025-05-242025-05-24 09:55:29

Apache Spark 是一个专为大规模数据处理而设计的快速、通用的计算引擎。最初由加州大学伯克利分校的 AMP 实验室（Algorithms, Machin...

37610

Spark实时（六）：Output Sinks案例演示

Lansonli 2025-05-242025-05-24 09:42:39

当我们对流式数据处理完成之后，可以将数据写出到Flie、Kafka、console控制台、memory内存，或者直接使用foreach做个性化处理。关于将数据结...

17210

Spark实时（五）：InputSource数据源案例演示

Lansonli 2025-05-242025-05-24 09:42:12

在Spark2.0版本之后，DataFrame和Dataset可以表示静态有边界的数据，也可以表示无边界的流式数据。在Structured Streaming中...

20110

Spark实时（四）：Strctured Streaming简单应用

Lansonli 2025-05-242025-05-24 09:41:41

注意：以上代码执行时Spark中写出的表由Spark 参数”spark.sql.warehouse.dir”指定的路径临时维护数据，每次执行时，需要将该路径下的...

16410

Spark实时（三）：Structured Streaming入门案例

Lansonli 2025-05-242025-05-24 09:41:19

我们使用Structured Streaming来监控socket数据统计WordCount。这里我们使用Spark版本为3.4.3版本，首先在Maven po...

18410

大数据知识总结（七）：Spark重要知识汇总

Lansonli 2025-05-242025-05-24 09:31:29

RDD（Resilient Distributed Dataset）弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变、可分区、里面的元素可并行计...

45810

【赵渝强老师】Scala编程语言

赵渝强老师 2025-05-212025-05-21 08:08:00

Scala是一种多范式的编程语言，其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台（Java虚拟机）之上，并兼容现有的Jav...

15110

#spark

SparkDesk× 腾讯云实战指南：国产大模型从 API 集成到场景落地

Spark中DataFrame写入Hive表时的Schema不匹配问题排查与解决

HBase高级特性与生态整合：深度解析BulkLoad、Spark SQL及数据优化策略

NVIDIA DGX Spark vs Jetson Thor：AI 计算王者之争，谁更适合你的需求？

用 Spark 优化亿级用户画像计算：Delta Lake 增量更新策略详解

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

SparkStreaming 广播变量 + 懒加载：搞定 KafkaProducer 不可序列化问题

spark 操作 hive

Spark中的性能优化有哪些方法？请举例说明。

Spark写入ES报错403|Forbidden问题处理

大数据Spark（五十八）：Spark Pi介绍

大数据Spark（五十七）：Spark运行架构与MapReduce区别

大数据Spark（五十六）：Spark生态模块与运行模式

大数据Spark（五十五）：Spark框架及特点

Spark实时（六）：Output Sinks案例演示

Spark实时（五）：InputSource数据源案例演示

Spark实时（四）：Strctured Streaming简单应用

Spark实时（三）：Structured Streaming入门案例

大数据知识总结（七）：Spark重要知识汇总

【赵渝强老师】Scala编程语言

热门专栏

腾讯云开发者社区头条

公有云大数据平台弹性 MapReduce

腾讯开源的专栏

阁主的小跟班的专栏

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐