首页
学习
活动
专区
圈层
工具
发布

#spark

Apache Spark是一个开源集群运算框架,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。

Spark-Prover-X1-7B开源大模型:高效逻辑推理与验证的技术突破

安全风信子

一句话承诺:全面解析Spark-Prover-X1-7B的自动定理证明技术、三阶段训练策略与应用场景,附代码示例与对比图表,帮你快速掌握形式化推理的核心能力。

8310

【解密Jetson Thor系列3】你的边缘AI项目该用哪款?AGX Thor、DGX Spark 适用场景大揭秘

GPUS Lady

本文整理自NVIDIA线上研讨会《Accelerate Robotics and Real-Time AI Inference on NVIDIA Jetson...

9810

【DGX Spark新手避坑指南】——从SSID消失到内存爆满,高频问题解决方案全解析!

GPUS Lady

确认DGX Spark已通电: • DGX Spark创始人版无指示灯显示 • 检测设备是否开启:使用《快速入门指南》中的主机名(ping spark-xxxx...

15210

NVIDIA官方声明解读:DGX Spark功耗细节全公开,240W总功率如何分配?

GPUS Lady

近日,NVIDIA官方针对旗下轻量化AI设备DGX Spark的功耗参数发布重要更新,明确整机峰值总功率为240W,并详细拆解了GPU/CPU核心(GB10 S...

9810

基于 Spark + Delta Lake 的数据中台搭建实践总结

薛定喵君

本文取材于几个月前博主开发的真实项目,总结了基于 Apache Spark、Delta Lake、Kafka 等技术栈构建企业级数据中台的完整实践过程,涵盖架构...

1500

Spark SQL(五):基本概念-物理属性&Shuffle

Yiwenwu

腾讯 | 后台开发工程师 (已认证)

是一个核心抽象,用于描述数据在分布式环境中的物理分布方式,确保数据在分布式处理中的高效性和正确性。它的主要作用包括:

12510

Spark SQL(四):基本概念-Join连接

Yiwenwu

腾讯 | 后台开发工程师 (已认证)

14310

Spark SQL(三):基本概念-查询重写

Yiwenwu

腾讯 | 后台开发工程师 (已认证)

查询重写(query rewrite):按照一系列关系代数表达式的等价规则,对查询的关系代数表达式进行等价转换,从而提高查询执行效率。逻辑优化的本质:基于查询重...

10110

Spark SQL(二):基本概念-关系代数

Yiwenwu

腾讯 | 后台开发工程师 (已认证)

关系代数:描述关系数据库操作的集合,其运算对象和结果都是关系(表)。Edgar F. Codd 在1970 提出的原始关系运算包括:选择(Select)、投影(...

13610

Spark SQL(一):基本流程

Yiwenwu

腾讯 | 后台开发工程师 (已认证)

Spark SQL在Spark项目定位如下,基于Spark Core提供结构化和半结构化数据的SQL处理能力[1]。 Spark SQL优化器实现框架称为

13410

SparkDesk× 腾讯云实战指南:国产大模型从 API 集成到场景落地

AI大模型API

SparkDesk(讯飞星火认知大模型)作为国产 AI 标杆,以 "1+N" 架构构建核心能力体系:

16310

Spark中DataFrame写入Hive表时的Schema不匹配问题排查与解决

用魔法才能打败魔法

Spark中DataFrame写入Hive表时的Schema不匹配问题排查与解决

21010

HBase高级特性与生态整合:深度解析BulkLoad、Spark SQL及数据优化策略

用户6320865

在大数据技术快速演进的今天,HBase作为Apache Hadoop生态中的分布式列式数据库,凭借其出色的可扩展性和高吞吐量,已成为海量数据存储与实时查询场景的...

28710

NVIDIA DGX Spark vs Jetson Thor:AI 计算王者之争,谁更适合你的需求?

GPUS Lady

在人工智能技术日新月异的当下,AI计算平台已成为推动行业创新与突破的核心驱动力。从生成式AI的蓬勃发展到物理AI与机器人技术的深度融合,高性能、低功耗且灵活易用...

1.1K10

用 Spark 优化亿级用户画像计算:Delta Lake 增量更新策略详解

大熊计算机

腾讯云TVP | 成员 (已认证)

在亿级用户规模的系统中,用户画像计算面临三大核心挑战:数据体量巨大(PB级)、更新频率高(每日千万级更新)、查询延迟敏感(亚秒级响应)。传统全量计算模式在每日E...

16100

大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)

大熊计算机

腾讯云TVP | 成员 (已认证)

(1)维度灾难的本质与数学证明 当特征维度§增长时,样本空间体积呈指数级膨胀。在d维空间中,超立方体的体积是

17710

SparkStreaming 广播变量 + 懒加载:搞定 KafkaProducer 不可序列化问题

叫我阿柒啊

腾讯云TDP | 产品KOL (已认证)

在最早接触大数据开发的实时流处理开发的时候,是使用的 SparkStreaming,那时候还不知道有flink,所以 SparkStreaming 就是碾压 S...

18110

spark 操作 hive

码农GT038527

参考该文章:https://cloud.tencent.com/developer/article/2443534

18310

Spark中的性能优化有哪些方法?请举例说明。

GeekLiHua

在Spark中,有许多方法可以进行性能优化,以提高作业的执行效率和减少运行时间。下面是一些常用的性能优化方法,并结合具体案例进行说明。

19910
领券