首页
学习
活动
专区
圈层
工具
发布

#spark

Apache Spark是一个开源集群运算框架,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。

DGX Spark 实测评测:官方基准与实际应用的差距解析

GPUS Lady

近期后台收到很多开发者咨询 DGX Spark 的实际性能与开发体验。为了更真实、客观地回答大家,我们专门整理了一线开发者的实测笔记,从性能表现、上手难度、实际...

13210

NVIDIA DGX Spark 多节点集群搭建,这些坑千万别踩!

GPUS Lady

外网一位技术博主曾录制过一期趣味十足的技术视频,视频中他详细分享了自己从4台NVIDIA DGX Spark硬件入手,逐步扩展至8台、搭建大模型训练与推理集群的...

17710

NVIDIA DGX Spark全维度问答:性能优化/教育应用/双集群支持,你想问的都在这

GPUS Lady

A: NVIDIA 最近在 GitHub 上发布了详细的性能指南,可以在 build.nvidia.com/spark 页面找到链接。该指南提供了如何使用不同框...

8910

NVIDIA 发布 DGX Spark 性能基准测试指南,赋能多节点 AI 高效部署

GPUS Lady

英伟达(NVIDIA)今日正式发布 DGX Spark 性能基准测试指南(),该指南不仅适用于 NVIDIA 原生 DGX Spark 设备,更全面适配所有搭载...

11210

玩转 PySpark 自定义函数:UDF、UDAF、UDTF 全解析与实战

ETL 小当家

UDF 的核心逻辑是一行进、一个值出,本质上是对表中每一行的某个字段做一次独立的转换或计算,结果作为新的一列返回。你可以把它理解为对每一行数据套用同一个"加工模...

11610

Spark SQL练习1-电商用户行为分析

用户12062117

在数字化转型的浪潮中,全球领先的电商平台**商城每天承载着数亿级用户的访问与交易。面对海量的用户行为数据,如何从中挖掘商业价值、实现精准营销、提升用户生命周期价...

10710

PySpark入门教程(非常详细)从零基础入门到精通

用户12062117

注:本章节将重点阐述基于3.5.8版本的Spark Core,并采用Python语言进行代码实现。尽管在企业级应用中,Spark SQL得到了更为广泛的应用,老...

15310

Spark SQL Catalyst 优化器详解

ETL 小当家

宏观来看:Spark SQL 语句,经过一个优化器(Catalyst),转化为 RDD,交给集群执行。

11610

Spark SQL(七):AQE自适应查询执行(下)

Yiwenwu

腾讯 | 后台开发工程师 (已认证)

Spark Exchange算子有两类实现:ShuffleExchangeExec 大规模数据shuffle重分区分发,doExecute 生成Shuffled...

21110

告别 UNION ALL!GROUPING SETS 让你的 SQL 只扫描一次表

ETL 小当家

GROUPING SETS 是 SQL 中 GROUP BY 子句的扩展功能,它的核心作用是:在一次查询中同时执行多个不同维度的分组统计,最后将所有分组的结果合...

15210

一文搞懂物化视图:从原理到实战,查询性能提升 10 倍的秘密

ETL 小当家

物化视图是数据库中的一种特殊对象,它存储了查询结果的物理副本,与普通视图(只保存查询定义)不同。

11110

SQL视图实战指南:高效维护逻辑,告别重复代码

ETL 小当家

视图是从一个或多个表(或其他视图)导出的虚拟表。它本身不包含实际的数据,而是根据定义它的查询语句从相关的表中动态检索数据。可以将视图理解为一个存储起来的查询,查...

9010

谁在摧毁中国的企业软件产业?白嫖,开源,外包,招标,数科,AI...

肥仔鱼

中国的企业软件产业正处在一个“多重压力交汇”的关键十字路口。表面上看,是“白嫖文化”、开源冲击、外包盛行、招标机制扭曲、数科公司挤压、AI颠覆等外部力量在“摧毁...

15810

【赵渝强老师】基于Hudi的大数据湖仓一体架构

赵渝强老师

Apache Hudi(Hadoop Upserts Delete and Incremental)是下一代流数据湖平台。Apache Hudi将核心仓库和数据...

14210

Spark Mlib ALS 交替最小二乘算法(学习笔记)

用户10150864

ALS是交替最小二乘的简称(alternating least squares)的简称。在机器学习的上下文中,ALS特指使用交替最小二乘求解的一个协同推荐算法。...

11210

大数据处理:Pandas+Spark 高效分析海量数据

1xsss

在数字化时代,海量数据已成为企业和组织的核心资产——从用户行为分析到业务决策优化,从金融风控到智能制造,大数据分析的能力直接决定了数据价值的挖掘深度。然而,面对...

14710

【实验笔记】基于 NVIDIA DGX Spark 与 Reachy Mini 构建智能实体Agent

GPUS Lady

在 2026 年 CES 大会上,NVIDIA 发布了一系列开放模型(包括 Nemotron 推理 LLM、Isaac GR00T N1.6 开放推理 VLA、...

22410

谭蔚泓院士/吴芩研究员最新Science|SPARK-seq技术——适配体筛选进入高通量时代

DrugOne

细胞表面蛋白是多数临床可用药靶点,对细胞通讯、信号传导及稳态维持至关重要。但当前针对这类靶点的高亲和力适配体等分子探针生成方法存在明显局限,不仅通量低,还易破坏...

14910
领券