首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#spark

Apache Spark是一个开源集群运算框架,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。

Spark面试题持续更新【2023-07-04】

火之高兴

综上所述,Spark是一个高性能、可扩展且易用的分布式计算框架,具有丰富的功能和灵活的编程接口,适用于大规模数据处理、实时流处理、机器学习和图计算等各种场景。它...

3910

【Spark数仓项目】需求二:DWD层会话分隔构建-高德地图API解析经纬度位置

火之高兴

由需求一清洗后的临时表中可得会话id和会话的时间戳,我们需要将单一设备的会话进一步细化分隔为新的会话。如上图查询结果所示。

4410

【Spark数仓项目】需求三:地图位置解析进一步优化

火之高兴

因为全部调用高德API会造成高并发的问题,超出高德的调用规范,这也解释了为什么前面需求二我们只查找毕导用户。因此,在不给高德充钱的前提下,我们采用维表+高德ap...

4210

【Spark数仓项目】需求四:Dolphinscheduler进行日志文件调度

火之高兴

首先正常关闭虚拟机,然后调高虚拟机配置参数,我的主机配置是AMD8核,16G,参考虚拟机配置如下:

4210

Spark算子官方文档整理收录大全持续更新【Update2023/6/24】

火之高兴

本文基于Spark 3.2.0 Scala的RDD API,内容来源主要由官方文档整理,文中所整理算子为常用收录,并不完全。在Spark RDD官方文档中按照转...

5010

【Spark数仓项目】需求一:项目用户数据生成-ODS层导入-DWD层初步构建

火之高兴

1.解决了23/06/26 09:14:23 WARN Client: Neither spark.yarn.jars nor spark.yarn.archi...

3710

【Spark数仓项目】需求五:用户活跃范围开发-拉链表

火之高兴

通过建立用户的活跃时间段表,可以将用户的活跃时间段信息预先计算和存储起来,减少从dwd层重复查询的次数。这样可以在统计用户活跃需求时,直接从活跃时间段表中获取数...

3810

【Spark数仓项目】需求六:构建设备会话维表

火之高兴

本需求继续针对dwd.event_log_detail表深度开发,完成对dws.mall_app_session_agr表(设备会话维表)的构建。 本次需求更...

4410

【Spark数仓项目】需求七:漏斗模型分析

火之高兴

create table dwd.tmp_event_log_detail( – dwd.event_log_detail deviceid string, ...

6210

【Spark数仓项目】需求八:MySQL的DataX全量导入和增量导入Hive

火之高兴

本需求将模拟从MySQL中向Hive数仓中导入数据,数据以时间分区。测试两种导入场景,一种是将数据全量导入,即包含所有时间分区;另一种是每天运行调度,仅导入当天...

2010

Spark中使用RDD算子GroupBy做词频统计的方法

火之高兴

测试文件在本地D://tmp/spark.txt,Spark采用Local模式运行,Spark版本3.2.0,Scala版本2.12,集成idea开发环境。

3010

使用ReduceByKey在Spark中进行词频统计

火之高兴

Spark采用Local模式运行,Spark版本3.2.0,Scala版本2.12,集成idea开发环境。

3310

Spark 为什么比 MapReduce 快100倍?

火之高兴

通常我们认为 Spark 引擎是基于内存进行计算,无论如何,速度都是比 MapReduce 快,因为 MapReduce 需要频繁 Shuffle 。在 ...

4310

Spark集群中一个Worker启动失败的排错记录

火之高兴

此时,需要和其他节点的配置做一个对比,因为这套集群的spark并不是我安装的,spark配置文件的分发我不能保证正确。

3910

大数据统一SQL网关:最新版Kyuubi整合Flink、Spark方案的实践案例总结

用户9421738

Kyuubi最新版本已经发布,本文主要介绍基于Kyuubi SQL网关整合多计算引擎Flink和Spark实践案例总结。另外,翻看Release Notes发现...

12810

一文掌握最新数据湖方案Spark+Hadoop+Hudi+Hive整合案例实践总结

用户9421738

大数据生态发展数年,各种组件版本迭代升级在所难免。组件之间、不同版本之间的适配整合升级,尤为重要。本文主要讲述当前火热的数据湖方案Spark+Hadoop+Hu...

8010

Spark向量化计算在美团生产环境的实践

美团技术团队

Apache Spark是一个优秀的计算引擎,广泛应用于数据工程、机器学习等领域。向量化执行技术在不升级硬件的情况下,既可获得资源节省,又能加速作业执行。Glu...

15010

大数据开发语言scala:源于Java,隐式转换秒杀Java

叫我阿柒啊

在多年的学习路上,也掌握了几门比较常见的语言,例如Java、Python以及前端Vue生态中包含的语言。很多时候,各种语言相似功能的框架都会被放在一起比较,来评...

17820

一条指令,解决外网无法访问云服务器Kafka容器问题

叫我阿柒啊

在上一篇告别Zookeeper,两条命令容器化搭建Kafka跟着官方文档使用docker,在云服务器上搭建了一个单节点的Kafka集群,在云服务器上连接成功,当...

25620

一条指令,解决外网无法访问云服务器Kafka容器问题

叫我阿柒啊

在上一篇告别Zookeeper,两条命令容器化搭建Kafka跟着官方文档使用docker,在云服务器上搭建了一个单节点的Kafka集群,在云服务器上连接成功,当...

25620
领券