首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#spark

Apache Spark是一个开源集群运算框架,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。

【赵渝强老师】基于ZooKeeper实现Hadoop HA

赵渝强老师

京东大学 · 大数据学院院长 (已认证)

由于在HA架构中包含的节点比较多,在进行实际部署的时候需要做好集群的规划。图14.9一共使用了4个节点来部署HDFS HA,它们分别是:bigdata112、b...

3410

电力行业数据湖技术方案Flink、Hudi、Hive on Spark案例全攻略记录及Hive查询MOR rt表异常修复

用户9421738

本文主要记录电力行业客户的数据湖技术方案实践案例,方案概括为基于FlinkSQL+Hudi流式入湖、同步表元数据到Hive,基于Hive catalog统一元数...

8810

​【赵渝强老师】大数据主从架构的单点故障

赵渝强老师

京东大学 · 大数据学院院长 (已认证)

大数据体系架构中的核心组件都是主从架构,即:存在一个主节点和多个从节点,从而组成一个分布式环境。下图为展示了大数据体系中主从架构的相关组件。

8500

【赵渝强老师】大数据生态圈中的组件

赵渝强老师

京东大学 · 大数据学院院长 (已认证)

大数据体系架构中的组件非常多,每个组件又属于不同的生态圈系统。从最早的Hadoop生态圈体系开始,逐步有了Spark生态圈体系和Flink生态圈体系。因此在学习...

12410

【赵渝强老师】大数据技术的理论基础

赵渝强老师

京东大学 · 大数据学院院长 (已认证)

大数据平台所要解决的问题是数据的存储和数据的计算,其核心思想采用的是分布式集群的思想。另一方面,分布式集群的思想在Google的技术系统中得到了很好的应用。因此...

15210

Spark流计算Structured Streaming实践总结

用户9421738

结合日常项目需求,本文总结记录spark streaming和structured streaming 比较常用的使用案例,如:kafka2hdfs、 k...

12810

【赵渝强老师】Spark中的RDD

赵渝强老师

京东大学 · 大数据学院院长 (已认证)

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,它是Spark中最基本、也是最重要的的数据模型。它由分区组成,每个分区...

13210

【赵渝强老师】Spark Streaming中的DStream

赵渝强老师

京东大学 · 大数据学院院长 (已认证)

要开发Spark Streaming应用程序,核心是通过StreamingContext创建DStream。因此DStream对象就是Spark Streami...

12110

【赵渝强老师】Spark SQL的数据模型:DataFrame

赵渝强老师

京东大学 · 大数据学院院长 (已认证)

通过SQL语句处理数据的前提是需要创建一张表,在Spark SQL中表被定义DataFrame,它由两部分组成:表结构的Schema和数据集合RDD,下图说明了...

11510

【赵渝强老师】Spark生态圈组件

赵渝强老师

京东大学 · 大数据学院院长 (已认证)

Spark的生态圈体系架构与Hadoop略有不同。因为在Spark中只有数据的计算部分,没有数据的存储部分,因为Spark的核心就是它的执行引擎。下图展示了Sp...

12910

Spark纯净版 Hive on Spark配置

弟大翻着洗

Apache Spark 是一个开源的统一分析引擎,旨在快速处理大规模数据。它支持多种数据处理任务,包括批处理、流处理、机器学习和图形处理,具有高性能和易于使用...

9920

Spark重要知识汇总

Lansonli

RDD(Resilient Distributed Dataset)弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计...

18320

Zilliz 推出 Spark Connector:简化非结构化数据处理流程

Zilliz RDS

以生产级别的搜索系统为例,该系统通常包含两个部分:离线数据索引和在线查询服务。实现该系统需要使用多种技术栈。例如,在离线处理中,如何将来源于多种渠道的非结构化数...

7210

Spark面试题持续更新【2023-07-04】

火之高兴

综上所述,Spark是一个高性能、可扩展且易用的分布式计算框架,具有丰富的功能和灵活的编程接口,适用于大规模数据处理、实时流处理、机器学习和图计算等各种场景。它...

9010

【Spark数仓项目】需求二:DWD层会话分隔构建-高德地图API解析经纬度位置

火之高兴

由需求一清洗后的临时表中可得会话id和会话的时间戳,我们需要将单一设备的会话进一步细化分隔为新的会话。如上图查询结果所示。

11310

【Spark数仓项目】需求三:地图位置解析进一步优化

火之高兴

因为全部调用高德API会造成高并发的问题,超出高德的调用规范,这也解释了为什么前面需求二我们只查找毕导用户。因此,在不给高德充钱的前提下,我们采用维表+高德ap...

7910

【Spark数仓项目】需求四:Dolphinscheduler进行日志文件调度

火之高兴

首先正常关闭虚拟机,然后调高虚拟机配置参数,我的主机配置是AMD8核,16G,参考虚拟机配置如下:

15510

Spark算子官方文档整理收录大全持续更新【Update2023/6/24】

火之高兴

本文基于Spark 3.2.0 Scala的RDD API,内容来源主要由官方文档整理,文中所整理算子为常用收录,并不完全。在Spark RDD官方文档中按照转...

11110

【Spark数仓项目】需求一:项目用户数据生成-ODS层导入-DWD层初步构建

火之高兴

1.解决了23/06/26 09:14:23 WARN Client: Neither spark.yarn.jars nor spark.yarn.archi...

11310

【Spark数仓项目】需求五:用户活跃范围开发-拉链表

火之高兴

通过建立用户的活跃时间段表,可以将用户的活跃时间段信息预先计算和存储起来,减少从dwd层重复查询的次数。这样可以在统计用户活跃需求时,直接从活跃时间段表中获取数...

7910
领券