首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#spark

Apache Spark是一个开源集群运算框架,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。

解决 spark操作MySQL 时 java.sql.SQLException: HOUR_OF_DAY: 2 -> 3

码农GT038527

遇到的错误java.sql.SQLException: HOUR_OF_DAY: 2 -> 3可能是由于时区问题引起的。MySQL JDBC 驱动程序在处理时间...

11820

spark-sql 批量全量抽取MySQL数据至hive ODS层

码农GT038527

7420

spark-sql 批量增量抽取MySQL数据至hive ODS层

码农GT038527

7820

Kafka集群管理:🛠️ 如何实现数据均衡与性能最大化

TASKCTL 任务调度平台

成都塔斯克信息技术有限公司 | 运营经理 (已认证)

Kafka 起初是 由 LinkedIn 公司采用 Scala 语言开发的一个多分区、多副本且基于 ZooKeeper 协调的分布式消息系统,现已被捐献给 Ap...

10110

Hive on Spark实战:深入理解与配置Spark集群

TASKCTL 任务调度平台

成都塔斯克信息技术有限公司 | 运营经理 (已认证)

Hive 默认使用 MapReduce 作为执行引擎,即 Hive on mr。实际上,Hive 还可以使用 Tez 和 Spark 作为其执行引擎,分别为 H...

17110

互联网十万个为什么之什么是Apache Spark

linus_lin

Apache Spark是一个开源计算框架,专门设计用于大规模数据处理和分析。它提供了一个高效的、基于内存计算的引擎,能够比传统的大数据处理框架更快地处理大数据...

9910

二十行代码!我用Spark实现了电影推荐算法

叫我阿柒啊

腾讯云TDP | 产品KOL (已认证)

很久之前,就有人问我如何做一个基于大数据技术的xx推荐系统。当时对于这个问题,着实难倒我了,因为当时只是知道一个协同过滤,其他的也没有过于深度研究。

42940

【赵渝强老师】基于ZooKeeper实现Hadoop HA

赵渝强老师

京东大学 | 大数据学院院长 (已认证)

由于在HA架构中包含的节点比较多,在进行实际部署的时候需要做好集群的规划。图14.9一共使用了4个节点来部署HDFS HA,它们分别是:bigdata112、b...

13110

电力行业数据湖技术方案Flink、Hudi、Hive on Spark案例全攻略记录及Hive查询MOR rt表异常修复

用户9421738

本文主要记录电力行业客户的数据湖技术方案实践案例,方案概括为基于FlinkSQL+Hudi流式入湖、同步表元数据到Hive,基于Hive catalog统一元数...

13210

​【赵渝强老师】大数据主从架构的单点故障

赵渝强老师

京东大学 | 大数据学院院长 (已认证)

大数据体系架构中的核心组件都是主从架构,即:存在一个主节点和多个从节点,从而组成一个分布式环境。下图为展示了大数据体系中主从架构的相关组件。

9000

【赵渝强老师】大数据生态圈中的组件

赵渝强老师

京东大学 | 大数据学院院长 (已认证)

大数据体系架构中的组件非常多,每个组件又属于不同的生态圈系统。从最早的Hadoop生态圈体系开始,逐步有了Spark生态圈体系和Flink生态圈体系。因此在学习...

14510

【赵渝强老师】大数据技术的理论基础

赵渝强老师

京东大学 | 大数据学院院长 (已认证)

大数据平台所要解决的问题是数据的存储和数据的计算,其核心思想采用的是分布式集群的思想。另一方面,分布式集群的思想在Google的技术系统中得到了很好的应用。因此...

16710

Spark流计算Structured Streaming实践总结

用户9421738

结合日常项目需求,本文总结记录spark streaming和structured streaming 比较常用的使用案例,如:kafka2hdfs、 k...

16210

【赵渝强老师】Spark中的RDD

赵渝强老师

京东大学 | 大数据学院院长 (已认证)

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,它是Spark中最基本、也是最重要的的数据模型。它由分区组成,每个分区...

14910

【赵渝强老师】Spark Streaming中的DStream

赵渝强老师

京东大学 | 大数据学院院长 (已认证)

要开发Spark Streaming应用程序,核心是通过StreamingContext创建DStream。因此DStream对象就是Spark Streami...

13410

【赵渝强老师】Spark SQL的数据模型:DataFrame

赵渝强老师

京东大学 | 大数据学院院长 (已认证)

通过SQL语句处理数据的前提是需要创建一张表,在Spark SQL中表被定义DataFrame,它由两部分组成:表结构的Schema和数据集合RDD,下图说明了...

11910

【赵渝强老师】Spark生态圈组件

赵渝强老师

京东大学 | 大数据学院院长 (已认证)

Spark的生态圈体系架构与Hadoop略有不同。因为在Spark中只有数据的计算部分,没有数据的存储部分,因为Spark的核心就是它的执行引擎。下图展示了Sp...

13810

Spark纯净版 Hive on Spark配置

码农GT038527

Apache Spark 是一个开源的统一分析引擎,旨在快速处理大规模数据。它支持多种数据处理任务,包括批处理、流处理、机器学习和图形处理,具有高性能和易于使用...

15820

Spark重要知识汇总

Lansonli

RDD(Resilient Distributed Dataset)弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计...

24220

相关产品

  • Apache Spark是一个开源集群运算框架,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。

领券