腾云先锋（TDP）成员

Lansonli技术博客

代码在线跑，知识轻松学

Python精品学习库

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

博客搬家 | 分享价值百万资源包

往期视频·干货材料·成员作品 最新动态

技术创作特训营·精选知识专栏

新邀入驻腾讯云开发者社区，福利多多！

如何运用「云、端融合的数智化安全体系」高效护航数据安全

左手AI，右手安全 —— 一汽丰田数字化转型之路

Spark Pi是Apache Spark官方提供的一个示例程序，该案例使用 Spark 进行分布式计算，通过蒙特卡罗方法估算圆周率（π）的值，其估算π原理如下：

大数据Spark（五十八）：Spark Pi介绍

Apache Spark 和 Hadoop MapReduce 都是用于大规模数据处理的分布式计算框架，但它们在架构设计、数据处理方式和应用场景等方面存在显著差异。以下是两者的主要区别：

大数据Spark（五十七）：Spark运行架构与MapReduce区别

Spark 生态模块包括：SparkCore、SparkSQL、SparkStreaming、StructuredStreaming、MLlib 和 GraphX。与 Hadoop 相关的整个技术生态如下所示：

大数据Spark（五十六）：Spark生态模块与运行模式

Apache Spark 是一个专为大规模数据处理而设计的快速、通用的计算引擎。最初由加州大学伯克利分校的 AMP 实验室（Algorithms, Machines, and People Lab）开发，并于 2010 年开源，2014 年成为 Apache 顶级项目。Spark 的诞生旨在突破传统 Hadoop MapReduce 在迭代计算和内存利用上的局限性，与 MapReduce 不同，Spark 可以将作业中间结果缓存于内存中，减少对磁盘的读写操作，因此在需要多次迭代计算的数据处理场景（如数据挖掘和机器学习）中表现出色。

大数据Spark（五十五）：Spark框架及特点

Azkaban官方并没有提供Linux系统的编译安装包，需要读者根据需求在官网选择指定版本的Azkaban源文件，然后进行编译打包。                

大数据Azkaban（三）：Azkaban编译及报错问题解决

Azkaban通过作业的依赖性解决业务调度顺序，并提供易于使用的UI界面来维护和跟踪工作流程，其主要特点如下：

大数据Azkaban（二）：Azkaban简单介绍

无论是在业务开发还是在大数据开发中，工作流管理是必不可少的，在初期可以使用Linux自带的crontab工具来定时调度任务，但是当业务规模变大并且需要可视化监控任务执行的时候，crontab显然已经满足不了需求。为此，针对这种多任务、可视化调度的调度管理需求，Apache以及其他组织提供了一系列工作流管理器。

大数据Azkaban（一）：工作流管理器概述

在 CentOS 7 上使用 Remi 仓库安装 PHP 7.4，您可以按照以下步骤操作 安装 EPEL 仓库：

云原生（六十） | Web源码迁移部署

思考：我们刚才的操作都是通过SQL语句实现的，如果我们要导入的文件是以SQL、CSV或Excel等形式存储，应该如何导入呢？

云原生（五十四） | RDS数据导入与导出

案例：基于DMS在db_xxxx数据库中创建tb_students数据表，包含字段id、name、age、gender、mobile信息 

云原生（五十三） | SQL查询操作

云原生（五十二） | DataGrip软件使用

DataGrip是JetBrains公司推出的管理数据库的产品（数据库客户端软件），功能非常强大，可以兼容各种数据库。它的设计符合数据库管理员、开发人员需要。用户体验非常不错。

云原生（五十一） | MySQL Client客户端连接服务器

云原生（四十八） | Nginx软件安装部署

云原生（四十七） | PHP软件安装部署

注： 如果安装过程中报错Public key for mysql-community-icu-data-files-8.0.29-1.el7.x86_64.rpm is not installed

云原生（四十六） | MySQL软件安装部署

当我们对流式数据处理完成之后，可以将数据写出到Flie、Kafka、console控制台、memory内存，或者直接使用foreach做个性化处理。关于将数据结果写出到Kafka在StructuredStreaming与Kafka整合部分再详细描述。

Spark实时（六）：Output Sinks案例演示

在Spark2.0版本之后，DataFrame和Dataset可以表示静态有边界的数据，也可以表示无边界的流式数据。在Structured Streaming中我们可以使用SparkSession针对流式数据源创建对应的Dataset或者DataFrame，并可以像处理批数据一样使用各种Operators操作处理流式数据。

Spark实时（五）：InputSource数据源案例演示

Structured Streaming中结果输出时outputMode可以设置三种模式，三种默认区别如下：

Spark实时（四）：Strctured Streaming简单应用

我们使用Structured Streaming来监控socket数据统计WordCount。这里我们使用Spark版本为3.4.3版本，首先在Maven pom文件中导入以下依赖：

Spark实时（三）：Structured Streaming入门案例

在 Logstash 中，死信队列（Dead Letter Queue, DLQ）是用于处理无法写入 Elasticsearch 的失败事件的功能。当 Logstash 无法将某些事件正确地导入 Elasticsearch（例如因为字段映射问题、数据格式问题等），这些事件可以被捕获并存储到死信队列中，以便后续排查和处理。

Elasticsearch基础（七）：Logstash如何开启死信队列

文章

问答

视频

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋 

腾讯云代码助手

CODING DevOps

Cloud Studio

SDK中心

API中心

命令行工具

腾讯云开发者社区推出了Lansonli技术博客专栏，为你提供了Lansonli技术博客的相关文章，致力于帮助开发者快速成长与发展。

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐