开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

将Spark作业从Airflow (使用airflow Livy操作符)提交给Livy (在EMR中)

Spark作业是一种用于大数据处理和分析的开源计算框架。它提供了高效的数据处理能力和分布式计算能力，可以处理大规模数据集并实现复杂的数据处理任务。

Airflow是一个开源的工作流管理平台，用于调度和监控数据处理任务。它提供了可视化的界面和灵活的任务调度功能，可以帮助用户管理和调度各种类型的任务。

Livy是一个开源的Spark作业服务器，它提供了REST接口来提交和管理Spark作业。通过Livy，用户可以通过HTTP请求提交Spark作业，并监控作业的执行状态。

EMR（Elastic MapReduce）是亚马逊AWS提供的一项云计算服务，用于在云端快速、简便地处理和分析大规模数据集。EMR支持多种大数据处理框架，包括Spark，提供了弹性的计算资源和易于使用的管理工具。

将Spark作业从Airflow提交给Livy可以通过使用Airflow的Livy操作符来实现。Livy操作符是Airflow提供的一个插件，用于与Livy服务器进行交互。通过配置Livy操作符的参数，可以指定要提交的Spark作业的代码和参数，并将作业提交给Livy服务器执行。

在使用Livy提交Spark作业时，可以考虑以下几个方面：

概念：Spark作业是一段用Spark编写的代码，用于处理和分析大规模数据集。通过将作业提交给Livy，可以利用Spark的分布式计算能力来加速数据处理任务。
分类：Spark作业可以根据功能和用途进行分类，例如数据清洗、数据转换、机器学习、图计算等。
优势：Spark作业具有高性能、易于使用和灵活性等优势。它可以处理大规模数据集，并提供了丰富的数据处理和分析功能。
应用场景：Spark作业广泛应用于大数据处理和分析领域，例如数据清洗、数据转换、数据挖掘、机器学习、实时数据处理等。
腾讯云相关产品：腾讯云提供了一系列与Spark相关的产品和服务，例如Tencent Spark，Tencent EMR等。这些产品可以帮助用户在腾讯云上快速部署和管理Spark作业。

更多关于Spark作业提交给Livy的详细信息和使用方法，可以参考腾讯云的官方文档：Tencent Livy产品介绍。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

EMR 实战心得浅谈

作者｜吴建阳翁建清策划｜褚杏娟 AWS Elastic MapReduce(以下简称 EMR) 是集齐数据接入、存储、计算、交互式查询、机器学习等一系列开源社区组件封装的云上托管大数据平台，用户可以基于 EMR 迅速拉起一套大数据集群，用于大规模数据处理、分析，使用时可根据实际业务所需灵活调配计算资源，一定程度上降低底层基础设施运维成本。AWS 是最早将大数据管理平台上云的云厂商，查询其官网发行版本记录，能检索到的最古老版本 EMR-4.2.0 发布日期为 2015 年 11 月 18 日，当是时

01

Flink 介绍

Apache Flink是一个分布式处理引擎，用于在无界和有界数据流上进行有状态的计算。它在所有的通用集群环境中都可以运行，在任意规模下都可以达到内存级的计算速度。

00

Cloudera数据工程（CDE）2021年终回顾

自一年多前发布 Cloudera 数据工程 (CDE) 以来，我们的首要目标是使用旨在简化自动化和可观察性的顶级工具来大规模操作 Spark 管道。在与部署 Spark 应用程序的数千名客户合作时，我们看到了管理 Spark 以及自动化、交付和优化安全数据管道的重大挑战。我们希望在真正的企业混合数据服务平台之上开发为数据工程从业者量身定制的服务。

01

Livy：基于Apache Spark的REST服务

Apache Spark提供的两种基于命令行的处理交互方式虽然足够灵活，但在企业应用中面临诸如部署、安全等问题。为此本文引入Livy这样一个基于Apache Spark的REST服务，它不仅以REST的方式代替了Spark传统的处理交互方式，同时也提供企业应用中不可忽视的多用户，安全，以及容错的支持。背景 Apache Spark作为当前最为流行的开源大数据计算框架，广泛应用于数据处理和分析应用，它提供了两种方式来处理数据：一是交互式处理，比如用户使用spark-shell或是pyspark脚本启动Sp

08

Spark实战系列4：Spark周边项目Livy简介

首先，熟悉spark开发的人都知道spark的部署模式分为三种，分别为Local、Standalone、YARN，通过YARN又分为YARN-Client和YARN-Cluster，Local模式一般就是在本地运行Spark任务，需要Spark环境的，Standalone模式是Spark 自身的一种调度模式，也是需要Spark环境，YARN模式中，其实是将Spark JAR包提交到YARN上面，由YARN去开启Contioner然后去执行Spark的作业，这个其实只需要上传Spark Jar包和一些依赖包。不需要在部署Spark环境（充当一个Submit的功能，还占用节点资源）

01

如何使用Oozie API接口向非Kerberos环境的CDH集群提交Spark作业

在CDH集群外的节点向集群提交Spark作业的方式有多种，前面Fayson介绍了Livy相关的文章主要描述如何在集群外节点通过RESTful API接口向CDH集群提交Spark作业，本篇文章我们借助于oozie-client的API接口向非Kerberos集群提交Spark作业。

07

如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业

在前面的文章Fayson介绍了《Livy，基于Apache Spark的开源REST服务，加入Cloudera Labs》和《如何编译Livy并在非Kerberos环境的CDH集群中安装》，Livy提供了两种类型的API(编程API和RESTful API接口)，本篇文章主要介绍如何使用java代码调用Livy提供的RESTful API接口向非Kerberos环境的CDH集群提交Spark作业操作。

07

如何使用Oozie API接口向Kerberos环境的CDH集群提交Spark2作业

前面Fayson介绍了多种方式在CDH集群外的节点向集群提交Spark作业，文章中均采用Spark1来做为示例，本篇文章主要介绍如何是用Oozie API向Kerberos环境的CDH集群提交Spark2作业。

04

Livy，基于Apache Spark的开源REST服务，加入Cloudera Labs

Hadoop生态圈的Spark（https://www.cloudera.com/products/open-source/apache-hadoop/apache-spark.html），一夜之间成为默认的数据处理引擎，并被作为高级分析的标准。但是它依旧有许多东西需要完善，特别是在大规模/多租户，开发与投产，以及可扩展性方面。

08

Flink on Zeppelin 作业管理系统实践

在数仓ETL、实时计算的场景下，我们基于Flink SQL批流一体的框架进行了一定规模的作业迁移。在研发作业管理系统中，我们引入Apache Zeppelin组件作为Flink SQL作业提交客户端，Flink 批流作业可视化预览的核心组件。在一年多时间的产线实践中，我们对作业提交的方式策略进行了几次演进，目前在跑作业规模Flink Batch 任务日均运行超5000次，流作业500+，均稳定运行。

02

如何使用Oozie API接口向Kerberos环境的CDH集群提交Spark作业

在CDH集群外的节点向集群提交Spark作业的方式有多种，前面Fayson介绍了Livy相关的文章主要描述如何在集群外节点通过RESTful API接口向CDH集群提交Spark作业以及《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Spark作业》，本篇文章主要介绍使用Oozie的API接口向Kerberos集群提交Spark作业。

07

如何在Kerberos环境的CDH集群部署Livy

在前面的文章Fayson介绍了《Livy，基于Apache Spark的开源REST服务，加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装》和《如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业》，本篇文章主要介绍如何在Kerberos环境的CDH集群中部署Livy服务。

04

SmartNews基于Flink加速Hive日表生产的实践

本文介绍了 SmartNews 利用 Flink 加速 Hive 日表的生产，将 Flink 无缝地集成到以 Airflow 和 Hive 为主的批处理系统的实践。详细介绍我们遇到的技术挑战和应对方案，以供社区分享。项目背景 SmartNews 在过去 9 年的时间，基于 Airflow, Hive, S3, EMR 等技术栈构建了大量的数据集。随着数据量的增长，这些离线表的处理时间在逐渐拉长。另外，随着业务方迭代节奏的加快，对表的实时性也提出了更高的要求。因此，SmartNews 内部发起了 Speed

02

0828-7.1.4-如何在CDP中通过Livy Thrift Server来提交Spark SQL作业

为什么CDH甚至最新的CDP中对于Spark SQL CLI或者JDBC/ODBC没有提供基于Spark Thrift Server的支持，参考Fayson之前的文章《0827-7.1.4-如何在CDP中使用Spark SQL CLI》，在CDP中，Cloudera给出了新的解决方案Livy Thrift Server，它是对Spark Thrift Server的增强，支持JDBC/Thrift Server，安全与容错。通过Hive Warehouse Connector(HWC)，支持Spark SQL访问Hive3的内表，同时然Spark SQL支持基于Ranger的细粒度授权。本文主要介绍如何在CDP中通过Livy Thrift Server来提交Spark SQL作业。

04

如何通过Livy的RESTful API接口向Kerberos环境的CDH集群提交作业

在前面的文章Fayson介绍了《Livy，基于Apache Spark的开源REST服务，加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装》、《如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业》和《如何在Kerberos环境的CDH集群部署Livy》。本篇文章主要介绍如何使用java代码调用Livy提供的RESTful API接口向Kerberos环境的CDH集群提交Spark作业操作。

传统大数据平台如何进行云原生化改造

作者 | 宋文欣以 Hadoop 为中心的大数据生态系统从 2006 年开源以来，一直是大部分公司构建大数据平台的选择，但这种传统选择随着人们的深入使用，出现的问题也越来越多，比如：数据开发迭代速度不够快、集群资源利用效率过低、新的开发工具集成非常复杂等。这些问题已经成为困扰企业数字化转型加速迭代和升级的主要障碍。而传统大数据平台通常是以 Hadoop 为中心的大数据生态技术。一个 Hadoop 集群包含 HDFS 分布式文件系统和以 Yarn 为调度系统的 MapReduce 计算框架。围绕 H

05

没看过这篇文章，别说你会用Airflow

Airflow 作为一款开源分布式任务调度框架，已经在业内广泛应用。本文总结了 Freewheel Transformer 团队近两年使用 Airflow 作为调度器，编排各种批处理场景下 ETL Data Pipelines 的经验，希望能为正在探索 Airflow 的技术团队提供一些参考价值。

02

如何在Hue中添加Spark Notebook

CDH集群中可以使用Hue访问Hive、Impala、HBase、Solr等，在Hue3.8版本后也提供了Notebook组件（支持R、Scala及python语言），但在CDH中Hue默认是没有启用Spark的Notebook，使用Notebook运行Spark代码则依赖Livy服务。在前面Fayson也介绍了《Livy，基于Apache Spark的开源REST服务，加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装》、《如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业》、《如何在Kerberos环境的CDH集群部署Livy》、《如何通过Livy的RESTful API接口向Kerberos环境的CDH集群提交作业》、《如何打包Livy和Zeppelin的Parcel包》和《如何在CM中使用Parcel包部署Livy及验证》，本篇文章Fayson主要介绍如何在Hue中添加Notebook组件并集成Spark。

03

如何编译Livy并在非Kerberos环境的CDH集群中安装

在前面的文章Fayson介绍了《Livy，基于Apache Spark的开源REST服务，加入Cloudera Labs》，由于Cloudera暂未将Livy服务打包集成到CDH，所以需要我们自己编译安装，本篇文章主要介绍如何通过Maven编译Livy并在非Kerberos环境的CDH集群中安装。

06

如何在HUE上使用Spark Notebook

打开hue.ini文件，找到【yarn_clusters】【default】，修改spark_history_server_url值。

03

如何打包Livy和Zeppelin的Parcel包

Fayson在前面文章《Livy，基于Apache Spark的开源REST服务，加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装》、《如何在Kerberos环境的CDH集群部署Livy》、《如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业》及《如何通过Livy的RESTful API接口向Kerberos环境的CDH集群提交作业》中对Livy的介绍、安全与非安全集群的部署以及使用。前面的部署方式相对比较麻烦且不便于管理，本篇文章Fayson主要介绍如何使用脚本打包适用于Cloudera的Livy和Zeppelin的Parcel。

03

0827-7.1.4-如何在CDP中使用Spark SQL CLI

而我们在产品开发过程中，可能需要用到spark-sql来进行数据加工，本文就采用脚本的方式，调用spark-shell来进行数据的处理，执行需要的sql语句。

01

Flink面试题持续更新【2023-07-21】

Flink和传统的Spark Streaming是两种流处理框架，它们在设计理念、功能特性和处理模型上存在一些区别。

01

如何在CM中使用Parcel包部署Livy及验证

在前面的文章《如何打包Livy和Zeppelin的Parcel包》Fayson介绍了使用脚本打包Livy和Zeppelin的Parcel包，本篇文章Fayson主要介绍在CM中使用Livy的Parcel包部署服务及验证。

04

印尼医疗龙头企业Halodoc的数据平台转型之路：基于Apache Hudi的数据平台V2.0

数据平台已经彻底改变了公司存储、分析和使用数据的方式——但为了更有效地使用它们，它们需要可靠、高性能和透明。数据在制定业务决策和评估产品或 Halodoc 功能的性能方面发挥着重要作用。作为印度尼西亚最大的在线医疗保健公司的数据工程师，我们面临的主要挑战之一是在整个组织内实现数据民主化。Halodoc 的数据工程 (DE) 团队自成立以来一直使用现有的工具和服务来维护和处理大量且多样的数据，但随着业务的增长，我们的数据量也呈指数级增长，需要更多的处理资源。由于现代数据平台从不同的、多样化的系统中收集数据，很容易出现重复记录、错过更新等数据收集问题。为了解决这些问题，我们对数据平台进行了重新评估，并意识到架构债务随着时间的推移积累会导致大多数数据问题。我们数据平台的所有主要功能——提取、转换和存储都存在问题，导致整个数据平台存在质量问题。现有数据平台印尼医疗龙头企业Halodoc的数据平台转型之路：数据平台V1.0 在过去几年中为我们提供了很好的服务，但它的扩展性满足不了不断增长的业务需求。

02

腾讯云EMR使用说明: 配置工作流

本文将通过一个简单，并且具有典型代表的例子，描述如何使用EMR产品中的Hue组件创建工作流，并使该工作流每天定时执行。

Structured Streaming | Apache Spark中处理实时数据的声明式API

随着实时数据的日渐普及，企业需要流式计算系统满足可扩展、易用以及易整合进业务系统。Structured Streaming是一个高度抽象的API基于Spark Streaming的经验。Structured Streaming在两点上不同于其他的Streaming API比如Google DataFlow。第一，不同于要求用户构造物理执行计划的API，Structured Streaming是一个基于静态关系查询（使用SQL或DataFrames表示）的完全自动递增的声明性API。第二，Structured Streaming旨在支持端到端实时的应用，将流处理与批处理以及交互式分析结合起来。我们发现，在实践中这种结合通常是关键的挑战。Structured Streaming的性能是Apache Flink的2倍，是Apacha Kafka 的90倍，这源于它使用的是Spark SQL的代码生成引擎。它也提供了丰富的操作特性，如回滚、代码更新、混合流\批处理执行。我们通过实际数据库上百个生产部署的案例来描述系统的设计和使用，其中最大的每个月处理超过1PB的数据。

02

「EMR 开发指南」之 Hue 配置工作流

本文将通过一个简单，并且具有典型代表的例子，描述如何使用EMR产品中的Hue组件创建工作流，并使该工作流每天定时执行。

02

用 Kafka、Spark、Airflow 和 Docker 构建数据流管道指南

在本指南中，我们将深入探讨构建强大的数据管道，用 Kafka 进行数据流处理、Spark 进行处理、Airflow 进行编排、Docker 进行容器化、S3 进行存储，Python 作为主要脚本语言。

01

EMR入门学习之Hue上创建工作流（十一）

本文将通过一个简单，并且具有典型代表的例子，描述如何使用EMR产品中的Hue组件创建工作流，并使该工作流每天定时执行。

02

一份数据满足所有数据场景？腾讯云数据湖解决方案及DLC内核技术介绍

摘要 OLAP数据库/引擎日新月异，不断推陈出新，在各种场景下有不同引擎的价值：flink擅长于实时数据集成/实时计算；spark批处理、tb级以上、hive生态、复杂join的数据分析、以及机器学习；presto联邦分析、较简单join、tb级以下hive生态udf数据分析；clickhouse 大宽表聚合操作、无数据更新、尽量无join、没有复杂udf的亚秒级分析，tensorflow深度学习等等即使相同的引擎，考虑资源隔离、成本分摊、数仓研发/使用周期（test，adhoc，prod，backfil

03

EMR Remote Shuffle Service

ESS（EMR Remote Shuffle Service）是EMR在优化计算引擎的Shuffle操作上，推出的扩展组件。

02

Apache Airflow 2.3.0 在五一重磅发布！

大家好，我是一哥，在这个五一假期，又一个Apache项目迎来了重大版本更新——Apache Airflow 2.3.0 在五一重磅发布！

02

业界 | 除了R、Python，还有这些重要的数据科学工具

在你向一些大神请教的时候，他可能也会推荐你学习这两个高级编程语言，然后顺便在推荐你了解一下SQL以及Math。如果讲究点的，可能还会传授你一些Spark、AWS/云计算的经验。

03

业界 | 除了R、Python，还有这些重要的数据科学工具

在你向一些大神请教的时候，他可能也会推荐你学习这两个高级编程语言，然后顺便在推荐你了解一下SQL以及Math。如果讲究点的，可能还会传授你一些Spark、AWS/云计算的经验。

02

干货 | 携程机票大数据架构最佳实践

作者简介许鹏，携程机票大数据基础平台Leader，负责平台的构建和运维。深度掌握各种大数据开源产品，如Spark、Presto及Elasticsearch。著有《Apache Spark源码剖析》一书。本文来自许鹏在〖DAMS 2017中国数据资产管理峰会〗上的分享，首发DBAplus社群（ID：dbaplus）。现如今大数据一块有很多的开源项目，因此首先搭建平台的难点其实在于如何选择一个合适的技术来做整个平台的架构，第二，因为有业务数据，用了平台之后的话，如何用平台把数据分析出来让用户有很好的交互性的

08

【最全的大数据面试系列】Spark面试题大全（一）

编写 shell 脚本，定期检测 master 状态，出现宕机后对 master 进行重启操作

01

智能计算时代 | SuperSQL基于监督学习模型的自适应计算提效能力

点击蓝字关注我们更多咨询天穹SuperSQL是腾讯自研、基于统一SQL语言模型、面向机器学习智能调优、提供虚拟化数据和开放式计算引擎的大数据智能融合平台。在开放融合的Data Cloud上，业务方可以消费完整的数据生命周期（采集-存储-计算-分析-洞察），还能够满足位于不同数据中心、不同类型数据源的数据联合分析/即时查询的需求。目前，SuperSQL已经迈入智能计算时代，SuperSQL能够基于规则匹配(RBO)与代价估算(CBO)，利用不同算法智能地为不同用户SQL挑选最合适的执行引擎，极大地优化S

03

开源数据质量解决方案——Apache Griffin入门宝典

提到格里芬—Griffin，大家想到更多的是篮球明星或者战队名，但在大数据领域Apache Griffin（以下简称Griffin）可是数据质量领域响当当的一哥。先说一句：Griffin是大数据质量监控领域唯一的Apache项目，懂了吧。

04

大规模运行 Apache Airflow 的经验和教训

作者|Sam Wheating Megan Parker 译者|Sambodhi 策划|罗燕珊 Apache Airflow 是一个能够开发、调度和监控工作流的编排平台。在 Shopify，我们已经在生产中运行了两年多的 Airflow，用于各种工作流，包括数据提取、机器学习模型训练、Apache Iceberg 表维护和 DBT 驱动的数据建模。在撰写本文时，我们正通过 Celery 执行器和 MySQL 8 在 Kubernetes 上来运行 Airflow 2.2。 Shopify 在 Airflo

02

探索 eBay 用于交互式分析的全新优化 Spark SQL 引擎

作者 | Gang Ma 等译者 | Sambodhi 策划 | 闫园园看一下 eBay 如何创建优化的 SQL 解决方案，它可以为新的基于开源的分析平台提供更高的速度、稳定性和可扩展性。最近，eBay 完成了把超过 20PB 的数据从一个提供商的分析平台迁移到内部构建的基于开源的 Hadoop 系统。这次迁移使得 eBay 以技术为主导的重新构想与第三方服务提供商脱钩。与此同时，它也给 eBay 提供了一个机会，建立一套相互补充的开源系统来支持对用户体验的分析。这个迁移过程中面临的

03

Hive计算引擎大PK，万字长文解析MapRuce、Tez、Spark三大引擎

Hive从2008年始于FaceBook工程师之手，经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本，Hive从最开始的为人诟病的速度慢迅速发展，开始支持更多的计算引擎，计算速度大大提升。

05

Hive计算引擎大PK，万字长文解析MapRuce、Tez、Spark三大引擎

Hive从2008年始于FaceBook工程师之手，经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本，Hive从最开始的为人诟病的速度慢迅速发展，开始支持更多的计算引擎，计算速度大大提升。

04

使用 Livy Rest API 提交 spark 批量任务（jar，Python， streaming）

Livy是一个开源的REST 接口，用于与Spark进行交互，它同时支持提交执行代码段和完整的程序。

03

高吞吐实时事务数仓方案调研 flink kudu+impala hbase等

腾讯云数据仓库PostgreSql TDSQL，PingCAP的TiDB，阿里的OceanBase，华为云DWS，都是HTAP的业内常用数仓，可以一站式解决需求。

08

大数据调度平台Airflow（二）：Airflow架构及原理

Airflow我们可以构建Workflow工作流，工作流使用DAG有向无环图来表示，DAG指定了任务之间的关系，如下图：

03

万字长文 | Hadoop 上云：存算分离架构设计与迁移实践

一面数据原有的技术架构是在线下机房中使用 CDH 构建的大数据集群。自公司成立以来，每年都保持着高速增长，业务的增长带来了数据量的剧增。

02

助力工业物联网，工业大数据之服务域：Shell调度测试【三十三】

解决：统一使用BashOperator或者PythonOperator，将对应程序封装在脚本中

03

大数据开发：Hive on Spark设计原则及架构

在Spark越来越受到主流市场青睐的大背景下，Hive作为Hadoop生态当中的数仓组件工具，在于Spark生态的配合当中，开始有了Hive on Spark的思路，那么具体是怎么实现的呢？今天的大数据开发分享，我们来讲讲Hive on Spark设计原则及架构。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭