开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何在没有Spark Rest API的Spark中监听作业进度

在没有Spark Rest API的Spark中监听作业进度，可以通过以下方法实现：

Spark UI：Spark提供了一个Web界面，可以通过访问Spark UI来监控作业的进度。默认情况下，Spark UI会在作业启动时自动启动，并在特定端口上提供访问。你可以通过访问该端口来查看作业的进度、任务的执行情况、数据倾斜等信息。
Spark监听器（Spark Listeners）：Spark提供了监听器机制，可以通过编写自定义的监听器来监听作业的进度。你可以实现自己的监听器类，继承自SparkListener，并重写其中的方法来处理作业的进度更新事件。通过注册监听器，你可以在作业执行过程中获取作业的进度信息，并进行相应的处理。
日志文件：Spark会将作业的日志输出到指定的日志文件中。你可以通过监控日志文件的变化，解析其中的日志信息来获取作业的进度。可以使用类似tail命令的工具实时查看日志文件的更新情况，或者编写脚本定期解析日志文件中的内容。

需要注意的是，以上方法都是在没有Spark Rest API的情况下实现的。如果有Spark Rest API的话，可以直接通过API获取作业的进度信息。另外，以上方法都是针对Spark本身的作业进度监控，不涉及具体的云计算平台或产品。

腾讯云相关产品和产品介绍链接地址：

腾讯云Spark：https://cloud.tencent.com/product/spark
腾讯云云服务器CVM：https://cloud.tencent.com/product/cvm
腾讯云对象存储COS：https://cloud.tencent.com/product/cos
腾讯云数据库TencentDB：https://cloud.tencent.com/product/cdb
腾讯云人工智能AI：https://cloud.tencent.com/product/ai

相关搜索:java中的Spark rest url作业提交 Spark Scala API:在spark.createDataFrame官方示例中没有可用的typeTag spark历史服务器中没有spark SQL作业的sql选项卡在Datastax Enterprise中如何在没有Cassandra的情况下启动Spark 如何在java中不发送编码值的情况下处理REST API URL路径中的特殊字符，如竖线(|)？如何在spark流作业中查找数据帧的大小如何在不中断流式作业的情况下更改spark spark streamning事件中的json模式？如何在单个spark作业中接收不同的spark数据帧如何在我的angular应用程序中调用和使用spring REST POST API，它返回的字符串没有正文？if linux

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

如何在Hue中添加Spark Notebook

CDH集群中可以使用Hue访问Hive、Impala、HBase、Solr等，在Hue3.8版本后也提供了Notebook组件（支持R、Scala及python语言），但在CDH中Hue默认是没有启用Spark的Notebook，使用Notebook运行Spark代码则依赖Livy服务。在前面Fayson也介绍了《Livy，基于Apache Spark的开源REST服务，加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装》、《如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业》、《如何在Kerberos环境的CDH集群部署Livy》、《如何通过Livy的RESTful API接口向Kerberos环境的CDH集群提交作业》、《如何打包Livy和Zeppelin的Parcel包》和《如何在CM中使用Parcel包部署Livy及验证》，本篇文章Fayson主要介绍如何在Hue中添加Notebook组件并集成Spark。

03

Livy：基于Apache Spark的REST服务

Apache Spark提供的两种基于命令行的处理交互方式虽然足够灵活，但在企业应用中面临诸如部署、安全等问题。为此本文引入Livy这样一个基于Apache Spark的REST服务，它不仅以REST的方式代替了Spark传统的处理交互方式，同时也提供企业应用中不可忽视的多用户，安全，以及容错的支持。背景 Apache Spark作为当前最为流行的开源大数据计算框架，广泛应用于数据处理和分析应用，它提供了两种方式来处理数据：一是交互式处理，比如用户使用spark-shell或是pyspark脚本启动Sp

08

什么是Apache Zeppelin?

多用途笔记本笔记本是满足您所有需求的地方

06

如何使用Oozie API接口向非Kerberos环境的CDH集群提交Spark作业

在CDH集群外的节点向集群提交Spark作业的方式有多种，前面Fayson介绍了Livy相关的文章主要描述如何在集群外节点通过RESTful API接口向CDH集群提交Spark作业，本篇文章我们借助于oozie-client的API接口向非Kerberos集群提交Spark作业。

07

如何使用Oozie API接口向Kerberos环境的CDH集群提交Spark作业

在CDH集群外的节点向集群提交Spark作业的方式有多种，前面Fayson介绍了Livy相关的文章主要描述如何在集群外节点通过RESTful API接口向CDH集群提交Spark作业以及《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Spark作业》，本篇文章主要介绍使用Oozie的API接口向Kerberos集群提交Spark作业。

07

基于Spline的数据血缘解析

什么是数据血缘？数据血缘是数据产生、加工、转化，数据之间产生的关系。随着公司业务发展，通过数据血缘，能知道数据的流向，以便我们更好地进行数据治理。

02

【源码解读】| LiveListenerBus源码解读

异步事件列队主要由LinkedBlockingQueue[SparkListenerEvent] 构建，默认大小为10000

02

SparkSQL 在有赞的实践

有赞数据平台从 2017 年上半年开始，逐步使用 SparkSQL 替代 Hive 执行离线任务，目前 SparkSQL 每天的运行作业数量5000个，占离线作业数目的55%，消耗的 cpu 资源占集群总资源的50%左右。本文介绍由 SparkSQL 替换 Hive 过程中碰到的问题以及处理经验和优化建议，包括以下方面的内容：

00

Dr.Elephant实战常见问题及解决方法

通过之前一系列的文章叙述，想必大家都对dr.elephant有了一个较为清晰的了解。通过自己线上经验的积累，以及和一些读者的交流，我汇总了一些大家在实战中遇到的问题和解决方案。

03

Livy，基于Apache Spark的开源REST服务，加入Cloudera Labs

Hadoop生态圈的Spark（https://www.cloudera.com/products/open-source/apache-hadoop/apache-spark.html），一夜之间成为默认的数据处理引擎，并被作为高级分析的标准。但是它依旧有许多东西需要完善，特别是在大规模/多租户，开发与投产，以及可扩展性方面。

08

Spark实战系列4：Spark周边项目Livy简介

首先，熟悉spark开发的人都知道spark的部署模式分为三种，分别为Local、Standalone、YARN，通过YARN又分为YARN-Client和YARN-Cluster，Local模式一般就是在本地运行Spark任务，需要Spark环境的，Standalone模式是Spark 自身的一种调度模式，也是需要Spark环境，YARN模式中，其实是将Spark JAR包提交到YARN上面，由YARN去开启Contioner然后去执行Spark的作业，这个其实只需要上传Spark Jar包和一些依赖包。不需要在部署Spark环境（充当一个Submit的功能，还占用节点资源）

01

使用Spark进行微服务的实时性能分析

作为一种灵活性极强的构架风格，时下微服务在各种开发项目中日益普及。在这种架构中，应用程序被按照功能分解成一组松耦合的服务，它们通过REST APIs相互协作。通过这个设计原则，开发团队可以快速地不断迭代各个独立的微服务。同时，基于这些特性，很多机构可以数倍地提升自己的部署能力。然而凡事都有两面性，当开发者从微服务架构获得敏捷时，观测整个系统的运行情况成为最大的痛点。如图1所示，多个服务工作联合对用户请求产生响应；在生产环境中，应用程序执行过程中端到端的视图对快速诊断并解决性能退化问题至关重要的，而应用中多

09

Spark Streaming 与 Kafka0.8 整合

在这里我们解释如何配置 Spark Streaming 以接收来自 Kafka 的数据。有两种方法，一种为使用 Receivers 和 Kafka 高级API的旧方法，以及不使用 Receivers 的新方法（在 Spark 1.3 中引入）。它们具有不同的编程模型，性能特征和语义保证。就目前的 Spark 版本而言，这两种方法都被为稳定的API。

02

Yelp 的 Spark 数据血缘建设实践！

在这篇博文中，我们介绍了 Spark-Lineage，这是一种内部产品，用于跟踪和可视化 Yelp 的数据是如何在我们的服务之间处理、存储和传输的。

02

PB级海量数据服务平台架构设计实践

基于PB级海量数据实现数据服务平台，需要从各个不同的角度去权衡，主要包括实践背景、技术选型、架构设计，我们基于这三个方面进行了架构实践，下面分别从这三个方面进行详细分析讨论：实践背景该数据服务平台架构设计之初，实践的背景可以从三个维度来进行说明：当前现状、业务需求、架构需求，分别如下所示：当前现状收集了当前已有数据、分工、团队的一些基本情况，如下所示：数据收集和基础数据加工有专门的Team在做，我们是基于收集后并进行过初步加工的基础数据，结合不同行业针对特定数据的需求进行二次加工的。数据二次加工

06

如何从 Pandas 迁移到 Spark？这 8 个问答解决你所有疑问

作者 | Sanket Gupta 译者 | 王强策划 | 刘燕本文最初发布于 Medium 网站，经原作者授权由 InfoQ 中文站翻译并分享。当你的数据集变得越来越大，迁移到 Spark 可以提高速度并节约时间。多数数据科学工作流程都是从 Pandas 开始的。 Pandas 是一个很棒的库，你可以用它做各种变换，可以处理各种类型的数据，例如 CSV 或 JSON 等。我喜欢 Pandas — 我还为它做了一个名为“为什么 Pandas 是新时代的 Excel”的播客。我仍然认为 Pandas

01

课程主要内容Spark介绍

我们学习Spark首先要知道Spark是什么 image.png 这段内容呢，是老师从官网上摘抄下来的，Spark是一个快速的统一的大数据处理引擎 Spark是开源的集群计算系统，针对快速的数据分析

04

Flink运行方式及对比

Flink on Yarn 中的 Per Job 模式是指每次提交一个任务，然后任务运行完成之后资源就会被释放。

05

Java核心知识点整理大全25-笔记

就是一个大数据解决方案。它提供了一套分布式系统基础架构。核心内容包含 hdfs 和 mapreduce。hadoop2.0 以后引入 yarn. hdfs 是提供数据存储的，mapreduce 是方便数据计算的。

01

如何在非安全的CDH集群中部署Jupyter并集成Spark2

Jupyter Notebook是一个Web应用程序，允许你创建和分享，包含实时的代码，可视化和解释性文字。常用于数据的清洗和转换、数值模拟、统计建模、机器学习和更多，支持40多种语言。python ，R，go，scala等。Jupyter Notebook是Python中的一个包，在Fayson前面的文章《如何在CDH集群上部署Python3运行环境及运行Python作业》介绍了在集群中部署Anaconda，该Python环境自带了Jupyter的包。本篇文章Fayson主要介绍如何在非安全的CDH集群中部署Jupyter Notebook并与Spark2集成。

02

CDP-DC中部署Knox

Apache Knox网关（“ Knox”）是一种在不降低Hadoop安全性的情况下将Apache™Hadoop®服务的覆盖范围扩展到Hadoop群集之外的用户的系统。Knox还为访问群集数据和执行作业的用户简化了Hadoop安全性。Knox网关被设计为反向代理。

03

spark jobserver源码导读

最近有人问浪尖，想读一个比较大的spark项目源码，问浪尖要，浪尖只能告诉你业务相关的是基本上不会有人开源，平台相关的源码就比较多了，浪尖比较推荐的是Spark JobServer相关的源码。改源码量比较小，而且是关于Spark API的非常适合大家去阅读，以便于帮助大家更加深刻的理解spark API的使用及运行原理相关的内容。

01

如何通过Livy的RESTful API接口向Kerberos环境的CDH集群提交作业

在前面的文章Fayson介绍了《Livy，基于Apache Spark的开源REST服务，加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装》、《如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业》和《如何在Kerberos环境的CDH集群部署Livy》。本篇文章主要介绍如何使用java代码调用Livy提供的RESTful API接口向Kerberos环境的CDH集群提交Spark作业操作。

【Dr.Elephant中文文档-1】Dr. Elephant简介

Dr. Elephant是一个Hadoop和Spark的性能监控和调优工具。它能自动采集作业的度量指标并分析他，然后以简单明了的方式展现出来。Dr. Elephant的设计思想是通过作业分析结果来指导开发者进行作业调优，从而提升开发者效率和集群资源的利用率。Dr. Elephant使用了一组可配置的插件式启发算法来分析hadoop和spark作业并提供优化建议。然后针对结果数据来建议如何调整作业。这个算法还计算了作业的许多其他度量标准，用来为集群作业优化提供了有价值的参考信息。

04

如何打包Livy和Zeppelin的Parcel包

Fayson在前面文章《Livy，基于Apache Spark的开源REST服务，加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装》、《如何在Kerberos环境的CDH集群部署Livy》、《如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业》及《如何通过Livy的RESTful API接口向Kerberos环境的CDH集群提交作业》中对Livy的介绍、安全与非安全集群的部署以及使用。前面的部署方式相对比较麻烦且不便于管理，本篇文章Fayson主要介绍如何使用脚本打包适用于Cloudera的Livy和Zeppelin的Parcel。

03

Apache kylin概览

Apache kylin 能提供低延迟（sub-second latency）的秘诀就是预计算，即针对一个星型拓扑结构的数据立方体，预计算多个维度组合的度量，然后将结果保存在hbase中，对外暴露JDBC、ODBC、Rest API的查询接口，即可实现实时查询。

01

如何使用CDSW在CDH集群通过sparklyr提交R的Spark作业

继上一章介绍如何使用R连接Hive与Impala后，Fayson接下来讲讲如何在CDH集群中提交R的Spark作业，Spark自带了R语言的支持，在此就不做介绍，本文章主要讲述如何使用Rstudio提供的sparklyr包，向CDH集群的Yarn提交R的Spark作业。

06

【Dr.Elephant中文文档-7】自动调优

Dr.Elephant这个项目希望构建一个可以自动优化hadoop mapreduce相关函数的调优框架。在这种情况下，是为了函数消耗最少的资源来完成作业。我们还希望在未来的版本将作业时间也作为函数资源消耗的参考指标。我们使用迭代算法和粒子群优化算法进行自动调优。这些迭代通过分析作业的多次运行结果来完成，我们已经在15-20次的作业中优化了20-30%的资源。

03

如何在CDSW上调试失败或卡住的Spark应用

默认情况下，CDSW会话中的Spark应用程序只显示ERROR级别的日志，当作业出现异常或卡住时无法查看作业运行详细日志及异常堆栈信息，不能根据日志的上下文正确的定位问题。在Cloudera Data Science Workbench中允许基于每个Project配置较低级别的Spark运行日志记录，Spark2使用的是Apache Log4j，可以通过log4j.properties文件配置日志输出级别。本篇文章Fayson主要介绍如何在CDSW上调试失败或卡住的Spark作业。

03

用 Apache NiFi、Kafka和 Flink SQL 做股票智能分析

本文是关于如何在实时分析中使用云原生应用程序对股票数据进行连续 SQL 操作的教程。

03

小巧玲珑：机器学习届快刀XGBoost的介绍和使用

该文介绍了如何使用XGBoost算法进行机器学习，包括数据预处理、模型训练、模型评估和模型预测。文章还介绍了XGBoost在TDW平台上的应用，包括基于Tesla平台的XGBoost-on-Spark组件、XGBoost-Spark-X86组件和XGBoost-Yarn组件。这些组件提供了从数据预处理到模型训练、评估和预测的一整套解决方案，大大简化了使用XGBoost进行机器学习的流程。同时，该文还介绍了XGBoost在TDW平台上的应用，包括XGBoost-Spark-PPC组件、XGBoost-Spark-X86组件和XGBoost-Yarn组件，以及它们在TDW平台上的使用方法。通过使用这些组件，用户可以快速、高效地进行机器学习，大大提高了开发效率和模型性能。

03

浅析SparkContext中的组件与创建流程

在Spark框架中，应用程序的提交离不开Spark Driver，而Spark Driver的初始化始终围绕SparkContext的初始化，可以说SparkContext是Spark程序的发动机引擎，有了它程序才能跑起来，在spark-core中，SparkContext重中之重，它提供了很多能力，比如生成RDD，比如生成广播变量等，所以学习SparkContext的组件和启动流程有助于剖析整个Spark内核的架构。

03

0643-Spark SQL Thrift简介

这是一个复杂的历史，基本上是一个“忒修斯船”(Ship of Theseus)的故事。最开始的时候，Spark SQL的代码几乎全部都是Hive的照搬，随着时间的推移，Hive的代码被逐渐替换，直到几乎没有原始的Hive代码保留。

03

快速学习-ElasticJob失效转移

ElasticJob 不会在本次执行过程中进行重新分片，而是等待下次调度之前才开启重新分片流程。当作业执行过程中服务器宕机，失效转移允许将该次未完成的任务在另一作业节点上补偿执行。

03

如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业

在前面的文章Fayson介绍了《Livy，基于Apache Spark的开源REST服务，加入Cloudera Labs》和《如何编译Livy并在非Kerberos环境的CDH集群中安装》，Livy提供了两种类型的API(编程API和RESTful API接口)，本篇文章主要介绍如何使用java代码调用Livy提供的RESTful API接口向非Kerberos环境的CDH集群提交Spark作业操作。

07

业界 | 除了R、Python，还有这些重要的数据科学工具

在你向一些大神请教的时候，他可能也会推荐你学习这两个高级编程语言，然后顺便在推荐你了解一下SQL以及Math。如果讲究点的，可能还会传授你一些Spark、AWS/云计算的经验。

02

业界 | 除了R、Python，还有这些重要的数据科学工具

在你向一些大神请教的时候，他可能也会推荐你学习这两个高级编程语言，然后顺便在推荐你了解一下SQL以及Math。如果讲究点的，可能还会传授你一些Spark、AWS/云计算的经验。

03

Spark源码分析-作业提交(spark-submit)

前面提到，spark向yarn提交作业的client类是org.apache.spark.deploy.yarn.YarnClusterApplication

03

Spark Streaming场景应用- Spark Streaming计算模型及监控

摘要 Spark Streaming是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。本篇结合我们的应用场景，介结我们在使用Spark Streaming方面的技术架构，并着重讲解Spark Streaming两种计算模型，无状态和状态计算模型以及该两种模型的注意事项;接着介绍了Spark Streaming在监控方面所做的一些事情，最后总结了Spark Streaming的优缺点。一、概述数据是非常宝贵的资源，对各级企事业单均有非常高的价值。但是数据的爆炸

06

Spark Streaming 场景应用

Spark Streaming 是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。本篇结合我们的应用场景，介结我们在使用 Spark Streaming 方面的技术架构，并着重讲解 Spark Streaming 两种计算模型，无状态和状态计算模型以及该两种模型的注意事项;接着介绍了 Spark Streaming 在监控方面所做的一些事情，最后总结了 Spark Streaming 的优缺点。

03

如何使用Oozie API接口向Kerberos环境的CDH集群提交Spark2作业

前面Fayson介绍了多种方式在CDH集群外的节点向集群提交Spark作业，文章中均采用Spark1来做为示例，本篇文章主要介绍如何是用Oozie API向Kerberos环境的CDH集群提交Spark2作业。

04

idea插件开发指南_idea get set插件

gitee地址：https://gitee.com/jyq_18792721831/studyplugin.git idea插件开发入门 idea插件开发–配置 idea插件开发–服务-翻译插件 idea插件开发–组件–编程久坐提醒

02

大数据虚拟混算平台Moonbox配置指南

moonbox-0.3.0-beta下载：https://github.com/edp963/moonbox/releases/tag/0.3.0-beta

06

分布式计算引擎 Flink/Spark on k8s 的实现对比以及实践

以 Flink 和 Spark 为代表的分布式流批计算框架的下层资源管理平台逐渐从 Hadoop 生态的 YARN 转向 Kubernetes 生态的 k8s 原生 scheduler 以及周边资源调度器，比如 Volcano 和 Yunikorn 等。这篇文章简单比较一下两种计算框架在 Native Kubernetes 的支持和实现上的异同，以及对于应用到生产环境我们还需要做些什么。

05

EMR(弹性MapReduce)入门之计算引擎Spark、Tez、MapReduce区别（八）

Spark Core：包含Spark的基本功能；尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的。

00

Flink History Server

Flink有一个History Server，可以用来在相应的Flink集群关闭后查询已完成作业的统计信息。例如有个批处理作业是凌晨才运行的，并且我们都知道只有当作业处于运行中的状态，才能够查看到相关的日志信息和统计信息。所以如果作业由于异常退出或者处理结果有问题，我们又无法及时查看（凌晨运行的）作业的相关日志信息。那么History Server就显得十分重要了，因为通过History Server我们才能查询这些已完成作业的统计信息，无论是正常退出还是异常退出。

02

0734-5.16.1-集群外客户端跨网段向Kerberos环境的Hadoop集群提交作业（续）

在前面的文章《如何在集群外节点跨网段向HDFS写数据》和《外部客户端跨网段访问Hadoop集群方式(续)》中介绍了如何在集群外的客户端节点上访问Hadoop集群，本篇文章在前面文章的基础上基于Kerberos环境的CDH集群介绍，如何在集群外客户端跨网段向Kerberos环境的Hadoop集群提交MapReduce和Spark作业。

01

Spring认证指南-了解如何创建基本的批处理驱动解决方案

您将构建一个从 CSV 电子表格导入数据、使用自定义代码对其进行转换并将最终结果存储在数据库中的服务。

02

Spark On K8s实战教程

k8s是一个开源的容器集群管理系统，可以实现容器集群的自动化部署、自动扩缩容、维护等功能。

01

如何在Kerberos环境的CDH集群部署Livy

在前面的文章Fayson介绍了《Livy，基于Apache Spark的开源REST服务，加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装》和《如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业》，本篇文章主要介绍如何在Kerberos环境的CDH集群中部署Livy服务。

04

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭