首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何让火花流作业在HD Insights (YARN)上永久运行?

要让火花流作业在HDInsight(YARN)上永久运行,可以按照以下步骤进行操作:

  1. 确保已经创建了一个HDInsight集群,并且该集群已经处于运行状态。
  2. 在HDInsight集群的主节点上,使用SSH或远程桌面连接到集群。
  3. 打开Spark Shell或Spark应用程序,并编写你的火花流作业代码。
  4. 在代码中,使用适当的Spark Streaming API来定义和处理你的流数据。
  5. 确保你的代码中包含了必要的配置参数,以便在YARN上永久运行作业。例如,可以设置以下参数:
  • 设置spark.streaming.stopGracefullyOnShutdowntrue,以确保在关闭作业时优雅地停止流处理。
  • 设置spark.streaming.backpressure.enabledtrue,以启用反压机制,以避免作业过载。
  • 设置spark.streaming.receiver.writeAheadLog.enabletrue,以启用Write Ahead Log(WAL)机制,以确保数据的可靠性。
  1. 在代码中,使用适当的数据源和数据接收器来读取和写入流数据。根据你的需求,可以使用不同的数据源和接收器,如Kafka、Flume、HDFS、Azure Blob存储等。
  2. 在代码中,使用适当的检查点机制来保存作业的状态信息。可以使用HDFS或Azure Blob存储作为检查点目录。
  3. 在代码中,使用适当的错误处理和容错机制来处理可能出现的异常情况。例如,可以使用重试机制、故障转移机制等。
  4. 在代码中,使用适当的日志记录机制来记录作业的运行情况和错误信息。可以使用Spark的内置日志记录功能或其他日志记录框架。
  5. 在代码中,使用适当的监控和调优工具来监视和优化作业的性能。可以使用Spark的内置监控工具、YARN的资源管理器、Ganglia等。
  6. 在代码中,使用适当的数据处理和转换操作来处理流数据。可以使用Spark的内置转换操作、自定义函数、UDF等。
  7. 在代码中,使用适当的窗口操作来处理窗口化的流数据。可以使用滑动窗口、滚动窗口等。
  8. 在代码中,使用适当的聚合操作来聚合流数据。可以使用reduce操作、count操作、sum操作等。
  9. 在代码中,使用适当的输出操作来将处理后的数据写入到目标存储或目标系统中。可以使用HDFS、Azure Blob存储、数据库等。
  10. 在代码中,使用适当的调度和触发机制来控制作业的执行时间和频率。可以使用定时调度器、事件触发器等。
  11. 在代码中,使用适当的安全机制来保护作业的数据和代码。可以使用身份验证、授权、加密等。
  12. 在代码中,使用适当的性能优化技术来提高作业的执行效率。可以使用数据分区、数据缓存、并行计算等。
  13. 在代码中,使用适当的资源管理和调度策略来优化作业的资源利用率。可以使用YARN的资源管理器、队列调度器等。
  14. 在代码中,使用适当的扩展和集群管理技术来实现作业的水平扩展和高可用性。可以使用YARN的动态资源分配、故障转移机制等。
  15. 在代码中,使用适当的监控和报警机制来实时监视作业的运行状态和性能指标。可以使用Spark的内置监控工具、Ganglia、Nagios等。

请注意,以上步骤仅为一般性指导,具体实施步骤可能因实际情况而异。此外,腾讯云提供了一系列与Spark和流处理相关的产品和服务,如腾讯云数据工厂、腾讯云流计算等,可以根据实际需求选择适合的产品和服务来支持火花流作业在HDInsight(YARN)上的永久运行。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

  • hadoop记录 - 乐享诚美

    RDBMS Hadoop Data Types RDBMS relies on the structured data and the schema of the data is always known. Any kind of data can be stored into Hadoop i.e. Be it structured, unstructured or semi-structured. Processing RDBMS provides limited or no processing capabilities. Hadoop allows us to process the data which is distributed across the cluster in a parallel fashion. Schema on Read Vs. Write RDBMS is based on ‘schema on write’ where schema validation is done before loading the data. On the contrary, Hadoop follows the schema on read policy. Read/Write Speed In RDBMS, reads are fast because the schema of the data is already known. The writes are fast in HDFS because no schema validation happens during HDFS write. Cost Licensed software, therefore, I have to pay for the software. Hadoop is an open source framework. So, I don’t need to pay for the software. Best Fit Use Case RDBMS is used for OLTP (Online Trasanctional Processing) system. Hadoop is used for Data discovery, data analytics or OLAP system. RDBMS 与 Hadoop

    03

    hadoop记录

    RDBMS Hadoop Data Types RDBMS relies on the structured data and the schema of the data is always known. Any kind of data can be stored into Hadoop i.e. Be it structured, unstructured or semi-structured. Processing RDBMS provides limited or no processing capabilities. Hadoop allows us to process the data which is distributed across the cluster in a parallel fashion. Schema on Read Vs. Write RDBMS is based on ‘schema on write’ where schema validation is done before loading the data. On the contrary, Hadoop follows the schema on read policy. Read/Write Speed In RDBMS, reads are fast because the schema of the data is already known. The writes are fast in HDFS because no schema validation happens during HDFS write. Cost Licensed software, therefore, I have to pay for the software. Hadoop is an open source framework. So, I don’t need to pay for the software. Best Fit Use Case RDBMS is used for OLTP (Online Trasanctional Processing) system. Hadoop is used for Data discovery, data analytics or OLAP system. RDBMS 与 Hadoop

    03

    基于Hadoop生态圈的数据仓库实践 —— ETL(三)

    三、使用Oozie定期自动执行ETL 1. Oozie简介 (1)Oozie是什么 Oozie是一个管理Hadoop作业、可伸缩、可扩展、可靠的工作流调度系统,其工作流作业是由一系列动作构成的有向无环图(DAGs),协调器作业是按时间频率周期性触发的Oozie工作流作业。Oozie支持的作业类型有Java map-reduce、Streaming map-reduce、Pig、 Hive、Sqoop和Distcp,及其Java程序和shell脚本等特定的系统作业。 第一版Oozie是一个基于工作流引擎的服务器,通过执行Hadoop Map/Reduce和Pig作业的动作运行工作流作业。第二版Oozie是一个基于协调器引擎的服务器,按时间和数据触发工作流执行。它可以基于时间(如每小时执行一次)或数据可用性(如等待输入数据完成后再执行)连续运行工作流。第三版Oozie是一个基于Bundle引擎的服务器。它提供更高级别的抽象,批量处理一系列协调器应用。用户可以在bundle级别启动、停止、挂起、继续、重做协调器作业,这样可以更好地简化操作控制。 (2)为什么需要Oozie

    02

    【Hadoop】17-在集群上运行MapRedece

    本地作业运行器使用单JVM运行一个作业,只要作业需要的所有类都在类路径(classpath)上,那么作业就可以正常执行。在分布式的环境中,情况稍微复杂一些。开始的时候作业的类必须打包成一个作业JAR文件并发送给集群。Hadoop通过搜索驱动程序的类路径自动找到该作业JAR文件,该类路径包含JonfConf或Job上的setJarByClass()方法中设置的类。另一种方法,如果你想通过文件路径设置一个指定的JAR文件,可以使用setJar()方法。JAR文件路径可以是本地的,也可以是一个HDFS文件路径。通过使用像Ant或Maven的构建工具可以方便地创建作业的JAR文件。当给定范例所示的POM时,下面的Maven命令将在包含所有已编译的类的工程目录中创建一个名为hadoop-example.jar的JAR文件:

    04

    如何部署 Hadoop 集群

    Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

    012
    领券