3,Structured Streaming使用checkpoint进行故障恢复

使用checkpoint进行故障恢复

如果发生故障或关机,可以恢复之前的查询的进度和状态,并从停止的地方继续执行。这是使用Checkpoint和预写日志完成的。您可以使用检查点位置配置查询,那么查询将将所有进度信息(即,每个触发器中处理的偏移范围)和运行聚合(例如,示例中的wordcount)保存到检查点位置。此检查点位置必须是HDFS兼容文件系统中的路径,并且可以在启动查询时将其设置为DataStreamWriter中的选项。

aggDF .writeStream .outputMode("complete") .option("checkpointLocation", "path/to/HDFS/dir") .format("memory") .start()

具体测试代码如下:

val lines = spark.readStream.format("socket").option("host", "localhost").option("port", 9999).load() val words = lines.as[String].flatMap(_.split(" ")) val wordCounts = words.groupBy("value").count() val query = wordCounts.writeStream.queryName("aggregates").outputMode("complete").option("checkpointLocation", "memory/").format("memory").start() spark.sql("select * from aggregates").show() kill掉submit进行测试

原文发布于微信公众号 - Spark学习技巧(bigdatatip)

原文发表时间:2018-05-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏deed博客

win2003服务器安全设置教程

1564
来自专栏同步博客

MySQL读写分离

  当今MySQL使用相当广泛,随着用户的增多以及数据量的增大,高并发随之而来。然而我们有很多办法可以缓解数据库的压力。分布式数据库、负载均衡、读写分离、增加缓...

1036
来自专栏FreeBuf

方程式组织DanderSpritz工具测试环境研究

DanderSpritz是NSA泄露的一款著名的界面化远控工具,由于其功能强大因此也成为了许多安全人员争相研究的对象。但在实际测试过程中,由于缺少说明文档,所以...

814
来自专栏雨过天晴

原 Ngrok搭建服务器

1.2K2
来自专栏Greenplum

Linux 常用命令(四)

# Default runlevel. The runlevels used are:

210
来自专栏北京马哥教育

十分钟带你上手FPM制作rpm包

? ? vFPM是什么? ? ? v安装FPM ? v解读FPM安装脚本 ? vFPM常用参数 ? vFPM指令进阶 ? v查看一个rpm包的组成格式...

29311
来自专栏蓝天

Rsync完全配置

系统环境---Rsync完全配置 rsync version 2.6.3 protocol version 28 Slackware 9.2 配置/etc/...

633
来自专栏北京马哥教育

openvpn安装配置过程

前言 之前为了方便远程办公时访问公司的内部系统,如:svn、OA、wiki、禅道等等;通通在防火墙上做了端口映射。然后有个内部系统被黑 了,各种弱口令...

5737
来自专栏Zchannel

#Linux新手入门第一期#Xshell——最好的linux系统远程管理软件

Xshell是最好的远程管理软件,没有之一,支持中文,家庭用户完全免费,它支持保存ip、用户名和密码(Public KEY也可以,也就是俗称的公钥),支持各种自...

661
来自专栏idba

快速备份恢复工具mydumper/myloader

一 前言 大家对于MySQL的逻辑备份工具mysqldump应该都比较了解,本文介绍一款由MySQL ,Facebook 等公司的开发维护另外一套逻辑备份恢...

1183

扫码关注云+社区