GFS检查点的结构_Spark结构流检查点大小巨大_NOAA GFS输出文件的文档 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Flink1.4 检查点启用与配置

Flink 中的每个函数和操作符都可以是有状态的（请参阅使用状态了解详细信息）。有状态函数在处理单个元素/事件时存储数据。

03

The Google File System

今天看了The Google File System的论文，我们简称其为GFS。GFS是谷歌的分布式文件存储系统，这篇论文是现代分布式软件系统入门的经典论文，并由此诞生了Hadoop生态中HDFS的开源实现。

03

您找到你想要的搜索结果了吗？

是的

没有找到

The Google File System

今天看了The Google File System的论文，我们简称其为GFS。GFS是谷歌的分布式文件存储系统，这篇论文是现代分布式软件系统入门的经典论文，并由此诞生了Hadoop生态中HDFS的开源实现。

04

GFS的分布式哲学：HDFS的一致性成就，归功于我的失败……

陈东明，具有丰富的大规模系统构建和基础架构的研发经验，善于复杂业务需求下的大并发、分布式系统设计和持续优化。近年专注于分布式系统一致性的研究，常年坚持技术文章创作和社区分享。曾就职于饿了么、百度，主导开发饿了么key-value数据库，负责百度即时通讯产品的架构设计。个人微信公众号dongming_cdm。本文是本人新书《分布式系统与一致性》的一个章节，节选出来和大家分享、讨论。

02

Flink学习笔记(5) -- Flink 状态(State)管理与恢复

我们前面写的word count的例子，没有包含状态管理。如果一个task在处理过程中挂掉了，那么它在内存中的状态都会丢失，所有的数据都需要重新计算。从容错和消息处理的语义上(at least once, exactly once)，Flink引入了state和checkpoint。

02

Flink1.4 外部检查点

检查点通过恢复状态和对应流位置来实现 Flink 状态容错，从而为应用程序提供与无故障执行相同的语义。

02

GFS — 取舍的艺术

GFS 是谷歌为其业务定制开发的，支持弹性伸缩，为海量数据而生的分布式大文件存储系统。它运行于通用廉价商用服务器集群上，具有自动容错功能，支持大量客户端的并发访问。

02

Flink核心概念之有状态的流式处理

虽然数据流中的许多操作一次只查看一个单独的事件（例如事件解析器），但有些操作会记住跨多个事件的信息（例如窗口操作符）。这些操作称为有状态的。

02

浅谈TimesTen内存数据库的结构

作者介绍朱亮云和恩墨技术专家，6年专职oracle dba生涯先后服务于保险、金融、电信、百货等客户 Oracle TimesTen In-Memory Database（简称TimesTen或

08

对参数FAST_START_MTTR_TARGET = 0 的误解及设定

--===============================================

03

Flink 内部原理之数据流容错

Apache Flink提供了一个容错机制来持续恢复数据流应用程序的状态。该机制确保即使在出现故障的情况下，程序的状态也将最终反映每条记录来自数据流严格一次exactly once。请注意，有一个开关可以降级为保证至少一次(least once)（如下所述）。

02

Flink 内部原理之分布式运行环境

在分布式运行中，Flink将算子(operator) SubTask 连接成 Task。每个 Task 都只由一个线程执行。将算子链接到 Task 是一个很有用处的优化：它降低了线程间切换和缓冲的开销，并增加了整体吞吐量，同时降低了延迟。链接行为可以在API中配置。

04

【DB笔试面试532】在Oracle中，什么是检查点？如何调优检查点？

在Oracle数据库系统中，写日志和写数据文件是数据库中消耗I/O较大的两种操作。在这两种操作中，写数据文件属于分散写，写日志文件是顺序写，因此为了保证数据库的性能和数据的安全，通常数据库都是在提交（COMMIT）完成之前要先保证Redo日志条目都被写入到日志文件中，才会给用户反馈提交完成的通知（Commit complete.），而保存在Buffer Cache中的脏块会不定期地、分批地写入到数据文件中。也就是说，日志写入和提交操作是同步的，而数据写入和提交操作是不同步的，修改的数据并不是在用户提交后就立马写入数据文件中。这样就存在一个问题，当数据库崩溃的时候并不能保证Buffer Cache里面的脏数据全部写入到数据文件中，那么在实例启动的时候就要使用日志文件进行恢复操作，将数据库恢复到崩溃之前的状态，从而保证数据的一致性。那怎么确定该从何时、从哪里开始恢复呢，Oracle使用了检查点（Checkpoint）来进行确定。

02

在Oracle中，什么是检查点？如何调优检查点？

在Oracle数据库系统中，写日志和写数据文件是数据库中消耗I/O较大的两种操作。在这两种操作中，写数据文件属于分散写，写日志文件是顺序写，因此为了保证数据库的性能和数据的安全，通常数据库都是在提交（COMMIT）完成之前要先保证Redo日志条目都被写入到日志文件中，才会给用户反馈提交完成的通知（Commit complete.），而保存在Buffer Cache中的脏块会不定期地、分批地写入到数据文件中。也就是说，日志写入和提交操作是同步的，而数据写入和提交操作是不同步的，修改的数据并不是在用户提交后就立马写入数据文件中。这样就存在一个问题，当数据库崩溃的时候并不能保证Buffer Cache里面的脏数据全部写入到数据文件中，那么在实例启动的时候就要使用日志文件进行恢复操作，将数据库恢复到崩溃之前的状态，从而保证数据的一致性。那怎么确定该从何时、从哪里开始恢复呢，Oracle使用了检查点（Checkpoint）来进行确定。

05

【基础知识】Oracle核心进程（PMON、SMON、DBWn、LGWR、CKPT）

本文主要总结的是五个核心后台进程（PMON、SMON、CKPT、DBWn、LGWR），理解这些进程的概念是Oracle学习的内功，是TroubleShooting和优化的基础，以下内容参考了Oracle编程艺术、官方文档Concept、OCP考试指南及行业大牛的总结。不到位的地方，请务必指出。

05

Flink状态管理与Checkpoint实战——模拟电商订单计算过程中宕机的场景，探索宕机恢复时如何精准继续计算订单

为了模拟生产环境中实时产生的订单数据，这里我们自己定义一个数据源来源源不断的产生模拟订单数据

04

防止在训练模型时信息丢失用于TensorFlow、Keras和PyTorch的检查点教程

如果你玩过电子游戏，你就会明白为什么检查点（chekpoint）是有用的了。举个例子，有时候你会在一个大Boss的城堡前把你的游戏的当前进度保存起来——以防进入城堡里面就Game Over了。机器学

05

PostgreSQL中的预写式日志

预写式日志write ahead log，是数据库保证数据完整性的重要数据结构。数据库管理器将数据库发生的变更记录写入wal日志缓冲区，进而写入wal日志文件中，在数据库崩溃时利用wal日志进行重演恢复，这几乎是所有数据库的统一实现原理。

06

【连载】如何掌握openGauss数据库核心技术？秘诀三：拿捏存储技术（3）

前面提到，行存储是一个基于磁盘的存储引擎。为了避免IO的高昂开销，存储引擎会缓存一部分页面在内存中，便于随时对其进行检索和更改。存储引擎会对缓存的页面进行筛选、替换和淘汰，保证留存在缓存的页面能够提高整个引擎的执行效率。

01

pg之CheckPoint机制

checkpoint又名检查点，一般checkpoint会将某个时间点之前的脏数据全部刷新到磁盘，以实现数据的一致性与完整性。目前各个流行的关系型数据库都具备checkpoint功能，其主要目的是为了缩短崩溃恢复时间，以Oracle为例，在进行数据恢复时，会以最近的checkpoint为参考点执行事务前滚。而在WAL机制的浅析中，也提过PostgreSQL在崩溃恢复时会以最近的checkpoint为基础，不断应用这之后的WAL日志。

08

总搞不懂区块链各共识机制的优缺点？来听听这位十多年经验技术老兵的吐血分享吧！

2018区块链技术及应用峰会 (BTA)·中国倒计时5天 2018，想要follow最火的区块链技术？你还差一场严谨纯粹的技术交流会——2018区块链技术及应用峰会(BTA)·中国将于2018年3月

07

用例覆盖度不高怎么办？我来这么想

1、子功能子功能是指将一个较大的功能，拆分为N个小功能，例如简单的登录/注册功能，可以拆分为登录功能和注册功能。 2、检查点检查点是指每一个子功能或者子子功能中需要检查的内容，是实实在在看得见的内容，如子功能弹出弹窗的检查点有弹窗出现时机、弹窗消失时机、弹窗文案等。 3、影响因素影响因素是指对每一个检查点起到作用的因素，如系统设置、网络、数据类型等。

01

Java设计模式（十九）----备忘录模式

备忘录模式一、概念二、结构三、分类 1.”白箱”备忘录模式的实现 2.“黑箱”备忘录模式的实现 3.“多重”检查点 4.”自述历史”模式引子我们在编程的时候，经常需要保存对象的中间状态，当需要的时候，可以恢复到这个状态。比如，我们使用Eclipse进行编程时，假如编写失误（例如不小心误删除了几行代码），我们希望返回删除前的状态，便可以使用Ctrl+Z来进行返回。下象棋的时候，可以反悔。这时我们便可以使用备忘录模式来实现。定义在不破坏封装性的前提

09

PG技术大讲堂 - 第14讲：PostgreSQL 检查点

PostgreSQL从小白到专家，是从入门逐渐能力提升的一个系列教程，内容包括对PG基础的认知、包括安装使用、包括角色权限、包括维护管理、、等内容，希望对热爱PG、学习PG的同学们有帮助，欢迎持续关注CUUG PG技术大讲堂。

03

InnoDB克隆和页面跟踪

首先，我们将讨论支持InnoDB克隆技术的一些内部产品。MySQL企业版备份（MEB）是一种企业级产品，可为MySQL提供备份和恢复。在各种类型的备份中，我们关注下面两种类型：

01

Postgresql之CheckPoint机制

checkpoint又名检查点，一般checkpoint会将某个时间点之前的脏数据全部刷新到磁盘，以实现数据的一致性与完整性。目前各个流行的关系型数据库都具备checkpoint功能，其主要目的是为了缩短崩溃恢复时间，以Oracle为例，在进行数据恢复时，会以最近的checkpoint为参考点执行事务前滚。而在WAL机制的浅析中，也提过PostgreSQL在崩溃恢复时会以最近的checkpoint为基础，不断应用这之后的WAL日志。

00

Oracle 实例恢复

Oracle实例失败多为实例非一致性关闭所致，通常称为崩溃(crash)。实例失败的结果等同于shutdown abort。

05

flink分析之Task的生命周期

之前有想过系统地来一番flink源码分析系列，谁曾想工作中需要完成的需求有些多，完整的flink源码分析系列只能一再往后拖了。之前公众号后台有想学习flink的朋友留言想看更多学习flink的资料，现在先发一些之前收藏的关于flink相关的文章，其中大多翻译自flink社区，希望能给大家带来一些帮助。本文[1]主要围绕flink任务的生命周期展开。

04

技术分享 | 从库 MTS 多线程并行回放（二）

这一节会先描述 MTS 的工作线程执行 Event 的大概流程。然后重点描述一下 MTS 中检查点的概念。在后面的第 25 节我们可以看到，MTS 的异常恢复很多情况下需要依赖这个检查点，从检查点位置开始扫描 relay log 做恢复操作，但是在 GTID AUTO_POSITION MODE 模式且设置了 recovery_relay_log=1 的情况下这种依赖将会弱化。

01

tf.train.Saver

Saver类添加ops来在检查点之间保存和恢复变量，它还提供了运行这些操作的方便方法。检查点是私有格式的二进制文件，它将变量名映射到张量值。检查检查点内容的最佳方法是使用保护程序加载它。保护程序可以自动编号检查点文件名与提供的计数器。这允许您在训练模型时在不同的步骤中保持多个检查点。例如，您可以使用训练步骤编号为检查点文件名编号。为了避免磁盘被填满，保护程序自动管理检查点文件。例如，他们只能保存N个最近的文件，或者每N个小时的培训只能保存一个检查点。通过将一个值传递给可选的global_step参数以保存()，可以对检查点文件名进行编号:

02

利用本地检查点和部分检查点快速重启MySQL NDB Cluster

MySQL NDB Cluster团队致力于NDB架构核心部分的基础重新设计。这些更改之一是部分检查点算法。现在，用户可以充分利用它构建更大的集群，NDB 8.0可以在每个数据节点上使用16 TB的内存表，也可以使用磁盘数据构建3副本5 PB的集群。

01

聊聊Flink必知必会(七)

虽然数据流中的许多操作一次只查看一个单独的事件（例如事件解析器），但某些操作会记住多个事件的信息（例如窗口算子）。这些操作称为有状态的(stateful)。

01

Flink大状态与Checkpint调优

第一部分讨论如何大规模执行checkpoint。最后一部分解释了一些关于规划要使用多少资源的最佳实践。

03

Flink1.13架构全集| 一文带你由浅入深精通Flink方方面面（二）

之前所介绍的流处理API，无论是基本的转换、聚合，还是更为复杂的窗口操作，其实都是基于DataStream进行转换的；所以可以统称为DataStream API，这也是Flink编程的核心。而我们知道，为了让代码有更强大的表现力和易用性，Flink本身提供了多层API，DataStream API只是中间的一环，如图所示：

03

torch.utils.checkpoint

在反向传播期间通过对每个检查分割运行一个前向传递分割来实现。这可能导致RNG状态等持久状态比没有检查点时更高级。默认情况下，检查点包含切换RNG状态的逻辑，这样使用RNG(例如通过dropout)的检查点通过与非检查点通过相比具有确定性的输出。根据检查点操作的运行时间，存储和恢复RNG状态的逻辑可能会导致适度的性能下降。如果不需要与非检查点传递相比的确定性输出，则向检查点或checkpoint_sequential提供preserve_rng_state=False，以省略每个检查点期间的RNG状态的存储和恢复。

01

1902.马拉松(数学思维)

由于该路线设置在市中心，街道呈网格状交错，因此两个检查站点 (x1,y1) 与 (x2,y2) 之间的距离应该为 |x1−x2|+|y1−y2|。

03

数据库PostrageSQL-WAL配置

有几个WAL相关的配置参数会影响数据库性能。本节将解释它们的使用。关于服务器配置参数的设置的一般信息请参考Chapter 19。

02

基于check-point实现图数据构建任务

从关系数据库抽取图数据，需要考虑的一个场景是新增数据的处理【其中任务状态的依赖与数据依赖关系非常重要】。从一个自动化抽取图数据的工具角度来说，自动化生成脚本可以与如下实现完成对接【即设计好schema之后自动生成如下脚本】。该设计方案可以与自动化抽取图数据的工具无缝集成。在现有的Airflow调度系统中【可以自行实现调度逻辑或者可以是其它的调度系统，本文的设计思路可以借鉴】，可以设计Task和DAG来完整增量数据的处理，完成线上数据的持续更新需求。在构建TASK时，按照图数据的特点设计了节点TASK和关系TASK，并在同一个DAG中执行调度。【DAG的设计可以是某一类业务数据的处理流程】在下面的案例中主要展示了担保关系图数据的构建设计。

02

HDFS工作机制和原理

HDFS是一种分部式的文件系统，在他出现以前就已经存在了很多中分布式文件系统，但是他们都是部署在服务器上，需要高的POSIX接口，同时他们默认服务器是稳定的可以提供大量资源。

01

Flink分布式运行时环境

Flink对分布式任务的执行操作，它是把操作子任务链起来放到任务中。每个任务由一个线程来执行。把操作链起来放入任务中是非常好的一个优化：它可以减少线程间交互和缓存的开销，减少延迟的同时提升整体的吞吐量。链操作的方式是可以配置的，在链操作文档中有详细的介绍chaining docs 。

03

相克军_Oracle体系_随堂笔记009-检查点队列

on disk rba 重做日志(current redo log)中最后一条日志的地址

03

《Elasticsearch 源码解析与优化实战》第6章：数据模型

Elasticsearch（ES）可用于全文检索、日志分析、指标分析、APM等众多场景，而且搭建部署容易，后期弹性扩容、故障处理简单。ES在一定程度上实现了一套系统支持多个场景的希望，大幅度降低使用多套专用系统的运维成本（当然ES不是万能的，不能满足事务等场景）。正是因为其通用性和易用性，ES自2010年发布首个版本以来得到爆发式的发展，广泛应用于各类互联网公司的不同业务场景。

01

UFT（QTP）-总结点与自动化测试框架

随着自动化测试技术的发展，新兴的开源自动化测试工具崛起，例如：Selenium、Cypress等。但是老牌的自动化测试工具也在不断的更新与迭代，本篇介绍一下作者之前在使用UFT（QTP）时的一些总结。

02

使用 Apache Flink 开发实时ETL

场景描述：本文将介绍如何使用 Flink 开发实时 ETL 程序，并介绍 Flink 是如何保证其 Exactly-once 语义的。

03

1902.马拉松(数学思维)

由于该路线设置在市中心，街道呈网格状交错，因此两个检查站点 (x1,y1) 与 (x2,y2) 之间的距离应该为 |x1−x2|+|y1−y2|。

02

《基于Apache Flink的流处理》读书笔记

前段时间详细地阅读了《Apache Flink的流处理》这本书，作者是 Fabian Hueske&Vasiliki Kalavri，国内崔星灿翻译的，这本书非常详细、全面得介绍了Flink流处理，并且以气象数据的例子讲解其中的使用，我把其中一些比较重要的句子做了比较，并且分享给大家。有一些我不是很理解，需要以后慢慢去消化，我就不做详细的展开。

02

Hyper-V虚拟机自动添加检查点和导出备份

大部分基本上都是用于内部研究、测试等场景，但是为了避免很多麻烦，必要的备份还是必须的。

02

Spark Core源码精读计划20 | RDD检查点的具体实现

RDD检查点（Checkpoint）是Spark Core计算过程中的容错机制。通过将RDD的数据与状态持久化，一旦计算过程出错，就可以从之前的状态直接恢复现场，而不必从头重算，大大提高了效率与可靠性。本文从之前已经研究过的RDD类入手，探索一下检查点的具体实现。

02

详解MySQL的Redo日志与Undo日志

本文分两部分，第一部分概念介绍，重在理解。第二部分通过MySQL Innodb中的具体实现，加深相关知识的印象。本文的原意是一篇个人学习笔记，为了避免成为草草记录一下的流水账，尝试从给人介绍的角度开写。但在整理的过程中，越来越感觉力不从心，一是细节太多了，原以为足够了解的一个小知识点下可能隐藏了很多细节；二是内容与范围的取舍，既想有点技术性避免空谈，又不想陷入枯燥冗长的小细节描述。几番折腾，目前的想法把坑填上，能写完就不错了，你读起来有不顺或错误的地方请见谅，欢迎反馈。

02

Flink如何实现端到端的Exactly-Once处理语义

这篇文章改编自2017年柏林Flink Forward上Piotr Nowojski的演讲。你可以在Flink Forward Berlin网站上找到幻灯片和演示文稿。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭