3.5RDD的容错机制

Albert陈凯

发布于 2018-04-08 10:21:47

5190

发布于 2018-04-08 10:21:47

文章被收录于专栏：Albert陈凯

3.5 RDD的容错机制

RDD实现了基于Lineage的容错机制。RDD的转换关系，构成了compute chain，可以把这个compute chain认为是RDD之间演化的Lineage。在部分计算结果丢失时，只需要根据这个Lineage重算即可。

图3-11中，假如RDD2所在的计算作业先计算的话，那么计算完成后RDD1的结果就会被缓存起来。缓存起来的结果会被后续的计算使用。图中的示意是说RDD1的Partition2缓存丢失。如果现在计算RDD3所在的作业，那么它所依赖的Partition0、1、3和4的缓存都是可以使用的，无须再次计算。但是Partition2由于缓存丢失，需要从头开始计算，Spark会从RDD0的Partition2开始，重新开始计算。

内部实现上，DAG被Spark划分为不同的Stage，Stage之间的依赖关系可以认为就是Lineage。关于DAG的划分可以参阅第4章。

提到Lineage的容错机制，不得不提Tachyon。Tachyon包含两个维度的容错，一个是Tachyon集群的元数据的容错，它采用了类似于HDFS的Name Node的元数据容错机制，即将元数据保存到一个Image文件，并且保存了元数据变化的编辑日志（EditLog）。另外一个是Tachyon保存的数据的容错机制，这个机制类似于RDD的Lineage，Tachyon会保留生成文件数据的Lineage，在数据丢失时会通过这个Lineage来恢复数据。如果是Spark的数据，那么在数据丢失时Tachyon会启动Spark的Job来重算这部分内容。如果是Hadoop产生的数据，那么重新启动相应的Map Reduce Job就可以。现在Tachyon的容错机制的实现还处于开发阶段，并不推荐将这个机制应用于生产环境。不过，这并不影响Spark使用Tachyon。如果Spark保存到Tachyon的部分数据丢失，那么Spark会根据自有的容错机制来重算这部分数据。

[插图]

图3-11 RDD的部分缓存丢失的逻辑图

3.6 小结

RDD是Spark最基本，也是最根本的数据抽象。RDD是只读的、分区记录的集合。RDD只能基于在稳定物理存储中的数据集和其他已有的RDD上执行确定性操作来创建。这些确定性操作称为转换，如map、filter、groupBy、join。RDD支持丰富的转换操作，极大地简化了用户应用的编写。

RDD不需要物化。RDD含有如何从其他RDD衍生（即计算）出本RDD的相关信息（即Lineage），据此在RDD部分分区数据丢失时可以通过物理存储的数据计算出相应的RDD分区。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2017.07.12 ，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

3.5RDD的容错机制

3.5RDD的容错机制

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐