专栏首页arxiv.org翻译专栏基于算法共轭梯度法的检点恢复方法CS Distributed, Parallel, and Cluster Computing
原创

基于算法共轭梯度法的检点恢复方法CS Distributed, Parallel, and Cluster Computing

随着计算机达到外星量级和更高的水平,故障的发生率将会增加。这个问题的解决方案是一个积极的研究课题。我们专注于使先决共轭梯度(PCG)求解器对节点故障具有弹性的策略,特别是利用PCG中的冗余的精确状态重建(ESR)方法。

降低冗余信息的存储频率可以减少运行时开销。然而,在节点故障后,求解器必须从存储冗余信息的最后一次迭代开始重新启动,这增加了恢复开销。这种表述突出了该方法与检查点重启(CR)的相似性。因此,这种方法,我们称之为周期性存储的ESR(ESRP),可以认为是一种基于算法的检查点重启的形式。状态是通过利用算法固有的冗余隐式存储的,而不是像CR那样显式存储。与CR相比,我们还最大限度地减少了需要存储和检索的数据量,但需要额外的计算来重建求解器的状态。在本文中,我们描述了对ESR进行必要的修改以将其转换为ESRP,并进行了实验评估。

我们对ESRP与之前存在的ESR和应用级内存CR进行了实验比较。我们的结果证实,无论是在无故障的情况下,还是在引入节点故障的情况下,ESR的开销都显著降低。在前一种情况下,ESRP的开销通常比CR的开销低。然而,如果发生节点故障,CR的速度更快。我们声称,这些差异可以通过实现更合适的前置条件器来缓解。

原文题目:Algorithm-Based Checkpoint-Recovery for the Conjugate Gradient Method

原文:As computers reach exascale and beyond, the incidence of faults will increase. Solutions to this problem are an active research topic. We focus on strategies to make the preconditioned conjugate gradient (PCG) solver resilient against node failures, specifically, the exact state reconstruction (ESR) method, which exploits redundancies in PCG.

Reducing the frequency at which redundant information is stored lessens the runtime overhead. However, after the node failure, the solver must restart from the last iteration for which redundant information was stored, which increases recovery overhead. This formulation highlights the method's similarities to checkpoint-restart (CR). Thus, this method, which we call ESR with periodic storage (ESRP), can be considered a form of algorithm-based checkpoint-restart. The state is stored implicitly, by exploiting redundancy inherent to the algorithm, rather than explicitly as in CR. We also minimize the amount of data to be stored and retrieved compared to CR, but additional computation is required to reconstruct the solver's state. In this paper, we describe the necessary modifications to ESR to convert it into ESRP, and perform an experimental evaluation.

We compare ESRP experimentally with previously-existing ESR and application-level in-memory CR. Our results confirm that the overhead for ESR is reduced significantly, both in the failure-free case, and if node failures are introduced. In the former case, the overhead of ESRP is usually lower than that of CR. However, CR is faster if node failures happen. We claim that these differences can be alleviated by the implementation of more appropriate preconditioners.

原文作者:Carlos Pachajoa, Christina Pacher, Markus Levonyak, Wilfried N. Gansterer

原文地址:https://arxiv.org/abs/2007.04066

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 学会在未知需求的情况下对车辆服务进行定价(CS GT)

    车辆服务提供者根据用户对不同出发地和目的地的出行需求来确定服务价格,可能会有利可图。之前关于车辆服务空间定价的研究都是基于供应商知道用户需求的假设。在本文中,我...

    Rosalie
  • 多边形中最大的三角形(CS CG)

    我们研究了如何寻找可以在平面中多边形内接的最大面积三角形的问题。 我们考虑了该问题的八个版本:我们使用凸多边形或简单多边形作为容器;我们要求三角形的一个角具有固...

    Rosalie
  • 分区着色问题的复杂性(CS CC)

    给定一个简单的无定向图G=(V,E),并将顶点集V分成p个部分,分区着色问题为如何从分区的每个部分中选择一个顶点,使p个被选择的顶点上诱导的子图的色数受k的约束...

    Rosalie
  • Knapsack problem algorithms for my real-life carry-on knapsack

    I'm a nomad and live out of one carry-on bag. This means that the total weight o...

    李海彬
  • 基于双眼视觉的高精度无人机目标定位系统(CS CV)

    在工作过程中,无人驾驶车辆常常需要高精度地定位目标。在无人材料搬运车间中,无人车辆需要对工件进行高精度的姿态估计以准确地抓住工件。在此背景下,本文提出了一种基于...

    gaowanting
  • Write your own Excel in 100 lines of F#

    I've been teaching F# for over seven years now, both in the public F# FastTrack ...

    仇诺伊
  • 【量化精品】通过LSTM神经网络进行时序预测针对股票市场(附Python源码)

    阅读原文 Neural Networks these days are the “go to” thing when talking about new fad...

    量化投资与机器学习微信公众号
  • 卷积神经网络在艺术图像中的迁移学习分析(CS CV)

    从巨大的自然图像数据集中转移学习,深度神经网络的微调和使用相应的预训练网络已经成为事实上的艺术分析应用的核心。然而,人们对迁移学习的影响仍然知之甚少。在本文中,...

    凌茜
  • 学界 | 百度提出问答模型GNR:检索速度提高25倍

    选自Baidu Research 作者:Jonathan Raiman & John Miller 机器之心编译 参与:刘晓坤、李泽南、蒋思源 近日,百度人工智...

    机器之心
  • Pytorch分布式训练错误

    subprocess.CalledProcessError: Command ‘[’/home/labpos/anaconda3/envs/idr/bin/py...

    于小勇

扫码关注云+社区

领取腾讯云代金券