专栏首页arxiv.org翻译专栏所有参数的最优线性 MDS 可转换编码(CS IT)
原创

所有参数的最优线性 MDS 可转换编码(CS IT)

在大规模分布式存储系统中,擦除代码被用来实现面对节点故障时的容错。事实证明,根据观察到的故障率调整代码参数可以显著降低存储成本。这种冗余度的调整需要 "代码转换",即在已经编码的数据上改变代码的尺寸和长度。可转换码是一类新的代码,旨在有效地进行这种转换。转换的访问成本是指转换过程中访问的节点数。 现有的文献只对线性 MDS 可转换码的转换的访问成本进行了表征,只针对特定的、小的参数子集。在本文中,我们提出了所有有效参数的线性 MDS 码转换的访问成本的下限。此外,我们通过提出对所有有效参数的线性 MDS 可转换码的访问优化的明确构造,证明这些下限是紧密的。在此过程中,我们证明了在之前研究的参数体系中,可转换码设计中的一个自由度并不重要,但当超越这些体系时,自由度就变得至关重要,并增加了分析和代码构建中的挑战。

原文题目:Access-optimal Linear MDS Convertible Codes for All Parameters

原文:In large-scale distributed storage systems, erasure codes are used to achieve fault tolerance in the face of node failures. Tuning code parameters to observed failure rates has been shown to significantly reduce storage cost. Such tuning of redundancy requires "code conversion", i.e., a change in code dimension and length on already encoded data. Convertible codes are a new class of codes designed to perform such conversions efficiently. The access cost of conversion is the number of nodes accessed during conversion. Existing literature has characterized the access cost of conversion of linear MDS convertible codes only for a specific and small subset of parameters. In this paper, we present lower bounds on the access cost of conversion of linear MDS codes for all valid parameters. Furthermore, we show that these lower bounds are tight by presenting an explicit construction for access-optimal linear MDS convertible codes for all valid parameters. En route, we show that, one of the degrees-of-freedom in the design of convertible codes that was inconsequential in the previously studied parameter regimes, turns out to be crucial when going beyond these regimes and adds to the challenge in the analysis and code construction.

原文作者:Francisco Maturana, V. S. Chaitanya Mukka, K. V. Rashmi

原文地址:https://arxiv.org/abs/2006.03042

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 分布式学习中用于抑制散乱的高效梯度编码(CS IT)

    基于梯度的方法的分布式实现,其中服务器在工作机之间分配梯度计算,需要克服两个限制:由运行缓慢的机器(称为“散列器”)引起的延迟和通信开销。最近,Ye和Abbe[...

    蔡秋纯
  • CephFS 介绍及使用经验分享

    消息: Client name failing to respond to cache pressure

    Lucien168
  • Ceph MDS States状态详解

    元数据服务器(MDS)在CephFS的正常操作过程中经历多个状态。例如,一些状态指示MDS从MDS的先前实例从故障转移中恢复。在这里,我们将记录所有这些状态,并...

    Lucien168
  • Ceph最新的EC-CLAY插件调研-上

    Clay Codes ( Clay Codes: Moulding MDS Codes to Yield an MSR Code ) 是FAST18 上提出的一...

    用户1260683
  • 【Scikit-Learn 中文文档】流形学习 - 监督学习 - 用户指南 | ApacheCN

    中文文档: http://sklearn.apachecn.org/cn/stable/modules/manifold.html 英文文档: http:/...

    片刻
  • Ceph MDS问题分析

    消息: “Client name failing to respond to cache pressure” 代码: MDS_HEALTH_CLIENT_R...

    Lucien168
  • 海量小文件场景下训练加速优化之路

    ? 作者:星辰算力平台 1. 背景 随着大数据、人工智能技术的蓬勃发展,人类对于算力资源的需求也迎来大幅度的增长。在腾讯内部,星辰算力平台以降本增效为目标,整...

    腾讯技术工程官方号
  • 用Python实现PCA和MDA降维和聚类

    降维和聚类算是无监督学习的重要领域,还是那句话,不论是PCA、MDA还是K-means聚类,网上大牛总结的杠杠的,给几个参考链接: http://www....

    机器学习AI算法工程
  • CENTOS7手动安装CEPH 原

    1.配置你的hostname 你不要搞奇葩的hostname,奇葩的hostname就可能有奇葩的问题,你就老实的node1,这种的字母加数字 centos...

    domain0
  • mds元信息缓存不释放问题

    跟踪代码发现num_caps就是统计的客户端的inode数量, 大概统计了下已经打开的inode数量。

    Lucien168
  • 非线性降维方法 Isomap Embedding

    Isomap Embedding 等距特征映射是一种新颖,高效的非线性降维技术,它的一个突出优点是只有两个参数需要设定,即邻域参数和嵌入维数.

    deephub
  • ceph-mimic版

    Ceph使用RADOS提供对象存储,通过librados封装库提供多种存储方式的文件和对象转换。外层通过RGW(Object,有原生的API,而且也兼容Swif...

    yuezhimi
  • kubernetes(十九) Ceph存储入门

    Ceph是当前非常流行的开源分布式存储系统,具有高扩展性、高性能、高可靠性等优点,同时提供块存储服务(rbd)、对象存储服务(rgw)以及文件系统存储服务(ce...

    alexhuiwang
  • Python机器学习数据降维及其可视化

    机器学习在数据分析与挖掘中的应用越来越广泛,随着机器学习模型的不断发展,处理的数据量和数据维度越来越大,衡量模型性能和可视化数据信息变得至关重要。一般来说用于挖...

    深度学习与Python
  • R语言多元分析系列

    系列之一:主成分分析 主成分分析(principal components analysis, PCA)是一种分析、简化数据集的技术。它把原...

    机器学习AI算法工程
  • 尝试用微博记录 SQL Server 2012开发者训练营笔记

    花了2天时间参加微软的SQL Server 2012开发者训练营,全面的学习了SQL Server 2012上面的新特性,尝试使用微博做笔记。现在把它摘录到博客...

    张善友
  • Nat. Biotechnol | PHATE:高维生物数据的可视化方法

    高维生物数据的可视化能帮助研究者以直观的方式了解数据。今天介绍2019年12月发表在Nature Biotechnology的可视化工作。

    DrugAI
  • Linux内核之旅/张凯捷——系统调用分析(2)

    在《系统调用分析(1)》Linux内核之旅/张凯捷——系统调用分析(1)中,首先介绍了系统调用的概念,并对早期通过软中断(int 80)来进行系统调用的...

    Linux阅码场
  • R语言实现常用的5种分析方法(主成分+因子+多维标度+判别+聚类)

    R语言多元分析系列之一:主成分分析 主成分分析(principal components analysis, PCA)是一种分析、简化数据集的技术。它把原始数据...

    CDA数据分析师

扫码关注云+社区

领取腾讯云代金券