首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

新算法Derrick:DNA数字存储,纠错能力加倍!| NSR

近日,中国农业科学院深圳农业基因组研究所研究团队在《国家科学评论》(National Science Review,NSR)发表论文,利用构建的DNA数字存储中的精确错误模型融入纠错码解码开发了软判决译码软件Derrick,使纠错数量提高至硬判决的2倍,突破了DNA数字存储的纠错能力上限。特别是,该方法可应用于便携设备的高错误率环境下,并真正实现超大规模数据存储(如BrontoByte规模),对DNA数字存储的未来发展具有重要意义。

大数据时代下,传统存储设备已经无法满足海量数据存储的需求。DNA数字存储具有存储密度高(EB/g)、存储寿命长(百万年)、维护成本低等优势,被视为极具潜力的存储技术。然而相较于传统存储,DNA数字存储过程中错误率较高、错误类型多样,为数据的准确恢复带来了挑战。

前人研究将这些错误视为随机错误,仅能进行硬判决纠错,导致纠错能力受限于加入的冗余信息。然而,DNA的合成和测序存在错误偏好性,若将其合理利用能有效提升纠错效率。该研究探索了DNA存储过程中的错误偏好性,构建出错误预测模型,辅助现有纠错技术,并加入一系列创新的纠错策略,成功打破了冗余对纠错能力的限制,开发了软判决译码软件Derrick

Derrick纠错算法概览

研究团队通过一系列创新的策略,实现了高效且鲁棒的软判决译码:

在编码时,采用了该领域最常用的RS纠错码和CRC64校验码。

在解码阶段,通过对测序序列做多序列比对,便捷地建立了错误预测模型。具体而言,根据多序列比对中每个碱基在多条序列上的支持度,作为碱基的可信度,可信度越低则该碱基更可能是错误的碱基。与硬判决解码时每一单位错误需要消耗2单位的逻辑冗余相比,在软判决纠错中,预测出错误位置将纠错所需的逻辑冗余降低一半,进一步地预测出错误位置的真值将直接进行纠正,从而消耗的逻辑冗余为0。因此,理论上能将纠错能力提升至信息极限

由于错误预测集包含假阳性,Derrick通过迭代搜索直到解码成功或者超时。

Derrick还包含每次解码成功后的移位算法,以应对DNA存储中特殊的插入和删除错误。(插入和删除若不及时修正,会导致序列中碱基位置偏移,之后的信息可能大片段出错,移位算法有效解决这个问题。)

为进一步校验纠错后的数据,采用了CRC64校验回溯算法。(RS纠错也可能存在假阴性情况,通过CRC64校验可以检测到此类错误,并通过回溯算法进行错误识别,直到再次解码成功或超时。)

在湿试验中,研究团队成功存储了5.2 MB的信息。在文件读取过程中,采用Derrick解码方案,实际纠错数量相较于硬判决方式提升了两倍。实现准确信息恢复所需的测序深度仅为4×(应用Illumina测序)和8×(应用Nanopore测序),信息密度达到1.56 bit/bp。综合考虑测序成本和信息密度的优势,该研究达到了此领域最高水平。

进一步的统计预测的结果显示,相较于硬判决方式,Derrick将无损存储容量提升了近5个数量级。为进一步测试Derrick在更多文件类型上的效果,研究团队使用了一个包含视频、图片、软件等多种文件类型的数据集,总计11.7 MB,进行了编码、模拟合成和PacBio CLR测序,以及解码。11种不同码率的测试试验结果均展示了Derrick的优越性能,并为设计DNA存储试验时如何选择适合当前数据量和错误率的码率提供了详细指导。

Derrick为实现高存储容量和抗高错误率的数据存储提供了新的见解和解决方案。此外,对于应用在DNA数字存储上的纠错技术,该研究是从原理上进行的改进,以往研究中的纠错方法,都可以加入新提出的软判决策略,以大幅提升纠错能力

Derrick软件免费开放使用:(网址)

中国农业科学院深圳农业基因组研究所阮珏研究员和潘玮华研究员为该论文通讯作者,博士毕业生丁璐璐、科研助理伍世刚、客座硕士毕业生侯志浩为该论文共同第一作者

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OGpfk4kYUHBp4u1ES_yi-wFA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券