我在生物信息学领域工作,我们存储了很多从未改变过的大文件--植物基因组,基因组读取等等。我们不断收到这种类型的新数据,我们备份的数量也在激增。
在我看来,一直备份这些大型文件是没有意义的,三、五次就足够了。是否有类似“有状态”备份,其中存储哪些文件已经“安全”(已经在5磁带左右,使用可能的文件散列),然后只备份其余的?
我搜索过什么也没找到。
谢谢!
发布于 2012-05-18 03:28:42
通常,这可以通过增量备份(自上次备份以来备份所有文件)或差异备份(自上次完全备份以来的所有文件)解决。Gnu Tar手册( 5.2和5.3节)简要讨论了这类备份。但是,这并不能解决您需要每个文件的最少副本的问题。
另一种选择是,如果您想在每次备份上获得系统的准确快照,但仍然节省空间,则使用rsync快照备份(对rsync快照进行google搜索,有几篇文章和工具实现了这一点)。基本上,这使用rsync将副本复制到远程系统(或外部驱动器),并对每个备份之间不发生更改的文件使用硬链接,以节省空间。若要获得多个副本,请将备份驱动器同步到另一个备份驱动器。
但是,如果你希望这一切都发生在磁带上,我唯一知道的就是Tivoli的商业备份工具。你可能会研究巴库拉,我认为它也支持保留最少数量的拷贝,但我还没有使用过它。
一些即将上市的东西,是我自己一直在开发的备份工具。在将代码放到github上之前,我需要收集更多的文档并清理代码,但基本上它会执行快照式的增量--永远备份,通过MD5散列跟踪文件,并在每次备份时存储系统外观的快照目录。作为一个副作用,它还会在备份多台主机到单个备份服务器时执行文件级去复制操作。如果您感兴趣,我稍后会回来更新这篇文章,一旦我上传了这个工具的初始版本(假设这并不违反您自己的项目的策略--如果是的话,我很抱歉)。
发布于 2012-05-18 01:13:04
增量备份的某些变体将适用于此。或者,您可以定期保留包含静态数据的存档磁带,以减少每天的备份负载。
发布于 2012-05-18 01:16:23
根据获取文件的日期存储导入的文件。将它们硬链接到您需要使用它们的布局中。备份最近5-7天的目录。
https://serverfault.com/questions/390215
复制相似问题