我正在尝试使用sdfs(Vm上的Ubuntu13.10)来消除重复。
(http://opendedup.org/quickstart)遵循与以下相同的步骤
将文件系统挂载在/media/pool0 0/
当复制包含一些类似pdf的目录时,它不会删除重复的内容,并且文件夹的大小与原始的相同。
原始目录大小1.6G /工作表/ 1.6G总计
Sdfs目录大小为1.7G /media/pool0 0/Worksheet/1.7Gtota
在SDFS卷中是否有任何特定的命令来启用去重复功能。或者将引渡应用于我们复制到卷中的文件。?
some1也能解释一下sdfs文件系统是如何工作的吗?
提前感谢
发布于 2014-09-21 08:23:05
在sdfs
中,有两种消除重复的方法:
所以对于你的数据,
只是没有脱衣舞!
不过,我还是希望它能很好地处理他们想要支持的数据:
来自2.0版管理指南:
固定块和可变块去重复SDFS可以同时执行固定和可变块去重复。固定块去叠取固定的数据块并对这些块进行散列。可变块去重复试图在数据流中找到自然的断点,在这些断点上创建可变块。固定块去重复在SDFS中在卷定义的固定字节缓冲区中执行。这些固定块是在创建卷时定义的,默认设置为4k,但可以设置为最大值128 k。固定块去重复对于运行VMDK或数据库之类的活动结构化数据非常有用。固定块去重复操作简单,因此对于大多数应用程序来说都是非常快速的。可变块去重叠是使用Rabin窗口边界(http://en.wikipedia.org/wiki/Rabin_指纹)执行的。SDFS使用128 k的固定缓冲区,然后在该缓冲区中运行滚动散列以查找自然中断。变量块的最小大小为4k,最大大小为128 k。可变块去重复非常适合在非结构化数据(如未压缩的tar文件和文档)中查找去重复块。可变块去重叠通常会创建10k-16k的块。这使得在4k块大小下执行可变块去重复比固定块去重复更具有可伸缩性。可变块去重复的缺点是,它可能是计算密集型的,有时写入处理较慢。只有在使用--散列类型= Variable _MURMUR3 3创建卷时,才能启用可变块删除。
https://askubuntu.com/questions/411375
复制相似问题