文章/答案/技术大牛

发布

社区首页 >问答首页 >使用SDFS文件系统的去重复

问使用SDFS文件系统的去重复
EN

Ask Ubuntu用户

提问于 2014-01-27 04:42:49

回答 1查看 2.9K关注 0票数 3

我正在尝试使用sdfs(Vm上的Ubuntu13.10)来消除重复。

(http://opendedup.org/quickstart)遵循与以下相同的步骤

将文件系统挂载在/media/pool0 0/

当复制包含一些类似pdf的目录时，它不会删除重复的内容，并且文件夹的大小与原始的相同。

原始目录大小1.6G /工作表/ 1.6G总计

Sdfs目录大小为1.7G /media/pool0 0/Worksheet/1.7Gtota

在SDFS卷中是否有任何特定的命令来启用去重复功能。或者将引渡应用于我们复制到卷中的文件。？

some1也能解释一下sdfs文件系统是如何工作的吗？

提前感谢

filesystem

files

duplicate

13.10

回答 1

Ask Ubuntu用户

发布于 2014-09-21 08:23:05

在sdfs中，有两种消除重复的方法：

固定块去重叠
- 要求对齐块4096字节为相同
- 这种情况不会经常发生在你的数据中。
可变块去重叠
- 还需要4096字节的块是相同的，但它们不需要对齐。
- 我假设您的测试文件(“类似的PDF文件”)只有很少的相等范围，即4096字节或更多。

所以对于你的数据，

只是没有脱衣舞！

不过，我还是希望它能很好地处理他们想要支持的数据：

来自2.0版管理指南：

固定块和可变块去重复SDFS可以同时执行固定和可变块去重复。固定块去叠取固定的数据块并对这些块进行散列。可变块去重复试图在数据流中找到自然的断点，在这些断点上创建可变块。固定块去重复在SDFS中在卷定义的固定字节缓冲区中执行。这些固定块是在创建卷时定义的，默认设置为4k，但可以设置为最大值128 k。固定块去重复对于运行VMDK或数据库之类的活动结构化数据非常有用。固定块去重复操作简单，因此对于大多数应用程序来说都是非常快速的。可变块去重叠是使用Rabin窗口边界(http://en.wikipedia.org/wiki/Rabin_指纹)执行的。SDFS使用128 k的固定缓冲区，然后在该缓冲区中运行滚动散列以查找自然中断。变量块的最小大小为4k，最大大小为128 k。可变块去重复非常适合在非结构化数据(如未压缩的tar文件和文档)中查找去重复块。可变块去重叠通常会创建10k-16k的块。这使得在4k块大小下执行可变块去重复比固定块去重复更具有可伸缩性。可变块去重复的缺点是，它可能是计算密集型的，有时写入处理较慢。只有在使用--散列类型= Variable _MURMUR3 3创建卷时，才能启用可变块删除。

票数 1

页面原文内容由Ask Ubuntu提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://askubuntu.com/questions/411375

复制

相似问题

问使用SDFS文件系统的去重复
EN

回答 1

Ask Ubuntu用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用SDFS文件系统的去重复EN

回答 1

Ask Ubuntu用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用SDFS文件系统的去重复
EN