首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用SDFS文件系统的去重复

使用SDFS文件系统的去重复
EN

Ask Ubuntu用户
提问于 2014-01-27 04:42:49
回答 1查看 2.9K关注 0票数 3

我正在尝试使用sdfs(Vm上的Ubuntu13.10)来消除重复。

(http://opendedup.org/quickstart)遵循与以下相同的步骤

将文件系统挂载在/media/pool0 0/

当复制包含一些类似pdf的目录时,它不会删除重复的内容,并且文件夹的大小与原始的相同。

原始目录大小1.6G /工作表/ 1.6G总计

Sdfs目录大小为1.7G /media/pool0 0/Worksheet/1.7Gtota

在SDFS卷中是否有任何特定的命令来启用去重复功能。或者将引渡应用于我们复制到卷中的文件。?

some1也能解释一下sdfs文件系统是如何工作的吗?

提前感谢

EN

回答 1

Ask Ubuntu用户

发布于 2014-09-21 08:23:05

sdfs中,有两种消除重复的方法:

  • 固定块去重叠
    • 要求对齐块4096字节为相同
    • 这种情况不会经常发生在你的数据中。

  • 可变块去重叠
    • 还需要4096字节的块是相同的,但它们不需要对齐。
    • 我假设您的测试文件(“类似的PDF文件”)只有很少的相等范围,即4096字节或更多。

所以对于你的数据,

只是没有脱衣舞!

不过,我还是希望它能很好地处理他们想要支持的数据:

来自2.0版管理指南

固定块和可变块去重复SDFS可以同时执行固定和可变块去重复。固定块去叠取固定的数据块并对这些块进行散列。可变块去重复试图在数据流中找到自然的断点,在这些断点上创建可变块。固定块去重复在SDFS中在卷定义的固定字节缓冲区中执行。这些固定块是在创建卷时定义的,默认设置为4k,但可以设置为最大值128 k。固定块去重复对于运行VMDK或数据库之类的活动结构化数据非常有用。固定块去重复操作简单,因此对于大多数应用程序来说都是非常快速的。可变块去重叠是使用Rabin窗口边界(http://en.wikipedia.org/wiki/Rabin_指纹)执行的。SDFS使用128 k的固定缓冲区,然后在该缓冲区中运行滚动散列以查找自然中断。变量块的最小大小为4k,最大大小为128 k。可变块去重复非常适合在非结构化数据(如未压缩的tar文件和文档)中查找去重复块。可变块去重叠通常会创建10k-16k的块。这使得在4k块大小下执行可变块去重复比固定块去重复更具有可伸缩性。可变块去重复的缺点是,它可能是计算密集型的,有时写入处理较慢。只有在使用--散列类型= Variable _MURMUR3 3创建卷时,才能启用可变块删除。

票数 1
EN
页面原文内容由Ask Ubuntu提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://askubuntu.com/questions/411375

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档