我试着通过命令行在我的mac机器上搜索重复的文件。对于10 gb的数据文件,这一过程几乎需要半个小时,而Gemini和cleanmymac应用程序查找文件所需的时间较少。所以我想说的是,这些应用程序是如何实现这种稳定性的,它背后的概念是什么,是用什么语言编写的代码。
我试着在谷歌上搜索信息,但没有找到任何与复制发现者相关的信息。
如果你有任何想法,请在这里输入。
发布于 2015-09-11 23:11:33
首先,Gemini定位大小相同的文件,然后它使用自己的类似散列的类型依赖算法来比较文件内容。该算法不是100%准确,但比经典散列快得多。
发布于 2017-10-24 04:11:40
我联系了支持人员,询问他们使用的是什么算法。他们的反应是,他们将每个文件的各个部分相互比较,而不是整个文件或进行散列。因此,他们只能检查每个大小合理相似的文件的5% (或更少),并获得相当准确的结果。使用这种方法,他们不必支付比较整个文件的成本或散列文件的成本。如果他们使用这种方法进行初始比较,然后在潜在的匹配项之间进行充分的比较,他们可能会更准确。
使用此方法,可以将彼此次要变体的文件检测为完全相同。例如,我有两首歌(original mix和VIP mix)被算作是一样的。我也有两张图片,一张有水印,另一张没有,被列为相同的。在这两种情况下,算法只是碰巧挑选了两个文件中相同的文件部分。
https://stackoverflow.com/questions/32265147
复制相似问题