首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何在适用于Mac os的Gemini中实现重复文件搜索

如何在适用于Mac os的Gemini中实现重复文件搜索
EN

Stack Overflow用户
提问于 2015-08-28 15:02:55
回答 2查看 190关注 0票数 0

我试着通过命令行在我的mac机器上搜索重复的文件。对于10 gb的数据文件,这一过程几乎需要半个小时,而Gemini和cleanmymac应用程序查找文件所需的时间较少。所以我想说的是,这些应用程序是如何实现这种稳定性的,它背后的概念是什么,是用什么语言编写的代码。

我试着在谷歌上搜索信息,但没有找到任何与复制发现者相关的信息。

如果你有任何想法,请在这里输入。

EN

回答 2

Stack Overflow用户

发布于 2015-09-11 23:11:33

首先,Gemini定位大小相同的文件,然后它使用自己的类似散列的类型依赖算法来比较文件内容。该算法不是100%准确,但比经典散列快得多。

票数 1
EN

Stack Overflow用户

发布于 2017-10-24 04:11:40

我联系了支持人员,询问他们使用的是什么算法。他们的反应是,他们将每个文件的各个部分相互比较,而不是整个文件或进行散列。因此,他们只能检查每个大小合理相似的文件的5% (或更少),并获得相当准确的结果。使用这种方法,他们不必支付比较整个文件的成本或散列文件的成本。如果他们使用这种方法进行初始比较,然后在潜在的匹配项之间进行充分的比较,他们可能会更准确。

使用此方法,可以将彼此次要变体的文件检测为完全相同。例如,我有两首歌(original mix和VIP mix)被算作是一样的。我也有两张图片,一张有水印,另一张没有,被列为相同的。在这两种情况下,算法只是碰巧挑选了两个文件中相同的文件部分。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/32265147

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档