我有一个庞大且不断增长的文本文件集,它们都非常小(小于100个字节)。我想区分每一对可能的文件,并注意哪些是重复的。我可以编写一个Python脚本来完成这个任务,但是我想知道是否有一个现有的Linux命令行工具(或者一个简单的工具组合)可以做到这一点?
Update (响应米芬尼注释):这些文件都位于一个目录中,因此它们都有不同的文件名。(但它们都有一个共同的文件扩展名,因此很容易使用通配符来选择它们。)
发布于 2010-10-07 19:03:47
还有FSlint --我还没有在这个特殊的情况下使用它,但是我应该能够处理它:http://en.flossmanuals.net/FSlint/Introduction
发布于 2010-10-07 19:02:58
几乎可以肯定的是,您不想对每对文件进行区分。您可能希望使用像md5sums这样的工具来获取所有文件的所有校验和,并将这些校验和输入到其他只报告重复校验和的工具中。
发布于 2021-07-18 06:28:34
我认为fdupe和fslint作为答案。jdupes是基于fdupe的,比两者都要快得多,在这一点上应该认为fdupe是不可取的。
https://serverfault.com/questions/188729
复制相似问题