这有点牵强,但我有一个有趣的(对我来说)编程(er...脚本?算法?组织?)问题来了。(我使用Ruby对此进行标记,因为我更喜欢使用Ruby编写脚本。)
想象一下,你有100 of的图片在多个驱动器上漂浮。可能总共有25千兆字节的独特图片。其余的要么是重复的(具有相同的文件名),要么是重复的(具有不同的名称),或者是图片的较小版本(为电子邮件导出)。当然,除了在多个驱动器上,它们也在不同的文件夹结构中。例如,导出可能存在(在Windows世界中)为c:\users\username\pics\2008\img_0123.jpg、c:\pics\2008\img_0123.jpg、c:\pics\export\IMG0123-EMAIL.jpg和d:\pics\europe_2008\venice\bungy_jumping_off_st_marks.jpg.
回到过去,我们不得不把所有的东西都放在文件夹里,然后把它们重命名为非常小的名字(就像上面那样)。今天,搜索和标签处理了所有这些,并且是多余的(并且使其难以组织)。
在过去,我曾尝试将所有内容都移动到一个驱动器上,编写了一个ruby脚本来扫描重复项(我不信任那些dupfinder程序-我运行了一个,它开始删除所有内容!),并尝试重新组织它们。然而,几天后,我放弃了(组织和手动删除部分)。
我即将开始一个新的想法。首先,将我所有驱动器中的所有图片复制到一个新驱动器上,放在一个文件夹中。任何具有重复文件名的内容都需要手动检查。然后启动Picasa,手动扫描文件并自己删除重复的文件(使用好的旧工具)。
然而,我非常不满意我不能很容易地通过编程解决这个问题,我很感兴趣听到一些其他的解决方案,无论是编程的还是其他的(也许写代码不是最好的解决方案,喘气!)。
发布于 2008-12-10 20:38:17
我喜欢我的照片按拍摄日期排序,所以我编写了一个groovy脚本来查看图片的EXIF数据,并以ISO日期格式(2008-12-11)将它们放入目录中。它保持了他们的组织性。它没有解决根据内容进行标记的问题,我使用flickr来解决这个问题。
至于复制问题,校验和将减少您必须手动排序的图像数量,但不幸的是,它不能提取调整大小的图像。你可以找一个不那么糟糕的复制查找器,一个不会自动删除重复的?在你测试之前一定要做一个备份:p
发布于 2008-12-10 20:24:57
您是否考虑过获取每个文件的md5校验和并以这种方式确定重复项?如果您这样做了,您就不必手动解析重复项了。
我会对每个文件进行校验和,并将其与已处理文件的字典进行比较。如果发现它是重复的,我会把它放到一个重复的目录中,而不是完全删除它。
发布于 2008-12-11 09:45:23
你可以使用像Exiftool这样的东西来根据CaptureTime (这是我自己的方案)或者任何其他可以在JPG或RAW文件中找到的参数来重新组织你的图片。您将能够非常容易地找到副本。
https://stackoverflow.com/questions/357412
复制相似问题