文章/答案/技术大牛

发布

网友吐槽：42岁已经不可能工作了，一共沟通15550次，找软件开发，人家觉得年纪大，找软件管理，人家要大厂经验...

文章来源：企鹅号 - Java面试那些事儿

作为一个已经在行业里混了多年的程序员，看到这个网友的吐槽，我简直感同身受。42岁找工作是真的难呀。

特别是在我们这个软件开发领域，年龄成了最大的“门槛”。

说实话，年纪大了，确实上有老下有小，责任更重了，压力也大了，但这些好像并没有得到职场的理解和支持。

反而，大家都觉得你年龄大了，工作就不行了。真是笑话！就算我在编程上经验丰富，能优化代码能带团队，但如果只看年龄，真心就有点不公平。

我觉得，职场如果只看年纪，那就太肤浅了。经验才是最宝贵的财富啊！只是现在的公司似乎都太看重“年轻”的标签，根本不在乎你有多少实战经验。

希望大家都能意识到，经验和能力是最重要的，而不仅仅是年龄这个数字。

算法题：在系统中查找重复文件

今天我们聊点不太常见但又非常有用的东西：在系统中查找重复文件。

别看这题看起来简单，其实背后涉及到不少的技术点，搞不好就能让你在写代码时陷入深深的坑。

大家都知道，在操作系统中有时会遇到文件冗余的问题，特别是在管理大量文件时，重复文件的存在不仅浪费存储空间，甚至会让备份和恢复操作变得更加复杂。所以，如何高效地查找这些重复文件？今天我们就来探讨一下，如何通过代码来解决这个问题。

首先，传统的做法是通过文件的路径或者名字来判断文件是否重复，然而这并不能完全保证文件的内容一致。毕竟，文件名字可以相同，内容未必一样。那怎么办呢？很简单，我们可以通过计算文件的哈希值来判断文件内容是否一致。这样做不仅准确，而且效率也非常高。

如何实现？

我们可以利用 Java 中的 MessageDigest 类来计算文件的哈希值，比如使用 MD5 或 SHA-256 这类常见的算法。计算完哈希值后，将其存储在一个集合中，检查每次计算的哈希值是否已经存在。如果存在，说明是重复文件，否则就保存到集合中。

import java.io.*;

import java.security.*;

import java.util.*;

public class DuplicateFileFinder {

public static void main(String[] args) throws IOException, NoSuchAlgorithmException {

File folder = new File("/path/to/your/folder"); // 指定要扫描的文件夹路径

Set<String> seenHashes = new HashSet<>();

List<String> duplicateFiles = new ArrayList<>();

if (folder.isDirectory()) {

findDuplicates(folder, seenHashes, duplicateFiles);

}

if (duplicateFiles.isEmpty()) {

System.out.println("没有找到重复文件！");

} else {

System.out.println("重复文件：");

for (String file : duplicateFiles) {

System.out.println(file);

}

public static void findDuplicates(File folder, Set<String> seenHashes, List<String> duplicateFiles) throws IOException, NoSuchAlgorithmException {

for (File file : folder.listFiles()) {

if (file.isDirectory()) {

// 如果是目录，递归查找

findDuplicates(file, seenHashes, duplicateFiles);

} else {

String hash = getFileHash(file);

if (seenHashes.contains(hash)) {

duplicateFiles.add(file.getAbsolutePath());

} else {

seenHashes.add(hash);

}

public static String getFileHash(File file) throws IOException, NoSuchAlgorithmException {

MessageDigest digest = MessageDigest.getInstance("MD5"); // 使用 MD5 算法

try (FileInputStream fis = new FileInputStream(file)) {

byte[] byteArray = new byte[1024];

int bytesRead;

while ((bytesRead = fis.read(byteArray)) != -1) {

digest.update(byteArray, 0, bytesRead);

}

byte[] hashBytes = digest.digest();

StringBuilder hexString = new StringBuilder();

for (byte b : hashBytes) {

hexString.append(String.format("%02x", b));

}

return hexString.toString();

}

这个代码的流程是这样的：首先通过 findDuplicates 方法递归扫描指定的文件夹。如果发现某个文件是目录，则递归进入。如果是文件，就计算它的哈希值。通过 getFileHash 方法，我们用 MD5 算法计算出文件的哈希值，然后检查这个哈希值是否已经存在。如果存在，说明这个文件是重复的；如果不存在，则将该文件的哈希值记录下来。

为什么要用哈希值？

哈希值是个非常精妙的东西！它能够为每个文件生成一个独特的“指纹”，哪怕文件稍微变动一点，哈希值就会完全不同。这就意味着，两个文件的内容完全相同，它们的哈希值也必定相同。所以，利用哈希值判断文件是否重复，既精确又高效。

如果你觉得 MD5 不够安全或者想要更长的哈希值，也可以换成 SHA-256。只需要在 getFileHash 方法中将 MessageDigest.getInstance("MD5") 改成 MessageDigest.getInstance("SHA-256") 就好了，代码的结构不需要改动。

但要注意什么？

虽然这个方法非常有效，但也有一些小细节需要注意。

性能问题：如果文件夹内的文件非常多，计算每个文件的哈希值会比较耗时，尤其是对于大文件来说。你可以考虑在计算哈希时，采取分块读取的方式来减少内存的占用，或者在多核 CPU 的环境下使用多线程来加速哈希计算。

哈希碰撞：虽然 MD5 或 SHA-256 的碰撞几率非常低，但并不代表不存在。在一些极端情况下，两个文件的哈希值可能会相同，这就需要额外的判断手段。虽然这种情况很少遇到，但如果真的需要绝对的精确性，可以通过对比文件的大小和部分内容来做二次确认。

文件大小的预筛选：其实，如果我们在判断文件是否重复之前，先通过文件的大小做一个简单的筛选，也是一个不错的优化手段。如果两个文件的大小不同，那它们肯定不可能相同。

小总结

总结一下，查找重复文件的核心思路就是通过文件的哈希值来确认文件内容是否一致。这个方法既准确又高效，尤其在面对大规模文件时表现得尤为出色。借助 Java 强大的 IO 和安全工具，我们可以轻松实现这一功能。当然，优化细节还需要你根据具体的需求来调整。

发表于: 2025-01-032025-01-03 11:24:00
原文链接：https://page.om.qq.com/page/OD2KMBD5GzKQbruYypZl2JUQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

网友吐槽：42岁已经不可能工作了，一共沟通15550次，找软件开发，人家觉得年纪大，找软件管理，人家要大厂经验...

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐