首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >有没有一种跨平台的Java方法来删除文件名的特殊字符?

有没有一种跨平台的Java方法来删除文件名的特殊字符?
EN

Stack Overflow用户
提问于 2009-07-20 18:25:14
回答 8查看 34.2K关注 0票数 64

我正在制作一个跨平台的应用程序,它根据在线检索的数据重命名文件。我想要清理我从当前平台的web API中获取的字符串。

我知道不同的平台有不同的文件名要求,所以我想知道是否有跨平台的方法来做到这一点?

Windows:在平台上不能有问号'?‘在文件名中,而在Linux中,您可以。文件名可能包含这样的字符,我希望支持这些字符的平台保留它们,否则,将它们去掉。

此外,我更喜欢不需要第三方库的标准Java解决方案。

EN

回答 8

Stack Overflow用户

发布于 2011-04-12 03:18:55

正如其他地方所建议的,这通常不是您想要做的事情。通常,最好使用安全方法(如File.createTempFile() )创建临时文件。

您不应该使用白名单这样做,并且只保留“好”字符。如果文件只由中文字符组成,那么您将剥离其中的所有内容。由于这个原因,我们不能使用白名单,我们必须使用黑名单。

Linux几乎允许任何令人痛苦的事情。我只会将Linux限制在与Windows相同的列表中,这样就可以省去将来的麻烦。

在Windows上使用这个C#代码段,我生成了一个在Windows上无效的字符列表。这个列表中的字符比你想象的要多(41个),所以我不建议创建你自己的列表。

代码语言:javascript
复制
        foreach (char c in new string(Path.GetInvalidFileNameChars()))
        {
            Console.Write((int)c);
            Console.Write(",");
        }

这是一个简单的Java类,它“清理”了一个文件名。

代码语言:javascript
复制
public class FileNameCleaner {
final static int[] illegalChars = {34, 60, 62, 124, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 58, 42, 63, 92, 47};
static {
    Arrays.sort(illegalChars);
}
public static String cleanFileName(String badFileName) {
    StringBuilder cleanName = new StringBuilder();
    for (int i = 0; i < badFileName.length(); i++) {
        int c = (int)badFileName.charAt(i);
        if (Arrays.binarySearch(illegalChars, c) < 0) {
            cleanName.append((char)c);
        }
    }
    return cleanName.toString();
}
}

编辑:正如Stephen建议的那样,您可能还应该验证这些文件访问是否只发生在您允许的目录中。

下面的答案提供了在Java中建立自定义安全上下文,然后在“沙箱”中执行代码的示例代码。

How do you create a secure JEXL (scripting) sandbox?

票数 31
EN

Stack Overflow用户

发布于 2013-07-19 19:37:06

或者干脆这样做:

代码语言:javascript
复制
String filename = "A20/B22b#öA\\BC#Ä$%ld_ma.la.xps";
String sane = filename.replaceAll("[^a-zA-Z0-9\\._]+", "_");

结果:A20_B22b_A_BC_ld_ma.la.xps

解释:

[a-zA-Z0-9\\._]匹配a-z小写或大写字母、数字、点和下划线

[^a-zA-Z0-9\\._]是相反的。即与第一个表达式不匹配的所有字符

[^a-zA-Z0-9\\._]+是与第一个表达式不匹配的字符序列

所以每个字符序列不包含a-z,0-9或。_将被替换。

票数 26
EN

Stack Overflow用户

发布于 2014-10-17 16:21:24

这是基于Sarel Botha接受的答案,只要您不遇到Basic Multilingual Plane之外的任何字符,它就可以正常工作。如果你需要完全的Unicode支持(谁不需要呢?)请改用以下代码,它是Unicode安全的:

代码语言:javascript
复制
public class FileNameCleaner {
  final static int[] illegalChars = {34, 60, 62, 124, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 58, 42, 63, 92, 47};

  static {
    Arrays.sort(illegalChars);
  }

  public static String cleanFileName(String badFileName) {
    StringBuilder cleanName = new StringBuilder();
    int len = badFileName.codePointCount(0, badFileName.length());
    for (int i=0; i<len; i++) {
      int c = badFileName.codePointAt(i);
      if (Arrays.binarySearch(illegalChars, c) < 0) {
        cleanName.appendCodePoint(c);
      }
    }
    return cleanName.toString();
  }
}

此处的关键更改:

  • 使用codePointCount i.c.w。length
  • use而不是charAt
  • use appendCodePoint需要将chars转换为ints。事实上,您永远不应该处理chars,因为对于BMP以外的任何内容,它们基本上都是损坏的。
票数 18
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/1155107

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档