问从java中的字符串中删除无效的XML字符
EN

Stack Overflow用户

提问于 2010-11-21 19:37:58

回答 9查看 80.6K关注 0票数 26

嗨，我想从字符串中删除所有无效的XML字符。我想在string.replace方法中使用正则表达式。

喜欢

line.replace(regExp,"");

使用什么是正确的regExp？

无效的XML字符是指不是以下内容的所有内容：

[#x1-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]

谢谢。

java

xml

regex

invalid-characters

回答 9

Stack Overflow用户

回答已采纳

发布于 2010-11-21 20:58:41

因此，您可以使用两个Java's regex supports supplementary characters -16编码的字符来指定这些高范围。

下面是删除XML 1.0中非法字符的模式

// XML 1.0
// #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]
String xml10pattern = "[^"
                    + "\u0009\r\n"
                    + "\u0020-\uD7FF"
                    + "\uE000-\uFFFD"
                    + "\ud800\udc00-\udbff\udfff"
                    + "]";

大多数人都想要XML1.0版本。

下面是删除XML 1.1中非法字符的模式

// XML 1.1
// [#x1-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]
String xml11pattern = "[^"
                    + "\u0001-\uD7FF"
                    + "\uE000-\uFFFD"
                    + "\ud800\udc00-\udbff\udfff"
                    + "]+";

您需要使用String.replaceAll(...)而不是String.replace(...)。

String illegal = "Hello, World!\0";
String legal = illegal.replaceAll(pattern, "");

票数 86

Stack Overflow用户

发布于 2012-07-26 23:31:56

我们应该考虑代理字符吗？否则'(current >= 0x10000) && (current <= 0x10FFFF)‘永远不会为真。

还测试了正则表达式方法似乎比下面的循环慢。

if (null == text || text.isEmpty()) {
    return text;
}
final int len = text.length();
char current = 0;
int codePoint = 0;
StringBuilder sb = new StringBuilder();
for (int i = 0; i < len; i++) {
    current = text.charAt(i);
    boolean surrogate = false;
    if (Character.isHighSurrogate(current)
            && i + 1 < len && Character.isLowSurrogate(text.charAt(i + 1))) {
        surrogate = true;
        codePoint = text.codePointAt(i++);
    } else {
        codePoint = current;
    }
    if ((codePoint == 0x9) || (codePoint == 0xA) || (codePoint == 0xD)
            || ((codePoint >= 0x20) && (codePoint <= 0xD7FF))
            || ((codePoint >= 0xE000) && (codePoint <= 0xFFFD))
            || ((codePoint >= 0x10000) && (codePoint <= 0x10FFFF))) {
        sb.append(current);
        if (surrogate) {
            sb.append(text.charAt(i));
        }
    }
}

票数 9

Stack Overflow用户

发布于 2017-07-21 02:55:38

到目前为止，所有这些答案都只是替换了字符本身。但有时XML文档会包含无效的XML实体序列，从而导致错误。例如，如果你的xml中有，java xml解析器将抛出Illegal character entity: expansion character (code 0x2 at ...。

下面是一个简单的java程序，它可以替换那些无效的实体序列。

  public final Pattern XML_ENTITY_PATTERN = Pattern.compile("\\&\\#(?:x([0-9a-fA-F]+)|([0-9]+))\\;");

  /**
   * Remove problematic xml entities from the xml string so that you can parse it with java DOM / SAX libraries.
   */
  String getCleanedXml(String xmlString) {
    Matcher m = XML_ENTITY_PATTERN.matcher(xmlString);
    Set<String> replaceSet = new HashSet<>();
    while (m.find()) {
      String group = m.group(1);
      int val;
      if (group != null) {
        val = Integer.parseInt(group, 16);
        if (isInvalidXmlChar(val)) {
          replaceSet.add("&#x" + group + ";");
        }
      } else if ((group = m.group(2)) != null) {
        val = Integer.parseInt(group);
        if (isInvalidXmlChar(val)) {
          replaceSet.add("&#" + group + ";");
        }
      }
    }
    String cleanedXmlString = xmlString;
    for (String replacer : replaceSet) {
      cleanedXmlString = cleanedXmlString.replaceAll(replacer, "");
    }
    return cleanedXmlString;
  }

  private boolean isInvalidXmlChar(int val) {
    if (val == 0x9 || val == 0xA || val == 0xD ||
            val >= 0x20 && val <= 0xD7FF ||
            val >= 0x10000 && val <= 0x10FFFF) {
      return false;
    }
    return true;
  }

票数 7

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/4237625

复制

相似问题

问从java中的字符串中删除无效的XML字符
EN

回答 9

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从java中的字符串中删除无效的XML字符EN

回答 9

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从java中的字符串中删除无效的XML字符
EN