首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

在Java中剥离无效的XML字符

在Java中剥离无效的XML字符,可以使用XML解析器。以下是剥离无效字符的代码示例:

代码语言:java
复制
import org.xml.sax.*;
import java.io.*;

public class StripInvalidXmlChars {
   public static void main(String[] args) throws Exception {
      String inputText = "Hello, world!";
      String strippedText = stripInvalidXmlChars(inputText);
      System.out.println("Original Text: \n" + inputText);
      System.out.println("Stripped Text: \n" + strippedText);
   }

   public static String stripInvalidXmlChars(String inputText) throws SAXException {
      XMLReader xmlReader = XMLReaderFactory.createXMLReader();
      InputSource inputSource = new InputSource(new StringReader(inputText));
      xmlReader.setContentHandler(new StripContentHandler(xmlReader));
      xmlReader.parse();
      return xmlReader.getXMLReader().getLexicalHandler().getDomNode().getStringValue();
   }
}

class StripContentHandler implements ContentHandler {
   private XMLReader xmlReader;

   public StripContentHandler(XMLReader xmlReader) {
      this.xmlReader = xmlReader;
   }

   public void startDocument() throws SAXException {
      xmlReader.getLexicalHandler().startDocument();
   }

   public void startElement(String uri, String localName, String qName, Attributes atts) throws SAXException {
      xmlReader.getLexicalHandler().startElement(uri, localName, qName, atts);
   }

   public void characters(char[] ch, int start, int length) throws SAXException {
      xmlReader.getLocator().setCharacterStream(new StringReader(new String(ch, start, length)));
      xmlReader.getLexicalHandler().characters();
   }

   public void ignorableWhitespace(char[] ch, int start, int length) throws SAXException {
      xmlReader.getLocator().setCharacterStream(new StringReader(new String(ch, start, length)));
      xmlReader.getLexicalHandler().ignorableWhitespace();
   }

   public void endElement(String uri, String localName, String qName) throws SAXException {
      boolean hasInvalidChars = false;
      String chars = xmlReader.getLexicalHandler().endElement(uri, localName, qName);
      for (int i = 0; i< chars.length(); i++) {
         char c = chars.charAt(i);
         if (!Character.isLetterOrDigit(c)
              || c == ':' || c == '.' || c == ',' || c == '='
              || (c >= '0' && c <= '9') && c != ']' && c != ']'
              || c >= '\u0080' && !Character.isISOControl(c)) {
            hasInvalidChars = true;
            break;
         }
      }
      if (hasInvalidChars) {
         xmlReader.getLocator().setCharacterStream(new StringReader(new String(chars).replaceAll("[^A-Za-z0-9:.,=]", ""))).findCharacterEncoding();
         xmlReader.setContentHandler(new StripContentHandler(xmlReader));
         xmlReader.parse();
         return;
      }
      xmlReader.getLexicalHandler().endElement(uri, localName, qName);
   }

   public void endDocument() throws SAXException {
      xmlReader.getLexicalHandler().endDocument();
   }
}

上面代码使用Java的XML解析器来剥离无效字符。其中,StripContentHandler是一个实现了ContentHandler接口的类,它可以处理XML解析的事件,例如文本的开始、结点、空格、注释等。在处理结点时,我们遍历字符节点,检查它是否是一个有效的字符(不是字母、数字、冒号、点、等于号、方括号或ISO控制字符),如果无效,则重置解析器并重新解析文档。

如果解析后的文本中有未剥离有效的XML字符,则可以根据需要重复使用StripContentHandler类进行多次迭代解析。最终获得的字符串是无效字符被剥离后的文本。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

共39个视频
动力节点-Spring框架源码解析视频教程-上
动力节点Java培训
本套Java视频教程主要讲解了Spring4在SSM框架中的使用及运用方式。本套Java视频教程内容涵盖了实际工作中可能用到的几乎所有知识点。为以后的学习打下坚实的基础。
共0个视频
动力节点-Spring框架源码解析视频教程-
动力节点Java培训
本套Java视频教程主要讲解了Spring4在SSM框架中的使用及运用方式。本套Java视频教程内容涵盖了实际工作中可能用到的几乎所有知识点。为以后的学习打下坚实的基础。
共0个视频
动力节点-Spring框架源码解析视频教程-下
动力节点Java培训
本套Java视频教程主要讲解了Spring4在SSM框架中的使用及运用方式。本套Java视频教程内容涵盖了实际工作中可能用到的几乎所有知识点。为以后的学习打下坚实的基础。
共29个视频
【动力节点】JDBC核心技术精讲视频教程-jdbc基础教程
动力节点Java培训
本套视频教程中讲解了Java语言如何连接数据库,对数据库中的数据进行增删改查操作,适合于已经学习过Java编程基础以及数据库的同学。Java教程中阐述了接口在开发中的真正作用,JDBC规范制定的背景,JDBC编程六部曲,JDBC事务,JDBC批处理,SQL注入,行级锁等。
共22个视频
JavaWeb阶段入门教程-EL表达式+JSP【动力节点】
动力节点Java培训
通过本课程的学习,使大家掌握JSP开发,充分认知JSP在实际项目开发中的重要作用。 jsp从表现上看更像是前端组件,只是传统的html代码加入了java脚本的综合操作。但是在本质上,jsp同时又是servlet。
共17个视频
动力节点-JDK动态代理(AOP)使用及实现原理分析
动力节点Java培训
动态代理是使用jdk的反射机制,创建对象的能力, 创建的是代理类的对象。 而不用你创建类文件。不用写java文件。 动态:在程序执行时,调用jdk提供的方法才能创建代理类的对象。jdk动态代理,必须有接口,目标类必须实现接口, 没有接口时,需要使用cglib动态代理。 动态代理可以在不改变原来目标方法功能的前提下, 可以在代理中增强自己的功能代码。
共49个视频
动力节点-MyBatis框架入门到实战教程
动力节点Java培训
Maven是Apache软件基金会组织维护的一款自动化构建工具,专注服务于Java平台的项目构建和依赖管理。Maven 是目前最流行的自动化构建工具,对于生产环境下多框架、多模块整合开发有重要作用,Maven 是一款在大型项目开发过程中不可或缺的重要工具,Maven通过一小段描述信息可以整合多个项目之间的引用关系,提供规范的管理各个常用jar包及其各个版本,并且可以自动下载和引入项目中。
领券