我有包含许多UTF-8XML文件的zip归档文件。这些文件大部分都有英文标签和文本,但也有一些标签包含非英文文本。打开zip文件并解析其中的xml文件没有问题,但非英语文本丢失了它的编码。当在Notepad++中提取并打开xml文件时,非英语文本如下所示: for comp_file in comp_files:
我的sax解析器在其他xml文件中运行良好,但是对于这个文件它不起作用。和编辑:这里是我使用的原始数据:编辑:如果我将从Chrome复制并通过到字符串中并从中解析它,它就能正常工作。Does not work InputSource stream = new InputSource(new StringReader(xml));//