我想解析下面的XML文档,以解析其中的所有实体:
<!DOCTYPE doc SYSTEM 'mydoc.dtd'>
<doc>&title;</doc>
我的EntityResolver应该从数据库中获取具有给定系统ID的外部实体,然后执行解析,如下图所示:
private static class MyEntityResolver
{
public InputSource resolveEntity(String publicId, String systemId)
throws SAXException, IOException
{
// At this point, systemId is always absolutized to the current working directory,
// even though the XML document specified it as relative.
// E.g. "file:///H:/mydoc.dtd" instead of just "mydoc.dtd"
// Why??? How can I prevent this???
SgmlEntity entity = findEntityFromDatabase(systemId);
InputSource is = new InputSource(new ByteArrayInputStream(entity.getContents()));
is.setPublicId(publicId);
is.setSystemId(systemId);
return is;
}
}
我尝试使用DOM (DocumentBuilder)和SAX (XMLReader),将实体解析器设置为MyEntityResolver (即setEntityResolver(new MyEntityResolver())
),但MyEntityResolver#resolveEntity(String publicId, String systemId)
中的systemId
总是被绝对化为当前工作目录。
我也试着给setFeature("http://xml.org/sax/features/resolve-dtd-uris", false);
打电话,但没有任何帮助。
那么,我如何才能实现我想要的呢?
谢谢!
发布于 2009-11-03 09:25:14
显然,还有另一个名为EntityResolver2的接口,它是旧EntityResolver的扩展。(说到容易混淆的名字!)
无论如何,我发现EntityResolver2
实现了我想要的,也就是说,它不会对systemId
进行任何更改,所以它始终是文档中指定的内容。
发布于 2009-10-30 14:42:31
来自the EntityResolver Javadocs
如果系统标识符是一个URL,则SAX解析器必须在将其报告给应用程序之前完全解析它。
此外,org.xml.sax docs对resolve-dtd-uris特性也有这样的说法:
它不适用于EntityResolver.resolveEntity(),它不用于报告声明...
我认为您要么将base-URI设置为您可以接受的内容,要么使用public-IDs而不是system-IDs。
https://stackoverflow.com/questions/1648291
复制相似问题