我使用lxml来解析从另一个系统导出的XML文件,如下所示:
xmldoc = open(filename)
etree.parse(xmldoc)
但我得到:
lxml.etree.XMLSyntaxError:实体'eacute‘未定义,第4495行,第46列
显然,unicode实体名称存在问题--但是我如何解决这个问题呢?通过open()还是parse()?
编辑:--我忘了将DTD包含在同一个文件夹中--它现在就在那里,并且有以下声明:
<!ENTITY eacute "é">
并在xmldoc中引用(并且一直是),如下所示:
<?xml version="1.0" encoding="ISO-8859-1" ?>
<!DOCTYPE DScribeDatabase SYSTEM "foo.dtd">
但我还是遇到同样的问题..。DTD也需要用Python声明吗?
发布于 2010-05-14 14:58:06
eacute
不是XML中的预定义实体。要在XML文件中包含é
实体引用,它必须有一个指向定义实体的DTD (例如XHTML1.0DTD)的<!DOCTYPE>
声明。
如果XML使用é
,但没有<!DOCTYPE>
,那么它的格式不太好,导出它的系统需要修复。
(没有充分的理由使用实体引用来表示é
文件中的XML。字符引用é
在没有实体定义的情况下随处可见,如果文件由于某种原因不能简单地包含原始的UTF-8 é
的话。)
https://stackoverflow.com/questions/2835077
复制相似问题