文章/答案/技术大牛

发布

社区首页 >问答首页 >用xml.etree.ElementTree解析XML1.1控制字符

问用xml.etree.ElementTree解析XML1.1控制字符
EN

Stack Overflow用户

提问于 2020-04-15 20:32:05

回答 2查看 276关注 0票数 1

在Python中，我正在解析包含控制字符的XML：

import xml.etree.ElementTree as ET

tree = ET.fromstring('<?xml version="1.1" encoding="UTF-8"?><field>foo &#11; bar</field>')
print(tree.text)

XML 1.1允许使用控制字符，但解析失败。是不是我遗漏了什么，或者xml.etree.ElementTree不支持这样的控制字符？

character-encoding

elementtree

python

xml

回答 2

Stack Overflow用户

发布于 2020-04-15 21:43:03

至少在linux上的ElementTree解析器使用系统的expat解析器。libexpat维护do not plan to support XML1.1。

lxml包提供了类似于ElementTree的API，它使用libxml2来解析XML。libxml2 maintainers also do not plan to implement XML1.1(这个引用很旧，但是libxml2 homepage只引用1.0标准。

你需要找到

Python解析器，为解析器实际实现XML1.1

绑定。

票数 1

Stack Overflow用户

发布于 2020-04-23 09:06:19

@snakecharmerb是对的。向你推荐一个容忍度更高的库，也许你会喜欢它。

from simplified_scrapy import SimplifiedDoc,req,utils
html = '<?xml version="1.1" encoding="UTF-8"?><field>foo &#11; bar</field>'
doc = SimplifiedDoc(html)
print(doc.field.text)

结果：

foo &#11; bar

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61228807

复制

相似问题

问用xml.etree.ElementTree解析XML1.1控制字符
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用xml.etree.ElementTree解析XML1.1控制字符EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用xml.etree.ElementTree解析XML1.1控制字符
EN