首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >用xml.etree.ElementTree解析XML1.1控制字符

用xml.etree.ElementTree解析XML1.1控制字符
EN

Stack Overflow用户
提问于 2020-04-15 20:32:05
回答 2查看 276关注 0票数 1

在Python中,我正在解析包含控制字符的XML:

代码语言:javascript
运行
复制
import xml.etree.ElementTree as ET

tree = ET.fromstring('<?xml version="1.1" encoding="UTF-8"?><field>foo &#11; bar</field>')
print(tree.text)

XML 1.1允许使用控制字符,但解析失败。是不是我遗漏了什么,或者xml.etree.ElementTree不支持这样的控制字符?

EN

回答 2

Stack Overflow用户

发布于 2020-04-15 21:43:03

至少在linux上的ElementTree解析器使用系统的expat解析器。libexpat维护do not plan to support XML1.1。

lxml包提供了类似于ElementTree的API,它使用libxml2来解析XML。libxml2 maintainers also do not plan to implement XML1.1(这个引用很旧,但是libxml2 homepage只引用1.0标准。

你需要找到

Python解析器,为解析器实际实现XML1.1

  • 绑定。
票数 1
EN

Stack Overflow用户

发布于 2020-04-23 09:06:19

@snakecharmerb是对的。向你推荐一个容忍度更高的库,也许你会喜欢它。

代码语言:javascript
运行
复制
from simplified_scrapy import SimplifiedDoc,req,utils
html = '<?xml version="1.1" encoding="UTF-8"?><field>foo &#11; bar</field>'
doc = SimplifiedDoc(html)
print(doc.field.text)

结果:

代码语言:javascript
运行
复制
foo &#11; bar

这里有更多的例子。https://github.com/yiyedata/simplified-scrapy-demo/blob/master/doc_examples

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61228807

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档