文章/答案/技术大牛

发布

社区首页 >问答首页 >用CDATA部分读取xml的lxml/python

问用CDATA部分读取xml的lxml/python
EN

Stack Overflow用户

提问于 2018-11-23 23:17:15

回答 1查看 2.3K关注 0票数 0

在我的xml中有一个CDATA部分。我想保留CDATA部分，然后剥去它。有人能帮上忙吗？

默认值不起作用：

$ from io import StringIO
$ from lxml import etree
$ xml = '<Subject> My Subject: 美海軍研究船勘查台海水文？ 船<![CDATA[&#xE9;]]>€ </Subject>'
$ tree = etree.parse(StringIO(xml))
$ tree.getroot().text
' My Subject: 美海軍研究船勘查台海水文？ 船&#xE9;€ '

This post似乎建议parser选项strip_cdata=False可以保留cdata，但没有效果：

$ parser=etree.XMLParser(strip_cdata=False)
$ tree = etree.parse(StringIO(xml), parser=parser)
$ tree.getroot().text    
' My Subject: 美海軍研究船勘查台海水文？ 船&#xE9;€ '

使用strip_cdata=True (应该是默认的)会产生相同的结果：

$ parser=etree.XMLParser(strip_cdata=True)
$ tree = etree.parse(StringIO(xml), parser=parser)    
$ tree.getroot().text    
' My Subject: 美海軍研究船勘查台海水文？ 船&#xE9;€ '

python

python-3.x

lxml

elementtree

cdata

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-11-24 07:02:00

CDATA部分不保留在元素的text属性中，即使在解析XML时使用strip_cdata=False，正如您已经注意到的。见https://lxml.de/api.html#cdata。

在这些情况下，CDATA部分保存如下：

在用tostring()序列化时：打印(etree.tostring(tree.getroot()，encoding="UTF-8").decode())
写入文件时： tree.write("subject.xml"，encoding="UTF-8")

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53453791

复制

相似问题

问用CDATA部分读取xml的lxml/python
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用CDATA部分读取xml的lxml/pythonEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用CDATA部分读取xml的lxml/python
EN