我有一个XML字符串
xml_str = '<Foo><Bar>burp</Bar></Foo>'
我正在用xml etree解析它
import xml.etree.ElementTree as ET
root_element = ET.fromstring(xml_str)
这将创建一个Element对象(Root_element),其中包含标签、尾部、文本和属性值。我可以在调试时看到所有的代码。但是,我在调试时看不到任何子元素。我知道孩子在那里,因为我可以在for循环中访问它们。
for child in root_elem
我正在使用Python和ElementTree来解析XML文件。我希望能够制作一个包含所有CD信息的字典列表。稍后我可以使用这个列表来收集信息,比如显示来自美国的CD的标题。下面的代码正在运行,但如果YEAR标记不是CD的最后一个标记,则很容易被破坏。我如何重写这段代码,使标签可以按任意顺序排列?
from xml.etree.ElementTree import ElementTree
f = open("cd_catalog.xml")
tree = ElementTree()
tree.parse(f)
catalog = []
cd = {}
for node in
我正在寻找与Python的lxml库等效的Clojure/Java。
我过去曾大量使用它来解析各种html (作为BeautifulSoup的替代品),而且能够使用同样的elementtree api for xml也很棒--真的是一个值得信赖的朋友!有人能推荐一个类似的Java/Clojure库吗?
关于lxml
lxml是一个基于libxml2的xml和html处理库。它可以很好地处理损坏的html页面,因此非常适合屏幕抓取任务。它还实现了xpath,因此ElementTree /html结构被表示为一个树对象,完全支持xpath和CSS选择器等。
它也有一些非常方便的实用功能,比如
在使用标准Python库中的ElementTree模块解析简单的超文本标记语言时,我遇到了一些问题。这是我的源代码:
from urllib.request import urlopen
from xml.etree.ElementTree import ElementTree
import sys
def main():
site = urlopen("http://1gabba.in/genre/hardstyle")
try:
html = site.read().decode('utf-8')
xml
请告诉我怎么做?我想接收所有孩子"alarmTime“的文本和标签。但是,我得到了一个错误。如何分配属性‘列表’?或者告诉我如何避免这个错误。
我的代码是:
import xml.etree.ElementTree as ET
tree = ET.parse('sample.xml')
root = tree.getroot()
for elem in root.iter(tag ='alarmTime'):
data = elem.getchildren()
print(data.text)
错误是:
AttributeEr
在Python中,我正在解析包含控制字符的XML:
import xml.etree.ElementTree as ET
tree = ET.fromstring('<?xml version="1.1" encoding="UTF-8"?><field>foo  bar</field>')
print(tree.text)
XML 1.1允许使用控制字符,但解析失败。是不是我遗漏了什么,或者xml.etree.ElementTree不支持这样的控制字符?
我的代码是:
import xml.etree.ElementTree as ET
from lxml import etree
var1 = '<name>This is my text</name>'
page = etree.Element('first')
doc = etree.ElementTree(page)
second = etree.SubElement(page, 'second')
second.text = var1
doc.write('a.xml', xml_declarati
假设我有一个示例配置XML文件,如下所示:
<?xml version="1.0"?>
<note>
<to>Tove</to>
<infoaboutauthor>
<nestedprofile>
<aboutme>
<gco:CharacterString>I am a 10th grader who likes to play ball.</gco:CharacterString>
在python中,简单地尝试解析XML:
import xml.etree.ElementTree as ET
data = 'info.xml'
tree = ET.fromstring(data)
但是得到了错误:
Traceback (most recent call last):
File "C:\mesh\try1.py", line 3, in <module>
tree = ET.fromstring(data)
File "C:\Python27\lib\xml\etree\ElementTree.py", line
我有几个要用python解析的xml文件。我知道python中的ElementTree包,但是我的xml文件不是以树状结构存储的。下面是一个例子
<tag1 attribute1="at1" attribute2="at2">My files are text that I annotated with a tool
to create these xml files.</tag1>
Some parts of the text are enclosed in an xml tag, whereas others are not.
&
我正在尝试解析一个大的文本文件。文本文件实际上不是XML文件。如下所示的标签:
<tag1>
<tagsomedata> text1 </tagsomedata>
<text> text some pattern1 </text>
</tag1>
<tag1>
<tagsomedata> text2 </tagsomedata>
<text> text some pattern2 </text>
</tag1>
以此类推..
我需要以下形式的输出:
t
我试图用将一个HTML表解析为python (2.7)。当我尝试使用字符串的前两种方法之一时(如示例中所示),它的工作原理非常完美。但是,当我试图在etree.xml页面上使用urlib时,我会得到一个错误。我检查了每一个解决方案,我传递的变量也是str。关于下列代码:
from lxml import etree
import urllib
yearurl="http://www.boxofficemojo.com/yearly/chart/?yr=2014&p=.htm"
s=urllib.urlopen(yearurl).read()
print type (s)