当我想用BeautifulSoup库解析Python中的XML文档时,我遇到了一些问题。我要解析的XML文档:
<item>
<title><![CDATA[Title Sample]]></title>
<link /><![CDATA[http://banhada.kr/?cateCode=09&viewCode=S0941580]]>
<time_start>2011-10-10 09:00:00</time_start>
<time_end>2011-10-17 09:00:00</time_end>
<price_original>35000</price_original>
<price_now>20000</price_now>
</item>正如你在上面看到的,标签有点奇怪。在我看来,(标签)不是标准的XML表单,对吧?我如何解析这个糟糕的表单呢?
发布于 2011-10-17 19:38:34
您不需要BeautifulStoneSoup或lxml。Python附带的电池可以很好地完成这项工作,而且您的XML似乎没有任何不兼容的地方。
>>> content='''\
... <item>
... <title><![CDATA[Title Sample]]></title>
... <link /><![CDATA[http://banhada.kr/?cateCode=09&viewCode=S0941580]]>
... <time_start>2011-10-10 09:00:00</time_start>
... <time_end>2011-10-17 09:00:00</time_end>
... <price_original>35000</price_original>
... <price_now>20000</price_now>
... </item>'''
>>> import xml.etree.cElementTree as et
>>> foo = et.XML(content)
>>> for e in foo:
... print e.tag, e.text, repr(e.tail)
...
title Title Sample '\n'
link None 'http://banhada.kr/?cateCode=09&viewCode=S0941580\n'
time_start 2011-10-10 09:00:00 '\n'
time_end 2011-10-17 09:00:00 '\n'
price_original 35000 '\n'
price_now 20000 '\n'
>>>https://stackoverflow.com/questions/7785831
复制相似问题