blocks|key|589346|text|您可以使用BeautifulSoup来解析XML：|type|unstyled|depth|inlineStyleRanges|entityRanges|offset|length|data|589347|import+bs4+as+bs
content='''\
<item>
<title><![CDATA[Title+Sample]]></title>
<link+/><![CDATA[http://banhada.kr/?cateCode=09&viewCode=S0941580]]>
<time_start>2011-10-10+09:00:00</time_start>
<time_end>2011-10-17+09:00:00</time_end>
<price_original>35000</price_original>
<price_now>20000</price_now>
</item>'''++++

soup+=+bs.BeautifulSoup(content,+'xml')

title+=+soup.title
print(title.string)
#+Title+Sample

link+=+soup.link.nextSibling
print(link)
#+http://banhada.kr/?cateCode=09&viewCode=S0941580|code-block|syntax|javascript|589348|在幕后，BeautifulSoup使用lxml解析XML。尽管这里不需要，但您可能希望直接使用lxml，因为它为您提供了使用XPath在XML中导航的更简洁的方法：|589349|import+lxml.etree+as+ET

content='''\
<item>
<title><![CDATA[Title+Sample]]></title>
<link+/><![CDATA[http://banhada.kr/?cateCode=09&viewCode=S0941580]]>
<time_start>2011-10-10+09:00:00</time_start>
<time_end>2011-10-17+09:00:00</time_end>
<price_original>35000</price_original>
<price_now>20000</price_now>
</item>'''++++

doc+=+ET.fromstring(content)

title+=+doc.find('title')
print(title.text)
#+Title+Sample

link+=+doc.find('link')
print(link.tail)
#+http://banhada.kr/?cateCode=09&viewCode=S0941580|589350|entityMap|0|LINK|mutability|MUTABLE|url|http://www.crummy.com/software/BeautifulSoup/documentation.html#Parsing%2520XML|1|http://codespeak.net/lxml/^0|5|D|0|0|0|J|4|1|0|0^^$0|@$1|2|3|4|5|6|7|W|8|@]|9|@$A|X|B|Y|1|Z]]|C|$]]|$1|D|3|E|5|F|7|10|8|@]|9|@]|C|$G|H]]|$1|I|3|J|5|6|7|11|8|@]|9|@$A|12|B|13|1|14]]|C|$]]|$1|K|3|L|5|F|7|15|8|@]|9|@]|C|$G|H]]|$1|M|3|-4|5|6|7|16|8|@]|9|@]|C|$]]]|N|$O|$5|P|Q|R|C|$S|T]]|U|$5|P|Q|R|C|$S|V]]]]

You could use <a href="http://www.crummy.com/software/BeautifulSoup/documentation.html#Parsing%20XML" rel="noreferrer">BeautifulSoup</a> to parse XML:

<pre><code>import bs4 as bs
content='''\
&lt;item&gt;
&lt;title&gt;&lt;![CDATA[Title Sample]]&gt;&lt;/title&gt;
&lt;link /&gt;&lt;![CDATA[http://banhada.kr/?cateCode=09&amp;viewCode=S0941580]]&gt;
&lt;time_start&gt;2011-10-10 09:00:00&lt;/time_start&gt;
&lt;time_end&gt;2011-10-17 09:00:00&lt;/time_end&gt;
&lt;price_original&gt;35000&lt;/price_original&gt;
&lt;price_now&gt;20000&lt;/price_now&gt;
&lt;/item&gt;''' 

soup = bs.BeautifulSoup(content, 'xml')

title = soup.title
print(title.string)
# Title Sample

link = soup.link.nextSibling
print(link)
# http://banhada.kr/?cateCode=09&amp;viewCode=S0941580
</code></pre>

Under the hood, BeautifulSoup uses <a href="http://codespeak.net/lxml/" rel="noreferrer">lxml</a> for parsing XML.
Although it's not needed here, you might want to use lxml directly, since it gives you more succinct ways to navigate through XML using XPath:

<pre><code>import lxml.etree as ET

content='''\
&lt;item&gt;
&lt;title&gt;&lt;![CDATA[Title Sample]]&gt;&lt;/title&gt;
&lt;link /&gt;&lt;![CDATA[http://banhada.kr/?cateCode=09&amp;viewCode=S0941580]]&gt;
&lt;time_start&gt;2011-10-10 09:00:00&lt;/time_start&gt;
&lt;time_end&gt;2011-10-17 09:00:00&lt;/time_end&gt;
&lt;price_original&gt;35000&lt;/price_original&gt;
&lt;price_now&gt;20000&lt;/price_now&gt;
&lt;/item&gt;''' 

doc = ET.fromstring(content)

title = doc.find('title')
print(title.text)
# Title Sample

link = doc.find('link')
print(link.tail)
# http://banhada.kr/?cateCode=09&amp;viewCode=S0941580
</code></pre>

blocks|key|585257|text|您不需要BeautifulStoneSoup或lxml。Python附带的电池可以很好地完成这项工作，而且您的XML似乎没有任何不兼容的地方。|type|unstyled|depth|inlineStyleRanges|entityRanges|data|585258|>>>+content='''\
...+<item>
...+<title><![CDATA[Title+Sample]]></title>
...+<link+/><![CDATA[http://banhada.kr/?cateCode=09&viewCode=S0941580]]>
...+<time_start>2011-10-10+09:00:00</time_start>
...+<time_end>2011-10-17+09:00:00</time_end>
...+<price_original>35000</price_original>
...+<price_now>20000</price_now>
...+</item>'''
>>>+import+xml.etree.cElementTree+as+et
>>>+foo+=+et.XML(content)
>>>+for+e+in+foo:
...+++++print+e.tag,+e.text,+repr(e.tail)
...
title+Title+Sample+'\n'
link+None+'http://banhada.kr/?cateCode=09&viewCode=S0941580\n'
time_start+2011-10-10+09:00:00+'\n'
time_end+2011-10-17+09:00:00+'\n'
price_original+35000+'\n'
price_now+20000+'\n'
>>>|code-block|syntax|javascript|585259|entityMap^0|0|0^^$0|@$1|2|3|4|5|6|7|I|8|@]|9|@]|A|$]]|$1|B|3|C|5|D|7|J|8|@]|9|@]|A|$E|F]]|$1|G|3|-4|5|6|7|K|8|@]|9|@]|A|$]]]|H|$]]

You don't need BeautifulStoneSoup or lxml. Python's included batteries do the job just fine, and there doesn't seem to be anything non-compliant about your XML.

<pre><code>&gt;&gt;&gt; content='''\
... &lt;item&gt;
... &lt;title&gt;&lt;![CDATA[Title Sample]]&gt;&lt;/title&gt;
... &lt;link /&gt;&lt;![CDATA[http://banhada.kr/?cateCode=09&amp;viewCode=S0941580]]&gt;
... &lt;time_start&gt;2011-10-10 09:00:00&lt;/time_start&gt;
... &lt;time_end&gt;2011-10-17 09:00:00&lt;/time_end&gt;
... &lt;price_original&gt;35000&lt;/price_original&gt;
... &lt;price_now&gt;20000&lt;/price_now&gt;
... &lt;/item&gt;'''
&gt;&gt;&gt; import xml.etree.cElementTree as et
&gt;&gt;&gt; foo = et.XML(content)
&gt;&gt;&gt; for e in foo:
... print e.tag, e.text, repr(e.tail)
...
title Title Sample '\n'
link None 'http://banhada.kr/?cateCode=09&amp;viewCode=S0941580\n'
time_start 2011-10-10 09:00:00 '\n'
time_end 2011-10-17 09:00:00 '\n'
price_original 35000 '\n'
price_now 20000 '\n'
&gt;&gt;&gt;
</code></pre>

When I want to parsing XML document in Python using BeautifulSoup library, 
I faced some problems. The XML document that I want to parse:

<pre><code>&lt;item&gt;
&lt;title&gt;&lt;![CDATA[Title Sample]]&gt;&lt;/title&gt;
&lt;link /&gt;&lt;![CDATA[http://banhada.kr/?cateCode=09&amp;viewCode=S0941580]]&gt;
&lt;time_start&gt;2011-10-10 09:00:00&lt;/time_start&gt;
&lt;time_end&gt;2011-10-17 09:00:00&lt;/time_end&gt;
&lt;price_original&gt;35000&lt;/price_original&gt;
&lt;price_now&gt;20000&lt;/price_now&gt;
&lt;/item&gt;
</code></pre>

As you can see above, tag is a little strange. In my opinion, that( tag) is not a stand XML form, right? How can I parse this terrible form?

Parsing non-standard XML (CDATA tag)

翻译质量差，导致语言生硬或混乱。

没有提供实际的解决方法或示例。

解答不清晰，无法理解或解决问题。

页面排版不美观，阅读体验差。

文章

问答

视频

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

当我想用BeautifulSoup库解析Python中的XML文档时，我遇到了一些问题。我要解析的XML文档：<item><title><![CDATA[Title Sample]]></title><link /><![CDATA[http://banhada.kr/?cateCode=09&viewCode=S09...

问解析非标准XML (CDATA标记)
EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问解析非标准XML (CDATA标记)EN