首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >使用lxml解析命名空间的HTML?

使用lxml解析命名空间的HTML?
EN

Stack Overflow用户
提问于 2015-04-10 23:33:32
回答 3查看 314关注 0票数 16

这简直要把我逼疯了,我已经为此挣扎了好几个小时了。任何帮助都将不胜感激。

我正在使用PyQuery 1.2.9 (它构建在lxml之上)来抓取this URL。我只想获得.linkoutlist部分中所有链接的列表。

这是我的完整请求:

代码语言:javascript
复制
response = requests.get('http://www.ncbi.nlm.nih.gov/pubmed/?term=The%20cost-effectiveness%20of%20mirtazapine%20versus%20paroxetine%20in%20treating%20people%20with%20depression%20in%20primary%20care')
doc = pq(response.content)
links = doc('#maincontent .linkoutlist a')
print links

但这会返回一个空数组。如果我使用下面的查询:

代码语言:javascript
复制
links = doc('#maincontent .linkoutlist')

然后我得到这个HTML:

代码语言:javascript
复制
<div xmlns="http://www.w3.org/1999/xhtml" xmlns:xi="http://www.w3.org/2001/XInclude" class="linkoutlist">
   <h4>Full Text Sources</h4>
   <ul>
      <li><a title="Full text at publisher's site" href="http://meta.wkhealth.com/pt/pt-core/template-journal/lwwgateway/media/landingpage.htm?issn=0268-1315&amp;volume=19&amp;issue=3&amp;spage=125" ref="itool=Abstract&amp;PrId=3159&amp;uid=15107654&amp;db=pubmed&amp;log$=linkoutlink&amp;nlmid=8609061" target="_blank">Lippincott Williams &amp; Wilkins</a></li>
      <li><a href="http://ovidsp.ovid.com/ovidweb.cgi?T=JS&amp;PAGE=linkout&amp;SEARCH=15107654.ui" ref="itool=Abstract&amp;PrId=3682&amp;uid=15107654&amp;db=pubmed&amp;log$=linkoutlink&amp;nlmid=8609061" target="_blank">Ovid Technologies, Inc.</a></li>
   </ul>
   <h4>Other Literature Sources</h4>
   ...
</div>

所以父选择器确实返回了带有大量<a>标签的HTML.这似乎也是有效的HTML。

更多的实验表明,由于某些原因,lxml不喜欢打开div上的xmlns属性。

我如何在lxml中忽略它,并像解析普通HTML一样解析它呢?

更新:正在尝试ns_clean,仍然失败:

代码语言:javascript
复制
    parser = etree.XMLParser(ns_clean=True)
    tree = etree.parse(StringIO(response.content), parser)
    sel = CSSSelector('#maincontent .rprt_all a')
    print sel(tree)
EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2015-04-13 11:06:05

你需要处理命名空间,包括一个空的命名空间。

工作解决方案:

代码语言:javascript
复制
from pyquery import PyQuery as pq
import requests


response = requests.get('http://www.ncbi.nlm.nih.gov/pubmed/?term=The%20cost-effectiveness%20of%20mirtazapine%20versus%20paroxetine%20in%20treating%20people%20with%20depression%20in%20primary%20care')

namespaces = {'xi': 'http://www.w3.org/2001/XInclude', 'test': 'http://www.w3.org/1999/xhtml'}
links = pq('#maincontent .linkoutlist test|a', response.content, namespaces=namespaces)
for link in links:
    print link.attrib.get("title", "No title")

打印与选择器匹配的所有链接的标题:

代码语言:javascript
复制
Full text at publisher's site
No title
Free resource
Free resource
Free resource
Free resource

或者,只需将parser设置为"html"并忽略名称空间:

代码语言:javascript
复制
links = pq('#maincontent .linkoutlist a', response.content, parser="html")
for link in links:
    print link.attrib.get("title", "No title")
票数 6
EN

Stack Overflow用户

发布于 2015-04-13 08:21:55

祝你好运,让一个标准的XML/DOM解析器能够在大多数HTML上工作。最好的选择是使用BeautifulSoup (pip install beautifulsoup4easy_install beautifulsoup4),它可以处理构建不正确的结构。也许就像这样呢?

代码语言:javascript
复制
import requests
from bs4 import BeautifulSoup

response = requests.get('http://www.ncbi.nlm.nih.gov/pubmed/?term=The%20cost-effectiveness%20of%20mirtazapine%20versus%20paroxetine%20in%20treating%20people%20with%20depression%20in%20primary%20care')
bs = BeautifulSoup(response.content)
div = bs.find('div', class_='linkoutlist')
links = [ a['href'] for a in div.find_all('a') ]

>>> links
['http://meta.wkhealth.com/pt/pt-core/template-journal/lwwgateway/media/landingpage.htm?issn=0268-1315&volume=19&issue=3&spage=125', 'http://ovidsp.ovid.com/ovidweb.cgi?T=JS&PAGE=linkout&SEARCH=15107654.ui', 'https://www.researchgate.net/publication/e/pm/15107654?ln_t=p&ln_o=linkout', 'http://www.diseaseinfosearch.org/result/2199', 'http://www.nlm.nih.gov/medlineplus/antidepressants.html', 'http://toxnet.nlm.nih.gov/cgi-bin/sis/search/r?dbs+hsdb:@term+@rn+24219-97-4']

我知道这不是您想要使用的库,但在使用DOM时,我曾多次遇到麻烦。BeautifulSoup的创建者绕过了许多容易在野外发生的边缘情况。

票数 2
EN

Stack Overflow用户

发布于 2015-04-13 08:01:04

如果我没记错的话,不久前我自己也遇到过类似的问题。您可以通过将名称空间映射到None来“忽略”它,如下所示:

代码语言:javascript
复制
sel = CSSSelector('#maincontent .rprt_all a', namespaces={None: "http://www.w3.org/1999/xhtml"})
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/29565335

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档