如何使用lxml解析名称空间的HTML?

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (2)
  • 关注 (0)
  • 查看 (30)

我在用PyQuery1.2.9(建在)刮这个URL.我只想得到一个列表,其中列出了部分。

这是我的全部要求:

response = requests.get('http://www.ncbi.nlm.nih.gov/pubmed/?term=The%20cost-effectiveness%20of%20mirtazapine%20versus%20paroxetine%20in%20treating%20people%20with%20depression%20in%20primary%20care')
doc = pq(response.content)
links = doc('#maincontent .linkoutlist a')
print links

但这会返回一个空数组。如果我使用此查询,则:

links = doc('#maincontent .linkoutlist')

然后我把它拿回来这个HTML:

<div xmlns="http://www.w3.org/1999/xhtml" xmlns:xi="http://www.w3.org/2001/XInclude" class="linkoutlist">
   <h4>Full Text Sources</h4>
   <ul>
      <li><a title="Full text at publisher's site" href="http://meta.wkhealth.com/pt/pt-core/template-journal/lwwgateway/media/landingpage.htm?issn=0268-1315&amp;volume=19&amp;issue=3&amp;spage=125" ref="itool=Abstract&amp;PrId=3159&amp;uid=15107654&amp;db=pubmed&amp;log$=linkoutlink&amp;nlmid=8609061" target="_blank">Lippincott Williams &amp; Wilkins</a></li>
      <li><a href="http://ovidsp.ovid.com/ovidweb.cgi?T=JS&amp;PAGE=linkout&amp;SEARCH=15107654.ui" ref="itool=Abstract&amp;PrId=3682&amp;uid=15107654&amp;db=pubmed&amp;log$=linkoutlink&amp;nlmid=8609061" target="_blank">Ovid Technologies, Inc.</a></li>
   </ul>
   <h4>Other Literature Sources</h4>
   ...
</div>

我如何在lxml中忽略这一点,并像解析常规HTML一样解析它呢?

提问于
用户回答回答于
import requests
from bs4 import BeautifulSoup

response = requests.get('http://www.ncbi.nlm.nih.gov/pubmed/?term=The%20cost-effectiveness%20of%20mirtazapine%20versus%20paroxetine%20in%20treating%20people%20with%20depression%20in%20primary%20care')
bs = BeautifulSoup(response.content)
div = bs.find('div', class_='linkoutlist')
links = [ a['href'] for a in div.find_all('a') ]

>>> links
['http://meta.wkhealth.com/pt/pt-core/template-journal/lwwgateway/media/landingpage.htm?issn=0268-1315&volume=19&issue=3&spage=125', 'http://ovidsp.ovid.com/ovidweb.cgi?T=JS&PAGE=linkout&SEARCH=15107654.ui', 'https://www.researchgate.net/publication/e/pm/15107654?ln_t=p&ln_o=linkout', 'http://www.diseaseinfosearch.org/result/2199', 'http://www.nlm.nih.gov/medlineplus/antidepressants.html', 'http://toxnet.nlm.nih.gov/cgi-bin/sis/search/r?dbs+hsdb:@term+@rn+24219-97-4']

热门问答

微信小程序什么情况下需要域名,什么情况下不需要?

最爱开车啦互联网的敏感者
推荐已采纳

1:不需要域名:使用微信门店小程序、微信小店小程序,以及静态的小程序(只有前端)

2:需要域名:小程序代码包限制在2M之内,好多东西都没法在代码包中加载,只能通过第三方web后台管理,后台是第三方的,假设是一个web网站,网站必须有服务器,就需要域名备案。

报考TCA可以同时在一天报考运维和架构的考试吗?

推荐

可以的,同一天最多支持报考两个科目,若您报考了两门科目考试,考试将以连考的形式在同一考场内进行。(例:14:00-15:30考云从业者,15:30-17:00考TCA运维)

腾讯云服务器上配置nginx访问对象存储,这样算内网还是外网访问呢?

Jinqn

腾讯 · 高级工程师 (已认证)

腾讯云COS前端开发
推荐

同园区会是内网,准确验证方法是,ping 对应存储桶域名,看看如果是 100. 10. 9. 172. 这样开头的内网 IP,就可以确定是内网访问,否则是外网访问。

关于云空间使用后是否需要再次交费的问题?

骑牛看晨曦love&peace~
推荐
如果是包年包月的服务器一次性付费后,访问服务器里搭建的网站,服务器不会有其他的流量费的,但是如果是后付费按量 按流量计费的服务器,会按每小时扣用户使用服务器资源的费用,产生流量也会按照官网价格计费的 。 请参考文档:https://cloud.tencent.com/produ...... 展开详请

IM会话类型可以扩展吗?

software微软、谷歌、腾讯、阿里、百度……
推荐
您好,IM SDK会话分为以下几种 1、C2C 会话,表示单聊情况自己与对方建立的对话,读取消息和发送消息都是通过会话完成。 2、群会话,表示群聊情况下,群内成员组成的会话,群会话内发送消息群成员都可接收到。 会话分组暂不支持,需要您自行处理UI,同步分组信息。... 展开详请

Tencent Cloud API 3.0 SDK for PHP 没有文件夹 vendor?

推荐

为了防止和composer冲突,所以github上特意设置了不导出这个目录。如需要获取源码,请使用git clone的方式获取,不要用github上的下载源码方式。

所属标签

扫码关注云+社区

领取腾讯云代金券