如何使用lxml解析名称空间的HTML?

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (2)
  • 关注 (0)
  • 查看 (30)

我在用PyQuery1.2.9(建在)刮这个URL.我只想得到一个列表,其中列出了部分。

这是我的全部要求:

response = requests.get('http://www.ncbi.nlm.nih.gov/pubmed/?term=The%20cost-effectiveness%20of%20mirtazapine%20versus%20paroxetine%20in%20treating%20people%20with%20depression%20in%20primary%20care')
doc = pq(response.content)
links = doc('#maincontent .linkoutlist a')
print links

但这会返回一个空数组。如果我使用此查询,则:

links = doc('#maincontent .linkoutlist')

然后我把它拿回来这个HTML:

<div xmlns="http://www.w3.org/1999/xhtml" xmlns:xi="http://www.w3.org/2001/XInclude" class="linkoutlist">
   <h4>Full Text Sources</h4>
   <ul>
      <li><a title="Full text at publisher's site" href="http://meta.wkhealth.com/pt/pt-core/template-journal/lwwgateway/media/landingpage.htm?issn=0268-1315&amp;volume=19&amp;issue=3&amp;spage=125" ref="itool=Abstract&amp;PrId=3159&amp;uid=15107654&amp;db=pubmed&amp;log$=linkoutlink&amp;nlmid=8609061" target="_blank">Lippincott Williams &amp; Wilkins</a></li>
      <li><a href="http://ovidsp.ovid.com/ovidweb.cgi?T=JS&amp;PAGE=linkout&amp;SEARCH=15107654.ui" ref="itool=Abstract&amp;PrId=3682&amp;uid=15107654&amp;db=pubmed&amp;log$=linkoutlink&amp;nlmid=8609061" target="_blank">Ovid Technologies, Inc.</a></li>
   </ul>
   <h4>Other Literature Sources</h4>
   ...
</div>

我如何在lxml中忽略这一点,并像解析常规HTML一样解析它呢?

提问于
用户回答回答于

你需要处理命名空间,例如:

from pyquery import PyQuery as pq
import requests


response = requests.get('http://www.ncbi.nlm.nih.gov/pubmed/?term=The%20cost-effectiveness%20of%20mirtazapine%20versus%20paroxetine%20in%20treating%20people%20with%20depression%20in%20primary%20care')

namespaces = {'xi': 'http://www.w3.org/2001/XInclude', 'test': 'http://www.w3.org/1999/xhtml'}
links = pq('#maincontent .linkoutlist test|a', response.content, namespaces=namespaces)
for link in links:
    print link.attrib.get("title", "No title")

打印与选择器匹配的所有链接的标题:

Full text at publisher's site
No title
Free resource
Free resource
Free resource
Free resource

可以设置“html”:

links = pq('#maincontent .linkoutlist a', response.content, parser="html")
for link in links:
    print link.attrib.get("title", "No title")

热门问答

Tencent Cloud API 3.0 SDK for PHP 没有文件夹 vendor?

推荐

为了防止和composer冲突,所以github上特意设置了不导出这个目录。如需要获取源码,请使用git clone的方式获取,不要用github上的下载源码方式。

lora接入腾讯物联网是只能在深圳地区吗?

DylanRichard

腾讯 · 产品经理 (已认证)

万物互联的时代,欢迎来到IoT的世界
推荐

深圳的南山及龙岗全区,可以租用腾讯运营的网络,支持CLAA协议,其它区域需要客户购买网关接入LPWA物联网络管理平台,支持LoRaWAN协议,我们也有网关、模组及传感器产品售卖。

ckafka是否支持kafka-connect-jdbc?

您好, 现在CKafka支持 kafka-connect-kafka(内侧功能),暂时还不能支持 jdbc的connector。如果这是您的需求,请提交工单,联系腾讯云工程师描述您的需求,我们会尽快规划并实现。

沙龙活动报名通知什么时候会收到通知呢?

Richel码农
推荐已采纳

沙龙报名之后会收到报名成功的短信,活动前一天会发送签到二维码短信和邮件,请留意.

请问有创建项目的sdk吗?

推荐

这是api2.0的接口,使用对应的sdk,代码托管在http://github.com/qcloudapi

云通信 uuid换取下载url 返回的文件地址无法访问?

推荐

您好,这个接口“v4/rich_media/query_file_url”目前新版本已经不支持了,想获取的话,建议升级SDK版本到最新版,最新版用的是cos。新版的拿到URL后直接在浏览器中打开。

所属标签

扫码关注云+社区

领取腾讯云代金券