文章/答案/技术大牛

发布

社区首页 >问答首页 >如何从包含多个td嵌套标记的表中抓取

问如何从包含多个td嵌套标记的表中抓取
EN

Stack Overflow用户

提问于 2016-08-14 07:57:27

回答 1查看 218关注 0票数 0

我已经从这个页面(http://www.itjuzi.com/company/934)中抓取了数据，但我想得到的是一个带有子td标记的列表，以及一个带有父td标记的列表。

守则如下：

response.xpath("//table[@class='list-round-v2']//tr/td[4]//text()").extract()

我想要的结果如下：

[["骊悦投资","长山兴资本"],
["中信产业基金","高瓴资本Hillhouse Capital","IDG资本","北极光创投","DCM中国"]]

python

xpath

scrapy

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-08-14 12:19:55

这将完成这项工作。

textlist=[]
for row in response.xpath("//table[contains(@class,'list-round-v2')]//tr"):
    textlist.append(row.xpath("td[4]//text()[parent::a|parent::span]").extract())

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/38940281

复制

相似问题

问如何从包含多个td嵌套标记的表中抓取
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从包含多个td嵌套标记的表中抓取EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从包含多个td嵌套标记的表中抓取
EN