例如:
▪美国1995年马丁·坎贝尔执导好莱坞电影
▪锦瑟华年创作都市异能小说
▪单兵便携式电脑
▪任天堂Wii主机射击类游戏《黄金眼》
▪珠宝鉴定职业
▪Rare Software制作的N64游戏
▪大鹏金翅明王小说
▪证券分析软件
▪《藏地密码》中的藏獒
首先,我可以提取多个项目:
multi_entry = soup.findAll('ul', attrs = {'class': 'polysemantList-wrapper cmn-clearfix'})
那么如何导航子标记li的href呢?我想要获取每个项目中所有urls的列表。下面的代码可以提取所有'li‘项,但不一定是从polysemantList部分提取的。
li_items = soup.findAll('li', attrs={'class': 'item'})
发布于 2021-02-25 09:29:50
我们可以找到所有li
使用一个类item
在polysemantList-wrapper cmn-clearfix
一次搜索。然后我们可以遍历结并输出href
值。
li = soup.find("ul", { "class" : "polysemantList-wrapper cmn-clearfix" }).findAll("li", attrs={'class': 'item'}, recursive=False)
for e in li:
for x in e.findAll('a', href=True):
print(x['href'])
还可以使用列表理解输出列表
[x['href'] for e in li for x in e.findAll('a', href=True)]
输出
/item/%E9%BB%84%E9%87%91%E7%9C%BC/7822656#viewPageContent
/item/%E9%BB%84%E9%87%91%E7%9C%BC/16402442#viewPageContent
/item/%E9%BB%84%E9%87%91%E7%9C%BC/9585407#viewPageContent
/item/%E9%BB%84%E9%87%91%E7%9C%BC/9585395#viewPageContent
/item/%E9%BB%84%E9%87%91%E7%9C%BC/10704458#viewPageContent
/item/%E9%BB%84%E9%87%91%E7%9C%BC/17571741#viewPageContent
/item/%E9%BB%84%E9%87%91%E7%9C%BC/9585420#viewPageContent
/item/%E9%BB%84%E9%87%91%E7%9C%BC/9585384#viewPageContent
https://stackoverflow.com/questions/66361039
复制相似问题