文章/答案/技术大牛

发布

社区首页 >问答首页 >在带有特定文本的<td>标记旁边获取<th>文本

问在带有特定文本的<td>标记旁边获取<th>文本
EN

Stack Overflow用户

提问于 2020-11-25 17:20:17

回答 1查看 41关注 0票数 0

我想从transfermarkt.de上检索几个玩家的信息，比如曼努埃尔·诺伊尔生日。下面是相关的html的样子：

<tr>
    <th>Geburtsdatum:</th>
    <td>
        <a href="/aktuell/waspassiertheute/aktuell/new/datum/1986-03-27">27.03.1986</a>                                     
    </td>
</tr>

我知道我可以通过使用以下代码获得日期：

soup = BeautifulSoup(source_code, "html.parser")
player_attributes = soup.find("table", class_ = 'auflistung')
rows = player_attributes.find_all('tr')
date_of_birth = re.search(r'([0-9]+\.[0-9]+\.[0-9]+)', rows[1].get_text(), re.M)[0]

但这是相当脆弱的。对于罗伯特·莱万多夫斯基来说，出生日期处于不同的位置。因此，出现在球员配置文件中的属性是不同的。有什么方法能在逻辑上做到

在标签中找到带有“Geburtsdatum：”的标签
立即获取标记的文本。

越健壮越好:)

html

web-scraping

beautifulsoup

python

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-11-25 21:06:33

BeautifulSoup允许使用findNext()方法检索下一个兄弟姐妹。

from bs4 import BeautifulSoup
import requests

html = requests.get('https://www.transfermarkt.de/manuel-neuer/profil/spieler/17259', headers = {'User-Agent': 'Custom'})
soup = BeautifulSoup(source_code, "html.parser") 
player_attributes = soup.find("table", class_ = 'auflistung') 
rows = player_attributes.find_all('tr') 

def get_table_value(rows, table_header):
    for row in rows:
        helpers = row.find_all(text=re.compile(table_header))
        if helpers is not None:
            for helper in helpers:
                return helper.find_next('td').get_text()

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/65009727

复制

相似问题

问在带有特定文本的<td>标记旁边获取<th>文本
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在带有特定文本的<td>标记旁边获取<th>文本EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在带有特定文本的<td>标记旁边获取<th>文本
EN