首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >使用Beautifulsoup,如何提取标签中未嵌入的信息

使用Beautifulsoup,如何提取标签中未嵌入的信息
EN

Stack Overflow用户
提问于 2018-08-01 04:45:15
回答 1查看 27关注 0票数 1

我正在尝试解析这个页面中的一些精选信息:https://voyage.gc.ca/assistance/ambassades-consulats/acores

更具体地说,我正在尝试提取地址,它就在

代码语言:javascript
复制
"<span class="ha-label">Adresse</span>"

和电话号码,就在后面

代码语言:javascript
复制
"<span class="ha-label">Téléphone</span>"

摘自以下html摘录:

代码语言:javascript
复制
<p></p><h3>Services locaux</h3><section><details class="ha-office"> <summary>Services d’urgence </summary><div class="mrgn-tp-md mrgn-bttm-md"><p>Composez le 112 pour toute aide d’urgence.</p></div></details></section><h3>Aide consulaire</h3><details class="span-3 ha-office"><summary><strong>Ponta Delgada</strong> - Consulat du Canada</summary><div><span class="ha-label">Adresse</span>Rua D’Agua, 28, 9500-040 Ponta Delgada, São Miguel, Azores, Portugal<span class="ha-label">Téléphone</span>+351 296 281 488<span class="ha-label">Télécopieur</span>+351 296 287 769<span class="ha-label">Courriel</span><a class="offices" href="mailto:canada.pdl@gmail.com">canada.pdl@gmail.com</a><span class="ha-label">Facebook</span><span class="ha-has-facebook"></span><a href="https://www.facebook.com/CanadaauPortugal/?ref=hl" target="_blank">Ambassade du Canada au Portugal</a><span class="ha-label">Heures d’ouverture :</span>Lundi au vendredi, de 9 h 00 à 12 h 30 et de 14 h à 16 h</div></details><details class="span-3 ha-office"><summary><strong>Lisbonne</strong> - Ambassade du Canada</summary><div><span class="ha-label">Adresse</span>Avenida da Liberdade 198-200, 3e étage, 1269-121, Lisbonne, Portugal<span class="ha-label">Téléphone</span>+351 21 316 4600<span class="ha-label">Télécopieur</span>+351 21 316 4693<span class="ha-label">Courriel</span><a class="offices" href="mailto:lsbon.consulaire@international.gc.ca">lsbon.consulaire@international.gc.ca</a><span class="ha-label">Internet</span><span class="ha-has-internet"></span><a href="http://www.portugal.gc.ca" target="_blank">www.portugal.gc.ca</a><span class="ha-label">Services</span><span class="ha-text ha-has-passport">Des services de passeport sont offerts</span><span class="ha-label">Facebook</span><span class="ha-has-facebook"></span><a href="https://www.facebook.com/pages/Ambassade-du-Canada-au-Portugal/771363522882326" target="_blank">Ambassade du Canada au Portugal</a></div></details><p>Pour obtenir une aide consulaire d'urgence, téléphonez à l'ambassade du Canada à Lisbonne et suivez les instructions qui vous seront données. À tout moment, vous pouvez aussi communiquer avec le <a href="http://voyage.gc.ca/assistance/assistance-d-urgence">Centre de surveillance et d'intervention d’urgence</a> à Ottawa.</p><p></p>

由于我要查找的内容没有嵌入到标记中,我如何访问这些数据?

如果它有助于提供一些上下文,这是我到目前为止的代码:

代码语言:javascript
复制
data, links = parser.getLinks("https://voyage.gc.ca/assistance/ambassades-consulats/" + p)
soup = BeautifulSoup(data, "lxml")
for x in soup.findAll('h3'):
    if 'Aide consulaire' in x:
        for y in soup.find("span", {"class": "ha-label"}):  
            print (y)
EN

回答 1

Stack Overflow用户

发布于 2018-08-01 05:03:30

这将从页面上的所有“助理顾问”那里获得信息:

代码语言:javascript
复制
from bs4 import BeautifulSoup, NavigableString
import requests
from pprint import pprint

r = requests.get('https://voyage.gc.ca/assistance/ambassades-consulats/acores')
soup = BeautifulSoup(r.text, 'lxml')

d = {}
for details in soup.select('details'):
    d2 = {}
    d[details.select_one('summary').text] = d2
    for label in details.select('.ha-label'):
        d2[label.text] = label.nextSibling if isinstance(label.nextSibling, NavigableString) else label.nextSibling.text
        if not d2[label.text]:
            del d2[label.text]

pprint(d)

打印:

代码语言:javascript
复制
{'Lisbonne - Ambassade du Canada': {'Adresse': 'Avenida da Liberdade 198-200, '
                                               '3e étage, 1269-121, Lisbonne, '
                                               'Portugal',
                                    'Courriel': 'lsbon.consulaire@international.gc.ca',
                                    'Services': 'Des services de passeport '
                                                'sont offerts',
                                    'Télécopieur': '+351 21 316 4693',
                                    'Téléphone': '+351 21 316 4600'},
 'Ponta Delgada - Consulat du Canada': {'Adresse': 'Rua D’Agua, 28, 9500-040 '
                                                   'Ponta Delgada, São Miguel, '
                                                   'Azores, Portugal',
                                        'Courriel': 'canada.pdl@gmail.com',
                                        'Heures d’ouverture :': 'Lundi au '
                                                                'vendredi, de '
                                                                '9 h 00 à 12 h '
                                                                '30 et de 14 h '
                                                                'à 16 h',
                                        'Télécopieur': '+351 296 287 769',
                                        'Téléphone': '+351 296 281 488'},
 'Services d’urgence ': {}}

要获得每个助理领事的地址和电话:

代码语言:javascript
复制
for k, v in d.items():
    print(k)
    print(v.get('Adresse', '-'))
    print(v.get('Téléphone', '-'))
    print('-' * 80)

打印:

代码语言:javascript
复制
Services d’urgence 
-
-
--------------------------------------------------------------------------------
Ponta Delgada - Consulat du Canada
Rua D’Agua, 28, 9500-040 Ponta Delgada, São Miguel, Azores, Portugal
+351 296 281 488
--------------------------------------------------------------------------------
Lisbonne - Ambassade du Canada
Avenida da Liberdade 198-200, 3e étage, 1269-121, Lisbonne, Portugal
+351 21 316 4600
--------------------------------------------------------------------------------
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51621802

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档