从find_next_sibling()、BeautifulSoup提取文本

find_next_sibling()是BeautifulSoup库中的一个方法，用于查找当前节点的下一个兄弟节点。

在HTML文档中，节点之间的关系可以分为父子关系和兄弟关系。兄弟节点是指具有相同父节点的节点。find_next_sibling()方法可以帮助我们在兄弟节点中查找符合条件的节点。

使用该方法时，可以传入一个参数来指定要查找的节点的条件。这个参数可以是一个标签名，也可以是一个CSS选择器，或者是一个函数。方法会从当前节点的下一个兄弟节点开始查找，直到找到符合条件的节点或者没有更多的兄弟节点为止。

下面是一个示例代码，演示了如何使用find_next_sibling()方法提取文本：

from bs4 import BeautifulSoup

html = '''
<html>
<body>
<div class="container">
    <h1>标题1</h1>
    <p>段落1</p>
    <p>段落2</p>
    <h2>标题2</h2>
    <p>段落3</p>
    <p>段落4</p>
</div>
</body>
</html>
'''

soup = BeautifulSoup(html, 'html.parser')
p1 = soup.find('p')  # 找到第一个<p>标签
p2 = p1.find_next_sibling('p')  # 找到p1的下一个兄弟节点<p>标签

print(p2.text)  # 输出：段落2

在上面的代码中，我们首先创建了一个BeautifulSoup对象，然后使用find()方法找到第一个<p>标签，并将其赋值给变量p1。接着，我们使用p1的find_next_sibling()方法找到p1的下一个兄弟节点<p>标签，并将其赋值给变量p2。最后，我们通过p2.text获取到了<p>标签中的文本内容，并将其打印出来。

find_next_sibling()方法在爬虫、数据抓取、数据处理等场景中非常有用。它可以帮助我们在HTML文档中定位到我们需要的节点，并提取出其中的文本或其他信息。

腾讯云相关产品中，与HTML文档解析和数据提取相关的服务包括云函数SCF、云爬虫TDSQL、云数据库CDB等。您可以通过访问腾讯云官方网站（https://cloud.tencent.com/）了解更多关于这些产品的详细信息。

从find_next_sibling()、BeautifulSoup提取文本

、、

我正在尝试从这个网站上提取汉字的描述： <tr> <span class="hanzi"><a href/>ài</td> </tr> 我想把最后一个td标签的文本放

浏览 11提问于2016-09-11得票数 0

回答已采纳

1回答

Python -在空页面中绕过Beautifulsoup的“对象没有属性”错误

、、

为了提取我需要的文本，我能够在我的条件执行中使用Beautifulsoup的find_next_sibling来刮除大部分的网页。但是，对于一个特定的页面，网页是空的，因此Python报告了错误：由于空页似乎是由我计划抓取的页面列表中的错误生成的，而且我需要Python继续抓取，而不停止每个类似的实例，因此一种可能的方法是编写一个if条件，只在页面中实际存在find_next_siblin

浏览 6提问于2015-10-29得票数 1

回答已采纳

1回答

BeautifulSoup:获取另一个标记后面的标记文本

、、、

如何使用BeautifulSoup找到另一个标记的标记？在这个例子中，我想得到'0993 999 999‘，它就在div后面，后面有'Telefon:’文本。我认为一定有一种方法可以告诉BeautifulSoup，它就在“Telefon”文本之后，或者其他方式。

浏览 3提问于2014-07-09得票数 2

回答已采纳

1回答

为什么bs4中的find_next_sibling可以在一行代码上工作，而不能在另一行非常相似的代码上工作？

、、

我正在编写一个简单的网络抓取器，以便从德克萨斯环境质量委员会(TCEQ)网站获取数据。我需要的信息在'td‘标签里面。我通过引用前面的'th‘来抓取适当的'td’，它们都有相同的ID文本。我使用find_next_sibling将数据抓取到一个变量中。下面是我的代码：from bs4 import BeautifulSoup URL = "https://www2.tceq.texas.gov/oce/eer

浏览 31提问于2019-10-23得票数 1

回答已采纳

1回答

BeautifulSoup/Python/HTML -在特定div类之后返回div类

、、

示例：<div class="field">331,000</div>使用我可以找到员工数量，但如何才能立即返回字段呢？

浏览 4提问于2015-03-30得票数 1

回答已采纳

1回答

使用Python BeautifulSoup动态地从网页中提取文本

、

我试图从很多玩家的网页中提取玩家的位置(这是的一个例子)。我可以使用以下代码提取Malcolm Brogdon的位置：from urllib.requestimport Request, urlopenimport pandas as pd import numpy as np

浏览 3提问于2020-08-06得票数 1

回答已采纳

2回答

python:美丽的汤提取信息

、

bla bla bla</div><span class="amount">66000 €</span>我想提取这笔钱的数量，我的代码是：html_content=html_content1 soup = Beautif

浏览 6提问于2022-10-28得票数 1

1回答

从Pandas中的HTML字符串中提取数据元素

、、、

kendef grab_data(s): 我想在python中尝试lxml中的一个方法，并希望从HTML中提取值

浏览 11提问于2022-12-04得票数 1

2回答

使用beautifulSoup从非结构化网页中抓取文本

、、、、

我希望采取某些网页的文本的所有相关文本部分，并将其解析为结构化格式，例如CSV文件供以后使用。www.cs.bham.ac.uk/research/groupings/robotics/ http://www.cs.bham.ac.uk/research/groupings/reasoning/ 我一直在使用BeautifulSoup如何编写代码从这些页面中提取正文？我是否可以提取所有文本

浏览 0提问于2018-07-24得票数 0

2回答

尝试提取数据并希望保存在excel中，但使用python美观汤时出错

、、、

尝试提取但最后一个字段出现错误时，要保存excel中的所有字段。文件"C:/Users/acer/AppData/Local/Programs/Python/Python37/agri.py"，第30行，在).find_next_sibling(‘div’，class_=‘collapsefaq content’).text Att

浏览 0提问于2019-04-19得票数 0

回答已采纳

1回答

BeautifulSoup:在定义的h2标记之间拉p标记

、、

我试图用“新基金”和“新基金”的名称从'h2‘标签下的'p’标签中提取所有的文本。“p”标签的数量对于每个页面都不一致，所以我在想一些while循环，而我尝试过的内容没有起作用。每个文件的格式 tag通常是公司名称中的“strong”，然后列出文本和其他“强”标签，以确定谁出资/投资。一旦我能够正确地解析它，目标是将公司名称从“strong”标记导出，并带有过程文本和投资公司/人员(通过在“p”块中跟踪“强”标记来进行一些数据分析)。print(e

浏览 5提问于2017-07-20得票数 2

回答已采纳

1回答

美丽的汤选择不工作的兄弟姐妹

、、

我试图得到美丽的汤，以返回所有的文本从某一层的代码在一个网站。但是，当我尝试任何一个.contents，.children，.find_next_sibling时，它总是会返回标记下面的所有内容。我正在尝试从：获得下拉菜单中的选项。: soup = Beautiful

浏览 2提问于2016-03-07得票数 2

回答已采纳

1回答

从多个标记中提取文本时忽略子标记的问题

、

我有这个样本-html： <li class=“item">Second text I want</li></ul>''') 我试图提取“我想要的文本”和“我想要的第二个

浏览 2提问于2021-09-01得票数 1

回答已采纳

1回答

在脚本标记后使用漂亮的汤抓取隐藏的正确日期

、、、、

我想从网页中抓取日期，日期的文本(在脚本标记之后)是由JavaScript注入的： <span class="LName"><a target="_blankUbuntu; Linux x86_64; rv:76.0) Gecko/20100101 Firefox/76.0'}soup = BeautifulSoup[0].get_

浏览 0提问于2020-06-29得票数 0

2回答

优美汤/Python-从Div提取链接URL，依赖于排除内容

、、

我试图用BeautifulSoup4在Python3.4中提取一个链接，并且没有标识元素标记，例如id、class等。但是，在每个链接之前，都有一个静态文本字符串，如下所示： "Precluding-Text:" <a href="http://the-link-im-after.com">Varying

浏览 4提问于2016-06-15得票数 0

回答已采纳

3回答

用美丽汤提取br标签间的数据

、、

如何使用漂亮汤从下面的html代码中提取INFO1和INFO2？wrestlers_clubwrestlers_licence_number如何提取

浏览 3提问于2020-02-04得票数 4

回答已采纳

3回答

BeautifulSoup获取多个<div>级别背后的内容

、、、

如何使用BeautifulSoup获取两个“div”后面的时间数据？<div>6:00.00</div>import requestssoup = BeautifulS

浏览 0提问于2018-04-21得票数 0

回答已采纳

2回答

在python (BeautifulSoup)中获取特定的span标记文本

、、、

我在MyAnimeList上使用BeautifulSoup在python3上抓取一些信息，并试图获取关于一个节目的“状态”的信息，但是在访问它时遇到了困难。为了澄清，我想获得“状态”中包含的文本“完成播放”。下面是我到目前为止所掌握的代码，但我不太确定这是否是最好的方法，或者从哪里开始：extra_info = Page_soup.find

浏览 2提问于2021-08-21得票数 2

回答已采纳

2回答

Python + BeautifulSoup* -通过搜索条件提取文本*

、

<TR><TD class=CAT1 width="20%">24 Jun 2005</TD></TR>2005年6月24日飞行我使用的是BeautifulSoup find_next_sibling，但是它没有返回任何内容。from bs4 i

浏览 3提问于2014-02-25得票数 0

回答已采纳

2回答

如何用空类值从div中刮取文本

、、、

嗨，如何在不上课的情况下从div中抓取文本？首先，我尝试使用类“作业”页从div中抓取所有数据，然后没有类值，但它不起作用。import requests try: page_content = <e

浏览 1提问于2018-04-28得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从find_next_sibling()、BeautifulSoup提取文本

相关·内容

从find_next_sibling()、BeautifulSoup提取文本

Python -在空页面中绕过Beautifulsoup的“对象没有属性”错误

BeautifulSoup:获取另一个标记后面的标记文本

为什么bs4中的find_next_sibling可以在一行代码上工作，而不能在另一行非常相似的代码上工作？

BeautifulSoup/Python/HTML -在特定div类之后返回div类

使用Python BeautifulSoup动态地从网页中提取文本

python:美丽的汤提取信息

从Pandas中的HTML字符串中提取数据元素

使用beautifulSoup从非结构化网页中抓取文本

尝试提取数据并希望保存在excel中，但使用python美观汤时出错

BeautifulSoup:在定义的h2标记之间拉p标记

美丽的汤选择不工作的兄弟姐妹

从多个标记中提取文本时忽略子标记的问题

在脚本标记后使用漂亮的汤抓取隐藏的正确日期

优美汤/Python-从Div提取链接URL，依赖于排除内容

用美丽汤提取br标签间的数据

BeautifulSoup获取多个<div>级别背后的内容

在python (BeautifulSoup)中获取特定的span标记文本

Python + BeautifulSoup* -通过搜索条件提取文本*

如何用空类值从div中刮取文本

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐