BeautifulSoup -如何获取两个不同标签之间的所有文本？

BeautifulSoup是一个Python库，用于从HTML或XML文件中提取数据。它提供了一种简单而灵活的方式来遍历解析文档树，并提取所需的数据。

要获取两个不同标签之间的所有文本，可以使用BeautifulSoup的find_all方法结合正则表达式来实现。以下是一个示例代码：

from bs4 import BeautifulSoup
import re

html = '''
<html>
<body>
<h1>标题</h1>
<p>段落1</p>
<p>段落2</p>
<h2>子标题</h2>
<p>段落3</p>
</body>
</html>
'''

soup = BeautifulSoup(html, 'html.parser')

# 使用正则表达式匹配h1和h2之间的文本
pattern = re.compile(r'<h1>(.*?)</h1>.*?<h2>(.*?)</h2>', re.S)
result = re.search(pattern, str(soup))

if result:
    text_between_tags = result.group(1) + result.group(2)
    print(text_between_tags)

运行上述代码，将输出"h1"标签和"h2"标签之间的所有文本："标题子标题"。

在这个例子中，我们首先创建了一个BeautifulSoup对象，然后使用正则表达式模式匹配"h1"标签和"h2"标签之间的文本。通过调用re.search方法，我们可以在整个文档中搜索匹配的内容。最后，我们使用group方法获取匹配的文本。

需要注意的是，这只是使用BeautifulSoup获取两个不同标签之间的文本的一种方法。根据具体的HTML结构和需求，可能需要调整正则表达式模式或使用其他BeautifulSoup的方法来实现相同的功能。

推荐的腾讯云相关产品：腾讯云服务器（https://cloud.tencent.com/product/cvm）

BeautifulSoup -如何获取两个不同标签之间的所有文本？

python、beautifulsoup

我想获取两个标签之间的所有文本：我是这样开始的：req = urllib.request.Reques

浏览 3提问于2017-07-27得票数 7

3回答

如何在python中获取两组标记之间的文本

python、html、url、beautifulsoup、tags

我试图在标签之间获取文本，也在标记集之间获取文本，我已经尝试过了，但我没有得到我想要的。有人能帮忙吗？我真的很感激。> 预期产出：Doc No: BBBBFVCode: 040000033我尝试过的代码，这只给了我之间的文本<e

浏览 22提问于2022-03-17得票数 1

回答已采纳

4回答

如何使用BeautifulSoup获取两个指定标签之间的所有文本？

python、html-parsing、beautifulsoup

big>...我希望在第一次出现a标签之前获得从开始标签big到之前的所有文本。这意味着如果我使用这个例子，那么我必须将(iterable)作为字符串获取。

浏览 13提问于2012-08-04得票数 6

回答已采纳

2回答

美丽的汤:当两个标签有不同的ids时，提取两个标签之间的所有内容。

python、html、beautifulsoup、tags

通过上面的链接，我看到了一个问题，我们在两个标签之间获取信息。然而，当这些标记有两个不同的id属性值时，我需要在标记之间获取信息。h1> <div>This is in a div</div> <h1 id = 'good' ></h1

浏览 5提问于2022-01-22得票数 -1

1回答

标签之间没有空格的BeautifulSoup .children或.content

python、beautifulsoup

我希望标签的所有子标记之间没有空格。但是BeautifulSoups .contents和.children也返回标记之间的空格。示例中的html不包含标记之间的任何空格。实际上，去掉html标记之间的所有空格可以解决我的问题： html = """<div id="list"><span>

浏览 2提问于2019-05-07得票数 3

3回答

如何在两个不同的封闭html标签之间提取文本，这些标签不在标签内？

python、html、web-scraping

在一个有许多具有相同类名的b标签的网页上，我想提取两个不同的封闭html 'b‘标签之间的文本，特别是这些b标签。inkjet (piezoelectric)"我尝试通过使用findALL创建表来使用漂亮

浏览 18提问于2019-10-22得票数 1

回答已采纳

1回答

漂亮的Soup字符编码问题

encoding、beautifulsoup、python-requests

我用请求获取页面，然后用以下方法解析它- data['opts'] = '/c' + option r = requests.post(url, data) page = bs4.BeautifulSoup(r.contentfrom_encoding='utf-8') print pag

浏览 5提问于2017-06-18得票数 0

2回答

美汤:提取两个标签之间的所有内容

python、html、beautifulsoup

我正在使用BeautifulSoup从HTML文件中提取数据。我想获取两个标签之间的所有信息。这意味着如果我有一个像这样的HTML部分： <h1></h1><div>This is in a div</div> <h1></h1> 然后，如果我想要第一个h1和第

浏览 25提问于2020-09-15得票数 2

回答已采纳

1回答

BeautifulSoup:获取特定标签的标签文本

python、beautifulsoup、scrape

我想得到一个HTML页面上的所有显示的文本，直到某个标签被击中。例如，我希望在点击id为"end_content“的标记之前，获取页面上所有显示的文本。有没有办法用BeautifulSoup做到这一点？这类似于soup.get_text()方法，不同之处在于它会在命中id为"end_content“的标记后停止获取文本

浏览 0提问于2018-05-29得票数 0

2回答

我想使用bs4从html中获得所有的java脚本文件

python-2.7、bs4

from bs4 import BeautifulSoupimport HTMLParserurl = raw_input('enter - ')soup = BeautifulSoup(html)for tag in scriptsScript = tag["src"]

浏览 5提问于2016-03-10得票数 0

2回答

如何使用python从html中提取纯文本，而不需要任何额外的(SCRIPT，STYLE，CSS，XML，HTML等标签)

html

我的工作是从HTML文件中获取纯文本。HTML文件是直接从网站复制粘贴的纯HTML数据(没有编码问题)。HTML有点复杂，因为它混合了很多注释script.extract() # rip it outreturn text 这将获取</em

浏览 0提问于2019-11-11得票数 0

3回答

使用BeautifulSoup和多个段落进行刮擦

python、beautifulsoup、web-scraping

我正试着用BeautifulSoup从一个网站上抓取一篇演讲。然而，我遇到了一些问题，因为演讲分为许多不同的段落。我对编程非常陌生，很难弄清楚如何处理这个问题。我试着在跨度内提取所有的文本。这是文本的一部分，直到第一段

浏览 0提问于2011-11-30得票数 10

回答已采纳

2回答

如何捕获两个不同步骤/数组/位置的标记之间的多行正则表达式

php、regex、tags、tcpdf

我使用TCPDF生成一些复杂的PDF，所以问题是在PDF中，而不是在标准的web页面中。在内部可能有不同的情况，例如： "0" => "[#SCHANG

浏览 0提问于2019-05-24得票数 3

回答已采纳

1回答

如何使用BeautifulSoup从一个级别获取文本？

python、beautifulsoup

我有一些网页，我想按级别排序所有文本内容。但我不知道会有什么标签。html = BeautifulSoup("<a><b>text1</b><b>text2</b></a><c>text3</c>")#text2# <&#x

浏览 0提问于2014-09-17得票数 1

2回答

由bs4标记/Get文本在两个标记之间拆分

python、python-3.x、split、beautifulsoup

目前，我试图从一个网页中读取两个标签之间的文本。到目前为止，这是我的代码： text = text.split(tage_two)[0] 基本上，我试

浏览 0提问于2019-02-07得票数 2

回答已采纳

6回答

Python Beautifulsoup* img标签解析*

python、beautifulsoup、image

我正在使用漂亮的汤来解析'www.youtube.com‘中的所有img标签。代码是from BeautifulSoup import BeautifulSoupsoup = BeautifulSoup(page) tags=soup.findAll('img'

浏览 2提问于2012-05-15得票数 5

2回答

解析HTML以检索术语

python、python-3.x、html-parsing

所以，现在我有了一堆被爬行的URL。我需要创建一个使用向量空间的索引，或者至少一个HTML中所有术语的列表。如何解析该网页中的所有术语？我有点不明白，我应该在特定的标签之间获取文本，或者其他的东西，或者我应该使用哪个库？我完全迷路了。下面是我需要对HTML所做的事情：您可以在线使用html解析器，但原则上，您可以使用htm

浏览 0提问于2018-12-08得票数 1

回答已采纳

1回答

Python (美丽汤)拔出文字？

python、html、beautifulsoup、translation

我想从多个html文件的两个标记之间提取一些文本，然后将该文本添加到单独的文件中。我很确定我应该用美汤来做这件事，但我不知道怎么做。我在这个网站上看过其他的问题，但是有一些细节让我觉得很困难。Foo_Bar.aa_BB">text to be tr

浏览 3提问于2021-02-22得票数 0

1回答

抓取维基百科文章中的所有标题和纯文本

python、python-2.7、beautifulsoup

在Python中，我将如何获取维基百科文章中的所有标题和平面文本，比如：。我目前的代码是： #Amount of documents amount_of_documents文件，然后使用BeautifulSoup获取<p>标记之间的所有内容。我<em

浏览 4提问于2016-11-02得票数 1

回答已采纳

3回答

在PHP中获取复杂标记之间的文本

php、regex、tags、expression

我试图从两个html标签之间获取文本，唯一的困难是标签可以与名称不同。我会详细解释：我得去拿但是标签的显示可能会有所不同，对如何解决这个问题有什么想法吗也许有规律的解释，但我不擅

浏览 4提问于2010-02-15得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

BeautifulSoup -如何获取两个不同标签之间的所有文本？

相关·内容

BeautifulSoup -如何获取两个不同标签之间的所有文本？

如何在python中获取两组标记之间的文本

如何使用BeautifulSoup获取两个指定标签之间的所有文本？

美丽的汤:当两个标签有不同的ids时，提取两个标签之间的所有内容。

标签之间没有空格的BeautifulSoup .children或.content

如何在两个不同的封闭html标签之间提取文本，这些标签不在标签内？

漂亮的Soup字符编码问题

美汤:提取两个标签之间的所有内容

BeautifulSoup:获取特定标签的标签文本

我想使用bs4从html中获得所有的java脚本文件

如何使用python从html中提取纯文本，而不需要任何额外的(SCRIPT，STYLE，CSS，XML，HTML等标签)

使用BeautifulSoup和多个段落进行刮擦

如何捕获两个不同步骤/数组/位置的标记之间的多行正则表达式

如何使用BeautifulSoup从一个级别获取文本？

由bs4标记/Get文本在两个标记之间拆分

Python Beautifulsoup* img标签解析*

解析HTML以检索术语

Python (美丽汤)拔出文字？

抓取维基百科文章中的所有标题和纯文本

在PHP中获取复杂标记之间的文本

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐