BeautifulSoup python:获取不带标记的文本并获取相邻链接

BeautifulSoup是Python的一个库，用于解析HTML和XML文档。它可以帮助开发者从网页中提取数据，并进行处理和分析。在云计算领域，BeautifulSoup可以用于爬取网页内容进行数据挖掘、自动化测试等任务。

获取不带标记的文本可以使用BeautifulSoup的.get_text()方法。这个方法会从HTML文档中提取所有的文本内容，但不包括标记。以下是一个示例代码：

from bs4 import BeautifulSoup

html = "<html><body><p>This is some <b>bold</b> text.</p></body></html>"
soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text()

print(text)

运行以上代码，输出结果为：

This is some bold text.

获取相邻链接需要先找到包含链接的HTML元素，然后使用.find_next_sibling()或.find_previous_sibling()方法获取相邻的元素。以下是一个示例代码：

from bs4 import BeautifulSoup

html = "<html><body><p>Visit <a href='https://www.example.com'>example website</a></p><p>Visit <a href='https://www.google.com'>Google</a></p></body></html>"
soup = BeautifulSoup(html, 'html.parser')
link = soup.find('a')
next_link = link.find_next_sibling('a')

print(link['href'])
print(next_link['href'])

运行以上代码，输出结果为：

https://www.example.com
https://www.google.com

推荐腾讯云相关产品和产品介绍链接地址：

腾讯云主页：https://cloud.tencent.com/
云服务器（CVM）：https://cloud.tencent.com/product/cvm
云数据库MySQL版：https://cloud.tencent.com/product/cdb_mysql
云原生应用引擎（TKE）：https://cloud.tencent.com/product/tke

请注意，以上链接仅作为示例，具体产品选择应根据实际需求进行评估和比较。

BeautifulSoup python:获取不带标记的文本并获取相邻链接

、、

我正在尝试从这个site中提取电影的标题和链接 from bs4 import BeautifulSoup r = get(link).contentb = BeautifulSoup(r,'html5lib') a = b.find

浏览 15提问于2019-03-06得票数 0

3回答

如何编写python脚本在网站html中搜索匹配的链接

、

我对python不是很熟悉，必须编写一个脚本来执行许多函数。基本上，我仍然需要的模块是如何检查匹配链接预先提供的网站代码。

浏览 1提问于2010-03-04得票数 4

回答已采纳

1回答

是否可以使用Python 3访问包含特定文本的网站中的链接？

、、

我正在尝试使用这个网站上“认证列表”下的前两个链接。因此，我只想能够导航到两个链接的基础上，他们的文本“化粪池安装程序”和“化粪池水泵”。我只是在网上找不到任何能让我知道该使用哪个模块的东西。例如，我用它来导航到这个url。

浏览 0提问于2019-04-12得票数 0

1回答

Python web抓取<a>之间的访问值</a>

、

我是网络刮擦的新手，如果之前有人问过这个问题，很抱歉。假设我有这样的html代码：<a aria-current="page" aria-label="Current page" href="https://name_webpage.com/">1</a>如何使用python访问<a> </a>之间的值，即1？

浏览 2提问于2021-02-18得票数 0

1回答

标识属性中包含span和div的标记的XPath

、、、

有没有人能帮我找出这个的XPath：在这里，我需要

浏览 1提问于2015-05-12得票数 0

2回答

使用BeautifulSoup显示p标记内的所有b标记

、、、

我在django有应用程序，我必须以特定的方式显示文本。这是我的html代码：<b>Name of person</b> City, Country</p><b>Name of person</b></p> 我希望在普通文本中获取人员和城市和国家的</e

浏览 0提问于2016-11-17得票数 0

1回答

在没有嵌入式<a>的情况下仅抓取<p>

、、、

我试着摘录这篇文章的正文：我想得到的只是文本，没有网址。到目前为止，我有：import requests html = requests.get("https://www.cnbc.com/

浏览 0提问于2017-12-11得票数 1

1回答

用BeautifulSoup抓取<span>标签

、、

我正在尝试用BeautifulSoup抓取页面，<span>标记中有<script>标记，如下所示<script type="jsv/27^"></script> <script type="jsv/28_"></script>

浏览 12提问于2021-03-08得票数 0

1回答

如何使用BeautifulSoup* bs4获取HTML的内部文本值？*

、、

在使用BeautifulSoup bs4时，如何从HTML标签中获取文本？当我运行这行代码时：我得到的title标签如下：现在我只想得到它的内部文本，page name，不带标签。

浏览 0提问于2015-01-14得票数 7

回答已采纳

1回答

使用python无头浏览器获取html响应

、、、

我需要首先获得网站认证，直接到搜索页面，设置搜索参数，发出html请求，其中包括一些值通过post发送，获取响应作为html解析要下载的内容并下载它。你能帮助我，并将我重定向到一些如何做这样的事情的样本吗？最好的包是什么？最好的

浏览 17提问于2017-07-26得票数 0

回答已采纳

3回答

如何使用BeautifulSoup从特定表中获取所有行？

、

我正在学习Python和BeautifulSoup如何从网络上抓取数据，并读取超文本标记语言表格。我可以将它读入Open Office，它显示的是表#11。似乎BeautifulSoup是首选，但是谁能告诉我如何获取特定的表和所有行？我已经看过模块文档了，但是我不能理解它。我在网上找到的许多例子似乎都超出了我的需要。

浏览 1提问于2010-01-06得票数 24

回答已采纳

2回答

解析HTML源代码中的JavaScript代码

如何使用Python解析HTML源中的JavaScript代码，例如，我想提取productList对象<html><div id="content-wrapper"

浏览 0提问于2014-11-25得票数 2

3回答

如何使用漂亮的汤找到特定的视频html标签？

、

有谁知道如何在python中使用美丽的汤。我只想得到包含视频嵌入url的html标签。并获取链接。示例 #or this.. htmlv=fI3zB

浏览 3提问于2013-12-04得票数 1

回答已采纳

1回答

bs4找不到使用id的特定类的div

、、

div 因此，为了提高我的抓取技巧，我一直在尝试下载https://ikeacatalogues.ikea.com/sv-1950/page/1中的文档，但是当我尝试获取带有或不带有id的div时，得到的都是<div id="fakescroll"</div>，而我想要的是出现在锚标记中的文档的直接链接

浏览 52提问于2021-05-02得票数 2

3回答

在.find系列中使用pd.dataframe ()

、、

])df['Correct Org']=df['Org'].str.apply(lambda st: st[st.find(">")+1:st.find("<")]) &获取以下错误

浏览 15提问于2022-01-20得票数 0

回答已采纳

1回答

当我使用beautifulsoup4读取一个网站上的javascript变量时，我正在尝试获取它的内容。javascript变量在输出之前参与计算。包含以下所有javascript的网站是: view-source:https://r6.tracker.network/profile/pc/thelonerankwolf/matches 我想检索matchGroup.data.matches"trn-defstat__value&quo

浏览 18提问于2019-01-24得票数 0

回答已采纳

1回答

在python中为任何网页URL文档搜索特定标题的文本

、、、

我已经搜索并介绍了python中的一些网络爬行库，比如scrapy，漂亮汤等。使用这些库，我想抓取文档中特定标题下的所有文本。如果你们中的任何人能帮助我，我将不胜感激。我看过一些教程，教你如何使用漂亮的soap获取特定类名下的链接(通过查看源页面选项)，但如何获取简单的文本，而不是特定类标题下的链接。对不起，我的</em

浏览 0提问于2017-10-25得票数 0

1回答

使用beautifulSoup检索html标记内容

、、

我正在尝试使用python获取一篇网站文章的纯文本。我听说过BeautifulSoup库，但是如何在html页面中检索特定的标记呢？这就是我所做的： base_url = 'http://www.nytimes.com'soup = BeautifulSoup(r.text,

浏览 14提问于2021-01-27得票数 1

回答已采纳

1回答

尝试使用python解析html时重定向到主页

、、、、

from urllib.request import urlopenimport requests page = requests.get(url)soup = BeautifulSoup(data, "html.parser") 我尝试使用此代码从获取</e

浏览 0提问于2016-11-02得票数 0

3回答

无法在BeautifulSoup中美化抓取的html

、、、

我有一个小脚本，它使用urllib2来获取站点的内容，找到所有的链接标记，在顶部和底部附加一小段超文本标记语言，然后我尝试美化它。import urllib2import re pre(html) tags = soup.findAll('a')

浏览 0提问于2010-01-08得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

BeautifulSoup python:获取不带标记的文本并获取相邻链接

相关·内容

BeautifulSoup python:获取不带标记的文本并获取相邻链接

如何编写python脚本在网站html中搜索匹配的链接

是否可以使用Python 3访问包含特定文本的网站中的链接？

Python web抓取<a>之间的访问值</a>

标识属性中包含span和div的标记的XPath

使用BeautifulSoup显示p标记内的所有b标记

在没有嵌入式<a>的情况下仅抓取<p>

用BeautifulSoup抓取<span>标签

如何使用BeautifulSoup* bs4获取HTML的内部文本值？*

使用python无头浏览器获取html响应

如何使用BeautifulSoup从特定表中获取所有行？

解析HTML源代码中的JavaScript代码

如何使用漂亮的汤找到特定的视频html标签？

bs4找不到使用id的特定类的div

在.find系列中使用pd.dataframe ()

如何获取javascript变量的内容？

在python中为任何网页URL文档搜索特定标题的文本

使用beautifulSoup检索html标记内容

尝试使用python解析html时重定向到主页

无法在BeautifulSoup中美化抓取的html

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐