从Beautiful Soup嵌套对象中提取并存储链接

Beautiful Soup是一个Python库，用于从HTML或XML文档中提取数据。它提供了一种简单而灵活的方式来遍历文档树，并根据需要提取所需的数据。

在Beautiful Soup中，可以使用嵌套对象的方式来表示HTML或XML文档的结构。要从嵌套对象中提取并存储链接，可以按照以下步骤进行操作：

导入Beautiful Soup库：

from bs4 import BeautifulSoup

创建Beautiful Soup对象：

soup = BeautifulSoup(html, 'html.parser')  # html为HTML文档的字符串或文件对象

使用嵌套对象的属性和方法来提取链接：

links = soup.find_all('a')  # 查找所有<a>标签
for link in links:
    url = link.get('href')  # 获取链接地址
    # 在这里可以对链接进行处理或存储操作

在上述代码中，find_all方法用于查找所有的<a>标签，返回一个包含这些标签的列表。然后，使用get方法获取每个标签的href属性值，即链接地址。

对于存储链接的操作，可以根据具体需求选择合适的方式，例如将链接保存到数据库、写入文件或发送到其他系统等。

腾讯云相关产品和产品介绍链接地址：

云数据库 TencentDB：https://cloud.tencent.com/product/cdb
云服务器 CVM：https://cloud.tencent.com/product/cvm
云原生应用引擎 TKE：https://cloud.tencent.com/product/tke
云存储 COS：https://cloud.tencent.com/product/cos
人工智能平台 AI Lab：https://cloud.tencent.com/product/ailab
物联网平台 IoT Explorer：https://cloud.tencent.com/product/iothub
移动开发平台 MDP：https://cloud.tencent.com/product/mdp
区块链服务 BaaS：https://cloud.tencent.com/product/baas
元宇宙服务 Metaverse：https://cloud.tencent.com/product/metaverse

请注意，以上链接仅为示例，具体选择产品时应根据实际需求进行评估和决策。

从Beautiful Soup嵌套对象中提取并存储链接

、、

我正在尝试从网页中抓取并保存链接。这些链接被组织为博客的blogroll部分中的小部件。我已经知道如何创建一些Beautifulsoup对象的列表，但无法从这些对象的子集中提取链接。我花了很多时间尝试各种类型的find、find_all，并重新存储这些对象。i686) Gecko/20071127 Firefox/2.0.0.11'}) documen

浏览 6提问于2019-04-15得票数 0

回答已采纳

1回答

从多个网站中提取文本

、、

read_list = list_open.read()for url in line_in_list: beautiful print s

浏览 0提问于2018-09-16得票数 1

回答已采纳

1回答

查找正则表达式以从html查找链接

、

尝试从hls中的以下htm数据中查找链接:使用regex.Tried (r"(?.*)")，但它给出了部分链接https://mvd4.ddns.me:443/1vod5n/almajde-ben-zaher-1，有什么建议吗？ <!

浏览 0提问于2019-10-24得票数 0

1回答

Python 3.6美丽的汤-在Web抓取过程中获取嵌入式视频URL的麻烦

、、、、

我正在尝试抓取一个网页，并使用Python3.6中的Beautiful Soup和requests模块检索网页上嵌入的视频的URL。当我在Chrome中查看网页上的超文本标记语言时，我可以看到视频的.mp4链接。但是当我使用requests和Beautiful Soup获取页面时，我找不到"video“节点。我知道视频窗口是一个嵌套的HTML文档。特别是，我想要抓取这个网页- http://videole

浏览 25提问于2020-08-26得票数 4

1回答

从BeautifulSoup对象获取URL

、

有人向我的函数传递了一个使用典型调用获得的BeautifulSoup对象(BS4)：我的代码： url = soup.???如何从soup对象中获取原始URL？我试着阅读文档和BeautifulSoup源代码...我还是不确定。

浏览 2提问于2019-02-22得票数 1

回答已采纳

1回答

没有提取所有数据

、、、

目前，我希望从URL html中提取特定的发行者数据，并使用Beautiful从卢森堡证券交易所获得一个特定的类和ID。我使用的示例链接是这样的：和我试图提取的数据是以文本形式存储在'Issuer‘下的名称；在这个例子中，它是'BNP发行BV’。我发现我的当前代码只提取了一些html，而且我不知道如何扩展它正在拖动的数据。BeautifulSoup URL = "https:/

浏览 3提问于2021-04-12得票数 0

1回答

如何从Beautiful* Soup中的嵌套标签中提取文本？*

、、、

我希望网络抓取谷歌的结果，并希望获得出现的第一块信息。如何指定要从中提取文本的特定HTML路径？URL for a citysrc = results.content soup = BeautifulSoup(src, "lxml") # Try

浏览 0提问于2019-06-25得票数 0

2回答

递归迭代div - BeautifulSoup中的嵌套标记

、

我想使用Beautiful Soup浏览div标记来提取一些数据。</p> </div> 原始的HTML文档在div中可能包含30多个嵌套标签(包括其他标签，如span，甚至可能是嵌套的div)，我需要浏览所有这些标签到目前为止，我提取了HTML并存储在一个变量中important_data_to_be_extracted = soup.find("div&qu

浏览 9提问于2020-04-08得票数 0

1回答

抓取网站时缺少HTML元素。Python

、、、、

我正在尝试使用bs4和Selenium从网站中提取HREF。但是，当我使用Beautiful解析HTML时，我要查找的元素就会丢失。当我稍后尝试搜索它们时，我只会得到NoneType对象。my_url = browser.current_urlpage_html = uClient.read()page_soup= soup(page_html, "html.parser") 但当我跑

浏览 2提问于2020-11-16得票数 0

回答已采纳

1回答

Google应用引擎:获取大量的urls和数据处理

、、、

在我的应用程序中，我获取大量的urls和解析信息。我正在尝试使用延迟库和任务队列。我将每个页面的抓取分割成单独的任务，并进行以下处理。以下是延迟任务的示例： fetch url someprocessing之后，在post处理程序中，我在循环中运行这个任务： deferr

浏览 2提问于2015-01-25得票数 0

回答已采纳

1回答

使用美丽汤的Python网络爬虫的BFS算法？

、、、

我必须创建我自己的网络爬虫(出于教育目的)，它通过每个(或尽可能多的)保加利亚网站(Linux域)爬行，并使用.bg shell或requests库中的curl -I命令返回运行它的服务器。我正在使用一个大型的类似数据库的网站，其中包含许多其他网站的链接，作为一个很好的起点。因此，我必须检查每个站点中的每个链接，并检查运行它的服务器，将其推送到数据库中。棘手的是，我需要打开每个链接，深入到更深的地方，然后打开其他链接(比如树)。所以我的想法是，我必须

浏览 4提问于2016-02-13得票数 0

1回答

使用漂亮的汤提取数据

、、、

the variable 'page' soup = BeautifulSoup(page,"html.parser")for link in all_links: #print

浏览 0提问于2017-05-23得票数 0

3回答

忽略Python中的XML错误

、、

我在Python语言中使用了XML minidom (xml.dom.minidom)，但是XML中的任何错误都会杀死解析器。有没有可能忽略它们，比如浏览器？

浏览 0提问于2008-12-30得票数 6

回答已采纳

2回答

如何提取嵌套在多个划分元素中的锚元素

、、、、

我试图用一个公共的类attr从我漂亮的soup对象中提取锚元素，每个类都嵌套在多个分区中。这些划分是重复的，并用一些脚本分隔我尝试利用锚元素中的公共类属性来提取它们。我尝试过的： import requests, bs4, webbrowser webpage.raise_for_status() soup=bs4.BeautifulSoup(w

浏览 22提问于2019-05-27得票数 2

回答已采纳

1回答

使用Beautiful* Soup和Requests提取数据*

、、

我正在尝试使用Beautiful soup和requests包从堆栈溢出中抓取数据。我已经能够提取大部分细节，但是当我尝试提取用户的信誉得分时，我只能提取reputation score和Gold的数据，而不能提取Silver和Bronze计数的数据。/questions/53968946/how-can-i-limit-function-slot-play-just-for-5-turn-with-do-while-lo

浏览 21提问于2018-12-30得票数 1

回答已采纳

3回答

利用BeautifulSoup从隐藏表单中获取值

、、、

我正在努力刮一个在HTML中包含以下内容的网站 <input name="__BeautifulSoup# parse the html using beautiful soup and store in variablezd7XHXyVs7EgqObLzIfm9

浏览 0提问于2018-06-18得票数 1

回答已采纳

1回答

如何测试美汤对象的类型？

、、

这可能是一个非常基本的Python问题，尽管我在Beautiful Soup中遇到过它。问题是我不知道如何编写if语句来测试该类型。请参阅下面的python代码中的注

浏览 6提问于2018-03-05得票数 2

回答已采纳

1回答

如何使用Beautiful从xml标记中提取属性？

、、、

我正在尝试使用Django中的Beautiful来提取xml标记。Sep 2016 13:24:48 EDT</pubDate>Link2 goes here</item>soup<

浏览 1提问于2016-09-22得票数 3

回答已采纳

2回答

用美汤抓取网页会让ResultSet变空

、、、

我正在试验Beautiful Soup，并试图从包含以下类型片段的HTML文档中提取信息：<h3 class="entity-name with-profile"></p>我使用了以下命令： with open("C:\Users\pv\MyFiles\HTML\Invites.html",&

浏览 10提问于2017-01-10得票数 1

回答已采纳

1回答

无法通过网络抓取从Google搜索页面中抓取所有链接

、、、、

最近我试着从Google SERP的搜索结果中抓取域名。为此，我使用了Requests，Beautiful Soup和Regex来获取页面，解析标签，查找href，并使用regex match来提取域名。r

浏览 1提问于2021-06-08得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从Beautiful Soup嵌套对象中提取并存储链接

相关·内容

从Beautiful Soup嵌套对象中提取并存储链接

从多个网站中提取文本

查找正则表达式以从html查找链接

Python 3.6美丽的汤-在Web抓取过程中获取嵌入式视频URL的麻烦

从BeautifulSoup对象获取URL

没有提取所有数据

如何从Beautiful* Soup中的嵌套标签中提取文本？*

递归迭代div - BeautifulSoup中的嵌套标记

抓取网站时缺少HTML元素。Python

Google应用引擎:获取大量的urls和数据处理

使用美丽汤的Python网络爬虫的BFS算法？

使用漂亮的汤提取数据

忽略Python中的XML错误

如何提取嵌套在多个划分元素中的锚元素

使用Beautiful* Soup和Requests提取数据*

利用BeautifulSoup从隐藏表单中获取值

如何测试美汤对象的类型？

如何使用Beautiful从xml标记中提取属性？

用美汤抓取网页会让ResultSet变空

无法通过网络抓取从Google搜索页面中抓取所有链接

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐