Beautifulsoup4:当href只提供参数时，如何从href中提取可用的链接

BeautifulSoup4是一个Python库，用于从HTML或XML文件中提取数据。当href只提供参数时，我们可以使用BeautifulSoup4来提取可用的链接。

首先，我们需要导入BeautifulSoup库和requests库（用于发送HTTP请求）：

from bs4 import BeautifulSoup
import requests

然后，我们可以使用requests库发送HTTP请求并获取HTML页面的内容：

url = "http://example.com"  # 替换为你要提取链接的网页地址
response = requests.get(url)
html_content = response.text

接下来，我们可以使用BeautifulSoup解析HTML内容并提取链接：

soup = BeautifulSoup(html_content, "html.parser")
links = soup.find_all("a", href=True)

上述代码中，我们使用了find_all方法来查找所有带有href属性的<a>标签。这将返回一个包含所有链接的列表。

最后，我们可以遍历链接列表并提取可用的链接：

for link in links:
    href = link["href"]
    if href.startswith("http") or href.startswith("https"):
        print(href)

上述代码中，我们使用了字符串的startswith方法来判断链接是否以"http"或"https"开头。如果是，则打印该链接。

这样，我们就可以从href中提取可用的链接了。

推荐的腾讯云相关产品：无

参考链接：

BeautifulSoup官方文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/
requests库官方文档：https://docs.python-requests.org/en/latest/

Beautifulsoup4:当href只提供参数时，如何从href中提取可用的链接

python、web-scraping、twitter、beautifulsoup、href

但是，当我在网站上搜索特定的URL时，href引用的链接如下所示：当检查html并将鼠标悬停在上面的href内容上时，它显示上面实际上是链接的尾部。有没有办法把这些数据变成一个有用的

浏览 10提问于2020-05-19得票数 0

回答已采纳

1回答

如何解释下面的美丽汤代码？

beautifulsoup、python-3.6

我对“美丽汤”很陌生，我试着学习它，当我学习它的时候，我被困在了一个特定的code.Below代码上： if 'href' inlink.attrs:我无法理解".attrs“的含义，如何使用它，它是做什么的？第二，当我执行这段代码时，它会打印

浏览 0提问于2017-08-13得票数 0

回答已采纳

1回答

用Selenium和BeautifulSoup4抓取动态加载的Href属性

python、python-3.x、selenium、web-scraping、beautifulsoup

我尝试用Selenium和BeautifulSoup4抓取动态加载的href属性。当我查看-source网站时，href属性是空的，但当我单击inspect元素时，href属性将有一个链接。意味着href属性是动态加载的。如何提取该链接？=True) print('

浏览 42提问于2020-08-09得票数 0

回答已采纳

2回答

如何在没有实际下载的情况下使用Selenium从web元素获得链接？

automated-testing、selenium-webdriver、python

我有多个链接与按钮在网页上。我想验证并确保所有链接都正常工作。不想下载每个文件，直到完成。下载成功后，检查文件是否如预期的那样？我尝试过的尝试使用不同的定位器策略查找元素:例如xpath、class_name、css_selector、id &甚至两个定位器adv策略的

浏览 0提问于2022-12-03得票数 0

回答已采纳

1回答

添加到特定关键字的链接

html、beautifulsoup

我试图添加到某些关键字的内部链接，如链接所有的单词index到我的网站主页。这就是我想要的。<div>You can find the content from the index page</div><div>You can find the content from the <a href='

浏览 0提问于2015-11-23得票数 1

1回答

BeautifulSoup将单引号替换为双引号

python、beautifulsoup

在Python的BeautifulSoup4中，如果我执行以下命令：print soup如何取消/覆盖该行为？我使用urllib2获取以下页面的html：http://www.download3000.com/，然后使用Beautiful

浏览 1提问于2013-07-22得票数 4

3回答

如何在动态URL中使用HTML #锚

html

我希望使用#锚链接到动态页面的一个部分。就像这样：它没有起作用。正确的方法是什么？我不是使用直接链接，而是使用来自另一个脚本的重定向，比如header("Location:page.php?id=3#section-name")。我在page.php文件中有一个名为page.php的节。我猜page.php在计算要处理的id (

浏览 4提问于2012-08-23得票数 9

1回答

从新闻网站上抓取新闻标题

python、web-scraping、beautifulsoup、newspaper3k

为此，我遇到了两个python库，即“报纸”和“beautifulsoup4”。使用美丽的汤库，我已经能够从一个特定的新闻网站获得所有的链接，导致新闻文章。从下面的代码中，我能够从一个链接中提取新闻文章的标题。，即报纸和beautifulsoup4，这样我从美丽汤库获得的所有链接都应该放在报纸库的url命令中，并且我可以得到链接

浏览 4提问于2020-11-20得票数 1

回答已采纳

2回答

无法使用BeautifulSoup找到所有链接以从网站中提取链接(链接标识)

python-2.7、hyperlink、beautifulsoup、html5lib

我使用这里找到的代码( )从网站中提取所有链接。'):我正在使用这个网站作为测试。不幸的是，我注意到代码没有提取一些链接，例如这个。我也不知道原因。在页面的代码中，这就是我所发现的。<li><a href="http://www.bestwestern.com.au&

浏览 3提问于2016-09-19得票数 0

回答已采纳

2回答

如何获取href内容

c#、c#-4.0、html-parsing、web-scraping

我正在尝试从href.href中提取链接。<a class="p_l" href="" id="0" target="_blank">这是在页面视图源中可见的内容，但当我使用firebug检查时，href将包含http://home.website.com我尝试使用htmlagilitypack，但是<em

浏览 2提问于2012-08-13得票数 0

1回答

从标签之间刮取的url

python、web-scraping、scrapy

我有个关于刮痕的问题。据我所知，链接提取器只获取具有属性(如href= )的链接。我唯一有困难的是抓取像这样的链接：<link> link here </link>是我目前使用的爬行蜘蛛的规则之一：Rule(LinkExtractor(allow=('feedproxy'), tags

浏览 2提问于2014-09-11得票数 1

回答已采纳

3回答

jQuery:向现有动态HREF添加文本

jquery、href

我正在尝试使用jQuery修改链接。这些链接是动态生成的，我没有控制现有的HREF，因为它们是从第三方网站调用的。example.com/?one=1&two=1&thisisadded=true需要更改的链接位于它们自己的<

浏览 2提问于2010-02-12得票数 6

2回答

ActionLink在ASP.NET MVC Beta中使用ViewData参数失败

asp.net-mvc、routing

我在ActionLink MVC Beta中遇到了一个奇怪的ASP.NET方法问题。当使用MVC未来的Lambda重载时，我似乎无法指定从ViewData中提取的参数。PhotoController>(p => p.Upload(((string)ViewData["groupName"])), "upload new photo") %> HTML包含一个带有空URL

浏览 8提问于2008-10-19得票数 2

回答已采纳

1回答

将超链接名称映射到地址

python、html、hyperlink

我正在尝试编写python代码来从网页中提取链接。按照逻辑，我正在寻找<a href="https://www.google.com"，但我发现还有其他指定超链接的方法 <a href="/news&#x

浏览 1提问于2020-05-20得票数 0

回答已采纳

1回答

如何在给定部分链接值时提取链接

php

我使用的是PHP4，这是目前主机所拥有的。当给定要查找的部分链接时，我如何从字符串中提取链接。find_string = 'http://www.mysite.com/apple'; <a hrefhttp://www.mysi

浏览 0提问于2010-05-08得票数 1

回答已采纳

3回答

如何从YouTube搜索中抓取视频？

python、selenium

我想搜索一个特定的关键字，然后抓取所有的视频网址。for link in links:如何抓取链接并将其保存到文件中？

浏览 0提问于2017-07-28得票数 3

1回答

YUI:动态添加额外的参数到pjax调用(在调用之前)

yui、pjax

有没有办法向添加额外的参数，我找到的唯一的事件处理程序是load、navigate和error。在进行pjax调用之前，我们没有处理程序。甚至我在使用pjax调用的Config属性时也找不到任何帮助。http://localhost:8000?pjax=1http://localhost:8000?pjax=1&param=test param的</

浏览 2提问于2012-07-09得票数 2

回答已采纳

1回答

PHP -在数组中构建URL和参数值

php、arrays、url

URL参数是基于用户输入值(在$url变量中)构建的，如下所示：if (!foreach ($pageNumberLinks as $PageNumberLinks) {} 当存储参数(从名为“store”的XML元素中提取)只有一个单词(IE Amazon)，地址栏中<e

浏览 4提问于2014-04-29得票数 0

回答已采纳

2回答

为什么Python请求模块没有返回链接？

python、python-requests

因此，我为我的大学教头项目创建了一个python刮刀，它在网页上刮过，并根据页面中的随机选择来跟踪链接。我使用Python的请求模块从get请求返回链接。我让它完美无缺地工作在一个图形化的程序中，它显示了程序的实时工作。我启动它是为了向我的教授展示，现在.links为每一个网站返回一个空字典。最初，我为任何没有返回链接的站点添加了一个跳转，但现在它们都是空

浏览 5提问于2022-05-13得票数 0

2回答

HTML片段链接与CSS定位工作？

html、css、url-fragment

昨晚，我决定在我的计算机列表页面中添加HTML片段链接。然而，不管链接的模式，或者我使用的任何浏览器，这些片段链接都是无法导航的。更新答案:在标记属性被高亮显示后，链接现在正确地流向片段位置。我没有找到任何真正的答案，但从我所读到的情况来看，有迹象表明我使用CSS定位来形成带有两个DIVs的两列布局可能会给浏览器在计算片段链接的垂直位置方面

浏览 1提问于2009-01-30得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Beautifulsoup4:当href只提供参数时，如何从href中提取可用的链接

相关·内容

Beautifulsoup4:当href只提供参数时，如何从href中提取可用的链接

如何解释下面的美丽汤代码？

用Selenium和BeautifulSoup4抓取动态加载的Href属性

如何在没有实际下载的情况下使用Selenium从web元素获得链接？

添加到特定关键字的链接

BeautifulSoup将单引号替换为双引号

如何在动态URL中使用HTML #锚

从新闻网站上抓取新闻标题

无法使用BeautifulSoup找到所有链接以从网站中提取链接(链接标识)

如何获取href内容

从标签之间刮取的url

jQuery:向现有动态HREF添加文本

ActionLink在ASP.NET MVC Beta中使用ViewData参数失败

将超链接名称映射到地址

如何在给定部分链接值时提取链接

如何从YouTube搜索中抓取视频？

YUI:动态添加额外的参数到pjax调用(在调用之前)

PHP -在数组中构建URL和参数值

为什么Python请求模块没有返回链接？

HTML片段链接与CSS定位工作？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐