如何从HTML代码中正确提取URL？

从HTML代码中正确提取URL可以通过以下步骤实现：

解析HTML代码：使用HTML解析器（如BeautifulSoup、jsoup等）将HTML代码解析为DOM树结构，以便后续操作。
定位URL元素：根据HTML标签和属性的特征，定位包含URL的元素。常见的URL元素包括<a>标签的href属性、<img>标签的src属性等。
提取URL：根据定位到的URL元素，提取其中的URL信息。可以通过DOM树的节点操作或正则表达式匹配等方式提取URL。
处理相对路径：如果提取到的URL是相对路径，需要根据当前页面的URL或基准URL进行拼接，得到完整的URL。
验证URL有效性（可选）：可以使用网络请求库（如requests、curl等）发送HTTP请求，验证提取到的URL是否有效。

以下是一个示例代码，使用Python和BeautifulSoup库从HTML代码中提取URL的方法：

from bs4 import BeautifulSoup
import requests

def extract_urls_from_html(html):
    urls = []
    soup = BeautifulSoup(html, 'html.parser')
    
    # 提取<a>标签中的URL
    for a_tag in soup.find_all('a'):
        url = a_tag.get('href')
        if url:
            urls.append(url)
    
    # 提取<img>标签中的URL
    for img_tag in soup.find_all('img'):
        url = img_tag.get('src')
        if url:
            urls.append(url)
    
    # 处理相对路径
    base_url = 'http://example.com'  # 假设当前页面的URL或基准URL
    urls = [base_url + url if not url.startswith('http') else url for url in urls]
    
    # 验证URL有效性（可选）
    valid_urls = []
    for url in urls:
        response = requests.head(url)
        if response.status_code == 200:
            valid_urls.append(url)
    
    return valid_urls

# 示例用法
html_code = '''
<html>
<body>
    <a href="https://www.example.com">Example Website</a>
    <img src="/images/logo.png">
</body>
</html>
'''

urls = extract_urls_from_html(html_code)
print(urls)

这个方法通过解析HTML代码，定位并提取<a>标签和<img>标签中的URL，处理相对路径，并可选地验证URL的有效性。对于提取到的URL，可以根据实际需求进行进一步处理或使用。

如何从HTML代码中正确提取URL？

、、、

我已经将网站的超文本标记语言代码保存在我的计算机上的一个.txt文件中。我想用下面的代码从这个文本文件中提取所有的URL： start_link=page.find("href=") end_quote=page.find('"',start_quote+1)

浏览 19提问于2017-03-07得票数 0

回答已采纳

1回答

从外部网站访问数据，以“创建”该数据的应用程序

、、

哇，我希望我写的标题是一个正确的方式，因为我真的不知道这是怎么叫。我有个简单的申请。我只是在寻找信息，以指出我在正确的方向，以便能够使上述事实。任何东西都会被接受，就像信息，一个我可以搜索的名字，任何与此相关的东西。如果还需要更多的信息，请告诉我:)

浏览 4提问于2016-05-09得票数 0

回答已采纳

3回答

NSURLRequest和请求的页面

Im在shouldStartLoadWithRequest委托的UIWebView中捕获链接点击信息。我正在使用mainDocumentURL来获得链接点击的网址。这显示了完整的网址，但我只需要网页的名称，即.html，.htm等要求。我看不到任何会返回这个的属性。我是否需要自己解析和提取它，或者是否有人知道在NSURLRequest中是否有一个属性或方法可以返回它。非常感谢你的帮助。托尼

浏览 1提问于2009-02-13得票数 0

回答已采纳

1回答

如何从安全URL* (https://)？)中提取HTML代码*

、、

我使用的是URL库，而不是从安全的网址获取完整的JSoup内容(https://)会动态获取内容。有没有办法获得受保护的URL(https://).)的确切HTML内容

浏览 0提问于2018-02-12得票数 0

1回答

正在从jQuery选项卡脚本的链接ID中删除元素

、、、

我有一个PHP选项卡脚本，它从由链接定义的jQuery文件中获取内容，并将其解析为div元素。每个链接的ID用于从正确的文件中提取内容，但是链接ID中需要type_才能使选项卡起作用，这样就不能从正确的位置提取内容。如何解决此问题？这是我当前的jQuery代码： $.ajax({ su

浏览 0提问于2011-07-08得票数 0

回答已采纳

1回答

PHP Crawler用于在外部站点上提交并获取结果

、、、

在表单中填写一个字段(我知道输入元素的id和名称)，提交它并存储结果。//extract data from the post //<em

浏览 0提问于2013-04-16得票数 1

回答已采纳

1回答

使用BeautifulSoup抓取的数据与源代码不匹配

、、、

我已经看过一些关于如何使用漂亮的汤来抓取网站的教程。作为练习，我想从一个房地产网站上提取数据。我想要抓取的特定页面是这个：我遇到的第一个问题是，使用经典的漂亮汤代码抓取的数据与网页的源代码不匹配。这是我的代码： URL = "https://www.immoweb.be/fr/re

浏览 4提问于2021-05-02得票数 1

1回答

使用cURL和simpleXMLElement来提取数据。如何在XPATH之后获得XML元素的值？

、、、、

我在从SimpleXMLElement对象中提取所需数据时遇到了一些问题。下面是我使用的代码的基础：$html = curl_exec( $ch ); $xml = $xml->xpath( "//ul[@id='wxoptions']/li[3

浏览 6提问于2011-12-12得票数 0

回答已采纳

1回答

用rvest刮html表。为什么它只提取有限的行数？

、

需要提取--从表中提取所有行，但它只提取10 (10) results...why？这是我使用的代码：CIP_html CIP_

浏览 2提问于2021-11-25得票数 0

2回答

如何在HTML段落中添加URL变量

、

我是HTML的新手。我搜索了这个问题并尝试了一些代码，但是它没有起作用，所以我在这里寻求帮助。<p> Hello ??<br> Thanks for answering my question</p> 我的问题： 1.这个Javascript应该从URL中提取Ryan --是正确的吗？Give the parameter

浏览 5提问于2017-08-30得票数 0

1回答

(Python、BeautifulSoup)创建或修改不带锚点标记的锚点文本列表

、、、、

我是Python的新手，我正在尝试构建一个从网站提取一些文本并将其粘贴到Google电子表格中的脚本。文本是用标签包装在网站上的标题。我使用BeautifulSoup (也导入了pygspread )来提取标题，如下所示： target_url = 'WEBSITE URL' r = requests.get(target_url)soup = BeautifulSoup(r.text, 'html.parser

浏览 16提问于2019-12-24得票数 0

回答已采纳

3回答

从URL中提取HTML

、、、、

我正在使用从url中提取文本，使用以下代码：String text= ArticleExtractor.INSTANCE.getText(url); 字符串text只包含html页面的文本，但我需要从中提取</

浏览 5提问于2011-03-07得票数 7

回答已采纳

1回答

如何在Flask和Javascript之间进行通信？

、、、

我这里唯一的不同之处就是我如何给变量a和b赋值，我还确保包含了定义$SCRIPT_ROOT的脚本。不知道在这里该做什么。我也已经正确加载了jQuery。{ }); 基本上，我尝试做的全部工作就是最终将数据库中的数据放入我的javascript中。我已经设法将数据库中的数据放入HTML中，但还没有放入JS中。这

浏览 0提问于2013-04-22得票数 0

回答已采纳

1回答

Preg_match:在一个表达式中从url获取最后两个域段

、、、、

在php.net上有一个示例，如何通过两个步骤获取最后两个域名段： //get host name from URL "http://www.php.net/index.html", $matches); // get las

浏览 0提问于2012-06-15得票数 0

回答已采纳

2回答

我可以在Python中找到javascript的结果吗？

、、、、

从HTML中获取链接很容易，但从javascript的结果中获取链接对我来说并不容易。例如。如何从代码中检索到google.com的链接？<html lang="en"> <body>

浏览 5提问于2011-10-16得票数 1

回答已采纳

2回答

从R中的HTML代码片段中提取URL

example.com/path">This website</a> site 1如何应用正则表达式来解析html代码片段以提取url和链接文本，并将它们弹出到数据框中的单独列中？例如，给定上面的示例，我需要做什么才

浏览 0提问于2011-09-02得票数 2

回答已采纳

1回答

正在从jQuery选项卡式搜索脚本中删除链接ID元素

、、、

我有一个PHP选项卡式搜索脚本，它从由链接定义的jQuery文件中获取内容，并将其解析为result div元素。每个链接的ID用于从正确的文件中提取内容，但是链接ID中需要type_才能使选项卡起作用，这样就不能从正确的位置提取内容。如何解决此问题？这是我当前的jQuery代码： $("[id^=type_]").click(function()

浏览 3提问于2011-07-08得票数 0

回答已采纳

1回答

PHP从目标URL中提取特定的DIV

、、

我正在使用简单的HTML DOM从目标URL中提取div及其所有内容，以下是我的代码： require 'simple_html_dom.php'; foreach($html->> 我遇到的问题是，上面的代码只提取</

浏览 2提问于2014-03-31得票数 0

1回答

Python端字符串计数器

、、、

我回到了Python中的一个旧项目，但我似乎忘记了我是如何提取数据的，如果有人能为我指出正确的方向和文档来实现这一点，我将不胜感激。我实现了一个web爬虫，它通过扫描我的HTML代码从html页面中提取信息。使用我使用过的BeautifulSoup和urllib2库扫描mywebsite.com/product=1的URL。如何提取、读取和替换url的末

浏览 2提问于2017-03-03得票数 0

回答已采纳

2回答

如何从HTML中提取URL

、、、

我这样做如下from bs4 import BeautifulSouphtml = urlopen("http2016/2016_spr#27mar")res = soup.find_all('a', {'href': re.compile2016/2016_win

浏览 3提问于2017-08-02得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何从HTML代码中正确提取URL？

相关·内容

如何从HTML代码中正确提取URL？

从外部网站访问数据，以“创建”该数据的应用程序

NSURLRequest和请求的页面

如何从安全URL* (https://)？)中提取HTML代码*

正在从jQuery选项卡脚本的链接ID中删除元素

PHP Crawler用于在外部站点上提交并获取结果

使用BeautifulSoup抓取的数据与源代码不匹配

使用cURL和simpleXMLElement来提取数据。如何在XPATH之后获得XML元素的值？

用rvest刮html表。为什么它只提取有限的行数？

如何在HTML段落中添加URL变量

(Python、BeautifulSoup)创建或修改不带锚点标记的锚点文本列表

从URL中提取HTML

如何在Flask和Javascript之间进行通信？

Preg_match:在一个表达式中从url获取最后两个域段

我可以在Python中找到javascript的结果吗？

从R中的HTML代码片段中提取URL

正在从jQuery选项卡式搜索脚本中删除链接ID元素

PHP从目标URL中提取特定的DIV

Python端字符串计数器

如何从HTML中提取URL

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐