使用正则表达式匹配HTML中的url

正则表达式是一种强大的文本匹配工具，可以用于匹配HTML中的URL。HTML中的URL通常以<a>标签的href属性或<img>标签的src属性的形式存在。

下面是一个使用正则表达式匹配HTML中URL的示例：

import re

def extract_urls_from_html(html):
    pattern = r"(?i)<a\s+(?:[^>]*?\s+)?href=(['\"])(.*?)\1"
    urls = re.findall(pattern, html)
    return [url[1] for url in urls]

html = """
<html>
<body>
<a href="https://www.example.com">Example Website</a>
<a href='https://www.example2.com'>Example2 Website</a>
<img src="https://www.example3.com/image.jpg" alt="Image">
</body>
</html>
"""

urls = extract_urls_from_html(html)
print(urls)

输出结果为：

['https://www.example.com', 'https://www.example2.com', 'https://www.example3.com/image.jpg']

在上述示例中，我们使用了正则表达式模式(?i)<a\s+(?:[^>]*?\s+)?href=(['\"])(.*?)\1来匹配HTML中的URL。该模式的解释如下：

(?i): 表示忽略大小写。
<a\s+: 匹配<a标签，并允许在<a后面有多个空格。
(?:[^>]*?\s+)?: 匹配href属性之前的任意字符，直到遇到>符号。这部分内容是一个非捕获组，表示我们不需要提取这部分内容。
href=(['\"])(.*?)\1: 匹配href属性的值，其中(['\"])表示匹配单引号或双引号，并将其作为第一个捕获组，(.*?)表示匹配任意字符（非贪婪模式），并将其作为第二个捕获组。\1表示引用第一个捕获组中匹配到的引号，确保URL的开头和结尾使用相同类型的引号。

最后，我们使用re.findall()函数找到所有匹配的URL，并返回一个URL列表。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云CDN：提供全球加速、内容分发、缓存加速等功能，适用于静态资源加速、动态加速、点播加速等场景。详细信息请参考腾讯云CDN产品介绍。
腾讯云对象存储（COS）：提供安全、稳定、低成本的云端存储服务，适用于图片、音视频、文档等各种类型的文件存储和管理。详细信息请参考腾讯云对象存储（COS）产品介绍。

请注意，以上仅为示例推荐，实际选择云计算产品应根据具体需求和情况进行评估和决策。

页面内容是否对你有帮助？

有帮助

没帮助

正则表达式与不以1+(扩展名)结尾的字符串( .ext字符)匹配

、、、

我需要测试一个url，它的并没有以.asp结束if(!regex.IsMatch(url)) { // Do something } 在这种情况下，正则表达式将

浏览 7提问于2008-11-27得票数 13

回答已采纳

2回答

匹配Urls中的正则表达式问题

我使用下面的正则表达式来匹配YouTube URL这个URL匹配每个URL，但是如果URL是用<p>标记编写的，那么它就匹配这个URL http://you

浏览 1提问于2014-12-19得票数 0

回答已采纳

1回答

Google app.yaml分别匹配所有的PHP文件和所有的HTML文件

、、、

我在PHP中使用。我希望能够识别文件夹Client_Pages中的所有PHP文件，并将其作为静态文件，而将同一文件夹中的所有PHP文件识别为脚本文件。/*.html我想asterisk在app.yaml中不是通配符吗？这将适用于特定的页面： - url: /Client_Pages/InputForm.php

浏览 3提问于2014-03-04得票数 1

回答已采纳

2回答

、、、

嗨，我目前正在监测一个网站上的特定产品。我可以让twilio通过运行脚本来给我发短信，但如果产品是instock或不是instock，它不会更新我。下面是对这个过程很重要的代码：import twiliofrom twilio.restdef url_to_html(url): soup = Beau

浏览 4提问于2018-08-14得票数 1

1回答

匹配相对URL

、

实现了一个很好的正则表达式模式来匹配相对URL：虽然此模式正确匹配路径，但它不会匹配相关文件(如<a href="index.html">foo</a>中) 一个优化的，优雅的正则表达式会是什

浏览 1提问于2016-11-08得票数 0

3回答

grep或sed -需要提取特定文本

、、、

如何仅提取匹配文本的子字符串。我试过了它给了我整条线。我只想打印/localhost/index.

浏览 0提问于2013-05-25得票数 1

回答已采纳

4回答

匹配不包含特定单词的字符串

、、

我正在使用match方法处理ruby，我希望将不包含特定字符串的URL与正则表达式匹配:例如：http://website2.com/url_with_some_other_words.html http://website3.com/url</e

浏览 3提问于2012-07-26得票数 26

回答已采纳

1回答

String ReplaceAll方法不起作用

、

我正在使用这个方法解析出一些HTML中的纯文本URL，并使它们成为链接 String regex = "^(httpsbody = body.replaceAll(regex, "<a href=\"$1\">$1</a>"); return body;但是，HTML</e

浏览 6提问于2011-11-30得票数 5

回答已采纳

3回答

Regex匹配两个确切的值，没有前导字符或以下字符

我不太擅长Regex，但我使用的是标记管理系统(TMS)，它允许我输入一些正则表达式，这些正则表达式到目前为止一直派上用场，因为我想匹配的URL非常具体。我使用TMS中的Regex字段专门匹配下面列出的URL的两个粗体区域：

浏览 2提问于2014-07-15得票数 1

1回答

\.eastmoney\.com/\d+\.html','quote','.*so\.eastmoney.-27 10:33:24 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://guba.eastmoney.com/list,of166401.html> (referer: http://fund.eastmoney.com/LOF_jzzzl.html) 2

浏览 0提问于2019-06-27得票数 0

回答已采纳

3回答

正则表达式，如果它们旁边有“-”，则只添加一个查找的4个数字。

、

我们有类似于这个http://www.example.co.uk/example-product-3436.html的url，我希望能够使用一个php脚本来删除-unqiue number。我已经找到了这个([^\d])[0-9]{4}，它可以找到任何一个四位数的数字，但是我只希望它找到一个4位数字，如果它前面有一个-。我该怎么做？

浏览 3提问于2016-02-15得票数 2

回答已采纳

1回答

如何在Google标记管理器中创建匹配的url？

作为正则表达式，您希望将匹配应用到url。与上述网址相匹配。怎么了？页面路径/匹配RegEx (忽略大小写)/ (.)/write.html(.)board_no=4(.*)

浏览 0提问于2018-12-07得票数 0

回答已采纳

1回答

正则表达式应用于除文件夹以外的所有内容

我正在尝试为URL创建一个正则表达式，这样它就可以影响除某个文件夹之外的所有内容。正则表达式将只应用于'/‘之后的所有内容，所以给定一个url http://www.blah.com/folder/main/file.html，它将只应用于folder/main/file.html-当url中没有'folder

浏览 1提问于2012-09-30得票数 1

2回答

如何将twitter用户名与角用户界面路由器相匹配

、、、

我需要能够匹配像'/@someusername‘这样的路径与角度ui路由器，但无法确定它的正则表达式。我的路线如下所示.state('home', {url:'/', templateUrl:'/template/path.html'}) .state('author',{url:'

浏览 6提问于2014-08-23得票数 2

回答已采纳

1回答

如何将Nginx请求重写为具有特定模式的特定本地文件

、、

我在使用正则表达式和提取Nginx中的变量时遇到了麻烦。我想将对路径中包含单词/development/的文件的所有请求写入到特定目录。只要存在/development/，传入请求的URL结构就总是相同的。比如/development/，然后是/(version_number)/，最后是我想要使用的网

浏览 2提问于2015-08-12得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用正则表达式匹配HTML中的url

相关·内容

正则表达式与不以1+(扩展名)结尾的字符串( .ext字符)匹配

匹配Urls中的正则表达式问题

Google app.yaml分别匹配所有的PHP文件和所有的HTML文件

JS RegExp未捕获匹配

Regex java在url中预定义的斜杠数量

如何在Django中破解动态URL魔术

Javascript中的部分Regexp匹配

区分文件名和URL

如何让Twilio发送短信给我，如果有一个产品的即时通讯监控库存

匹配相对URL

grep或sed -需要提取特定文本

匹配不包含特定单词的字符串

String ReplaceAll方法不起作用

Regex匹配两个确切的值，没有前导字符或以下字符

抓取爬行器“拒绝”无效设置

正则表达式，如果它们旁边有“-”，则只添加一个查找的4个数字。

如何在Google标记管理器中创建匹配的url？

正则表达式应用于除文件夹以外的所有内容

如何将twitter用户名与角用户界面路由器相匹配

如何将Nginx请求重写为具有特定模式的特定本地文件

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐