如何匹配文本中的URI？

在处理文本中的URI时，可以使用正则表达式（Regular Expression）进行匹配。正则表达式是一种用于描述文本模式的语法，可以用于匹配、查找、替换文本中的特定字符串。

以下是一个简单的正则表达式，用于匹配URI：

\b(([\w-]+://?|www[.])[^\s()<>]+(?:\([\w\d]+\)|([^[:punct:]\s]|/)))

这个正则表达式可以匹配包括HTTP、HTTPS、FTP等各种协议的URI，同时还可以匹配不包含协议头的URI。

在Python中，可以使用re模块来进行正则表达式匹配。以下是一个示例代码：

import re

text = "这是一个包含URI的文本：https://www.example.com。"
pattern = r'\b(([\w-]+://?|www[.])[^\s()<>]+(?:\([\w\d]+\)|([^[:punct:]\s]|/)))'

uri_match = re.search(pattern, text)
if uri_match:
    uri = uri_match.group(0)
    print(f"匹配到的URI为：{uri}")
else:
    print("未匹配到URI。")

在这个示例中，我们使用了re.search()函数来在文本中查找匹配的URI。如果找到了URI，就将其打印出来。

需要注意的是，这个正则表达式并不是最完美的，可能会存在一些误匹配的情况。因此，在实际应用中，需要根据具体情况进行调整和优化。

Gruber的Python中的URL正则表达式

python、regex、gruber

如何重写此地址才能在Python中工作？ \b(([\w-]+://?|www[.])[^\s()<>]+(?:$[\w\d]+$|([^[:punct:]\s]|/)))

浏览 0提问于2010-01-01得票数 5

回答已采纳

2回答

我有一个Python应用程序，在该应用程序中，我试图以字符串的形式解析<和>之间的信息。我的弦是： ##MESSAGE=<A=test_id,B=.,C=type,D="Description">\n 我试过了Python pattern = re.compile('*\<(\w+)\>*') match = pattern.match(line) 但我的模式似乎仍然不正确，因为match总是等于None。有人能看到我的模式中有什么问题吗？

浏览 5提问于2014-02-27得票数 1

回答已采纳

2回答

使用从URL获取YouTube视频ID

javascript、python、regex

我想检索YouTube URL的视频ID部分，它是HTML锚元素的一部分，如使用regex： <a href="http://www.youtube.com/watch?v=NC2blnl0WTE">Some text</a> 我四处寻找一些解决办法。我从Javascript解决方案中找到了一个，它从url获取视频ID，如下所示： /https?:\/\/(?:[0-9A-Z-]+\.)?(?:youtu\.be\/|youtube(?:-nocookie)?\.com\S*[^\w\s-])([\w-]{11})(?=[^\w-]|$)(?![?=&a

浏览 2提问于2016-01-16得票数 2

回答已采纳

2回答

如何使用preg_replace替换链接和图像链接

php、preg-replace、preg-match、preg-match-all、preg-replace-callback

我有文本，其中包含链接和链接的图片，可以有很多链接和其他词混合。下面的文本是我的示例文本。 $string = "http://www.google.com/ is best know for search engine, this is Google logo ##https://www.google.com/images/srpr/logo11w.png##. And you can visit http://www.youtube.com/ to watch videos. Here YouTube's logo ##http://s.ytimg.com/yts/img/

浏览 3提问于2014-07-01得票数 1

回答已采纳

2回答

将两个regex "^[\x20-\x7E]$“和”\S(.\S)“合并为一个

javascript、regex

我有两个分别工作的正则表达式：^[\x20-\x7E]*$和\S(.*\S 但我不知道如何将两者结合起来，所以两者都会匹配。我试过(^[\x20-\x7E]*$)*?(\S(.*\S)?)，但没成功。我在pattern="(^[\x20-\x7E]*$)*?(\S(.*\S)?)"的输入标签中使用了这个

浏览 13提问于2022-07-29得票数 1

2回答

在regex模式python中使用动态int变量

python、regex、variables、int

我刚开始学习python，如果这个问题已经被问过了，很抱歉。我在这里写，因为这些都对我没有帮助，我的要求是读取一个文件，并在it.Inside循环中打印所有的网址。我使用的正则表达式模式是[^https://][\w\W]*，它工作得很好。但是我想知道我是否可以动态地传递https://之后的行的长度，并获得出现次数而不是*的输出我试过[^https://][\w\W]{var}} where var=len(line)-len(https://) 下面是我尝试过的其他一些模式 pattern = '[^https://][\w\W]{'+str(int(var))+&#

浏览 31提问于2020-04-03得票数 0

回答已采纳

3回答

python中的regex不起作用-在pythex中工作，但在python 3.6中不工作

python、regex

此正则表达式在pythex中工作，但在python3.6中不起作用。我不知道为何： python的代码： import re test = '105297 003 002394 o 0000 20891 0.00 1' pattern = r"(?P<pun1>\d{3})\s+(?P<pun2>\d{6})(\s+(?P<pun3>[01oO])(\s+(?P<pun4>\d{4}))?)?\s.*\s(?P<amt>\d+\.\d\d)\s" match = re.match(pat

浏览 0提问于2019-02-13得票数 2

回答已采纳

4回答

在字符串中查找短语

python、string

我正在尝试检查字符串中是否存在短语“紫牛”。“紫色”和“奶牛”之间必须至少有一个空格或标点符号；不接受"purplecow“。我尝试了下面的程序，但得到一个错误信息。 import string def findPC(string): strLower = string.lower() # remove 'purplecow' in strLower strLowerB = strLower.replace('purplecow', '') print(strLowerB) strList

浏览 0提问于2019-01-10得票数 1

2回答

Python正则表达式在看到一个符号时停止。

python、regex、string、parsing

我试图写一个正则表达式，在我的元标签和符号之间提取所有的文本；对于下面的例子，我想提取键'My.Tag‘的值，它是'This-iswhatIwanttopull’。问题是，我不知道如何让它在变送器之前把所有的东西都拉出来。 $ import re $ line = 'sometextsometext&My.Tag=This-iswhatIwanttopull&sometextsometext' $ my_text = re.search('(?<=My\.Tag=)\w+',line) $ print my_text.gr

浏览 1提问于2014-06-11得票数 1

回答已采纳

5回答

12小时时间格式的正则表达式

python、regex

我正在处理一个用于时间模式的正则表达式，用Python: hours 1-12，然后是:，然后是分00:59，后面是可选的空格，am或PM是大写或小写。以下是代码： def check_time(text): pattern = r"^(1[0-2]|0?[1-9]):([0-5]?[0-9])(\s?[AP]M)?$ " result = re.search(pattern, text) return result != None print(check_time("12:45pm")) # Expe

浏览 8提问于2020-04-11得票数 2

回答已采纳

1回答

获取导致re.search返回None的字符

regex、python-2.7

我在一个类中有几个方法来检查用户输入是否符合规则。它们都类似于下面的例子： def check1(self, value): regex = re.compile(r'^(\w|/(?!/))+(-(\w|/(?!/))+)*$') return re.search(regex, value) 或 def check2(self, value): regex = re.compile("^(filter_|input_|output_|util_)\w+(-\w+)*$") return re.search(regex, valu

浏览 0提问于2013-12-02得票数 0

回答已采纳

1回答

如何用python在文本文件中找到文本模式？

python、file

我需要读取一个文本文件，通过用户交互，用户输入一个模式--例如，在这种情况下，用户输入ACA，程序读取文本文件的每一行，输出应该是： (2) ACACAC (0) TGTGTG (15) ACACACACACACACACACACACACACACACAC (1) TAGACAGTCGATCGACTGCAGCTTCG 在本例中，文本文件是： ACACAC TGTGTG ACACACACACACACACACACACACACACACAC TAGACAGTCGATCGACTGCAGCTTCG CCACCATGGGTGG 我的代码是(但不能正确工作)： fh = open

浏览 0提问于2020-11-07得票数 0

回答已采纳

4回答

删除两个标点符号之间的空格，而不是标点符号和字母之间的空格。

python、regex

我有以下的正则表达式用于删除标点符号之间的空格。 re.sub(r'\s*(\W)\s*', r'\1', s) 它在我的几乎所有测试用例中都工作得很好，除了这个： This is! ? a test! ? 为此我需要 This is!? a test!? 并获取 This is!?a test!? 如何不删除?和'a‘之间的空格？我遗漏了什么？

浏览 13提问于2020-03-28得票数 2

回答已采纳

4回答

如何使用Python处理URL

python、url

我有以下代码(doop.py)，它剥离了.html文件中所有“无意义”的html脚本，只输出“人类可读”的文本；它将接受一个包含以下内容的文件： <html> <body> <a href="http://www.w3schools.com"> This is a link</a> </body> </html> 并给予 $ ./doop.py File name: htmlexample.html This is a link 我需要做的下一件事是添加一个函数，如果文件中的任何html参数表示URL

浏览 0提问于2012-05-15得票数 0

4回答

从python中的字符串中提取子字符串的regex

python、python-re

如何使用python中的re从字符串中获取以下子字符串。 string1 = "fgdshdfgsLooking: 3j #123" substring = "Looking: 3j #123" string2 = "Looking: avb456j #13fgfddg" substring = "Looking: avb456j #13" 试过： re.search(r'Looking: (.*#\d+)$', string1)

浏览 0提问于2022-01-08得票数 2

回答已采纳

4回答

将子字符串的第一个实例与正则表达式匹配

python、regex

我尝试使用python的re模块来匹配字符串中的所有内容，直到多行注释的结尾。我现在遇到的问题是： i = 333; ******************/ */ 我对字符串执行的搜索如下所示： tempLine = re.search(r'.*\*/(.*)', line, flags=0).group(1) 我原本期望搜索函数能够匹配任意数量的字符，直到第一次出现*/。我想使用添加到re中的组保存第一个*/之后的所有内容，并将其保存在变量tempLine中。正则表达式匹配对象的结果如下： <re.Match object; span=(

浏览 0提问于2019-09-06得票数 0

1回答

在Python中使用“插入符号”时正则表达式的性能下降

python、regex、python-re

我试图从证券交易委员会提供的中提取一段文字。我注意到，在其他条件相同的以下两种正则表达式中，以插入符号(^)开头的正则表达式所用的时间大约是不使用插入符号的模式的两倍($ for EOL的存在似乎不会影响性能)： re.compile(r"<FILENAME>[\w-]*?htm\.xml$(.*?)</DOCUMENT>", re.M | re.S) re.compile(r"^<FILENAME>[\w-]*?htm\.xml$(.*?)</DOCUMENT>", re.M | re.S) 考虑到"“

浏览 1提问于2022-08-04得票数 2

回答已采纳

3回答

如何找到一个由大写字母开头的特定的、预先定义的单词？

python、regex

我一直在分析大量的文本数据。到目前为止，我得到的是： (([A-Z][\w-]*)+\s+(\b(Study|Test)\b)(\s[A-Z][\w-]*)*)|(\b(Study|Test)\b)(\s[A-Z][\w-]*)+ 我想要捕捉的短语类型：欧洲国家纵向研究纵向研究研究倡议纵向研究倡议我想捕捉‘学习’或‘测试’这个词，只有当它被以大写字母开头的单词包围时。理想的正则表达式将实现所有这些+它会忽略\逃避某些单词，如“of”或“The”。 *上面的正则表达式对于str.findall函数来说是超慢的，我想一定有更好的解决方案 **我使用进行测试

浏览 2提问于2021-06-10得票数 0

5回答

URL验证-接受无协议的URL

javascript、regex、url

我的应用程序中有一个基本的URL验证。现在，我使用以下代码。 //validates whether the given value is //a valid URL function validateUrl(value) { var regexp = /(ftp|http|https):\/\/(\w+:{0,1}\w*@)?(\S+)(:[0-9]+)?(\/|\/([\w#!:.?+=&%@!\-\/]))?/ return regexp.test(value); } 但是现在它不接受没有这个协议的URL。对于ex。如果我提供www.google.com，它不会

浏览 0提问于2010-08-03得票数 5

回答已采纳

2回答

使用python正则表达式验证网站URL地址没有路径

python、regex、python-3.x

我试图验证包含在文本中的URL地址。此URL应该具有以下结构。 <http<s>://>www<.sub-domain*>.domain-name.TLD<.ccTLD><:port-number></> 其中<>的意思是可选的，*的意思是零或更多。如图所示，解析器应该接受以下内容。 http或https都是可选的。必须接受。接受零或多个子域域名必须被接受。如果存在顶级域( TLD )和国家代码TLD，则接受它。如果端口号可用，则接受它。如果有反斜杠(/)，则接受它。

浏览 0提问于2019-09-12得票数 0

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何匹配文本中的URI？

相关·内容

Gruber的Python中的URL正则表达式

RegEx查找<和>之间的字符串

使用从URL获取YouTube视频ID

如何使用preg_replace替换链接和图像链接

将两个regex "^[\x20-\x7E]$“和”\S(.\S)“合并为一个

在regex模式python中使用动态int变量

python中的regex不起作用-在pythex中工作，但在python 3.6中不工作

在字符串中查找短语

Python正则表达式在看到一个符号时停止。

12小时时间格式的正则表达式

获取导致re.search返回None的字符

如何用python在文本文件中找到文本模式？

删除两个标点符号之间的空格，而不是标点符号和字母之间的空格。

如何使用Python处理URL

从python中的字符串中提取子字符串的regex

将子字符串的第一个实例与正则表达式匹配

在Python中使用“插入符号”时正则表达式的性能下降

如何找到一个由大写字母开头的特定的、预先定义的单词？

URL验证-接受无协议的URL

使用python正则表达式验证网站URL地址没有路径

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐