对于regex来说,我还是个新手。我试图找到与特定模式匹配的最短文本字符串,但如果最短模式是较大匹配的子串,则会遇到问题。例如:
import re
string = "A|B|A|B|C|D|E|F|G"
my_pattern = 'a.*?b.*?c'
my_regex = re.compile(my_pattern, re.DOTALL|re.IGNORECASE)
matches = my_regex.findall(string)
for match in matches:
print match打印:
A|B|A|B|C但我想让它回来:
A|B|C有没有办法做到这一点,而不必遍历每个匹配,以查看它是否包含匹配的子字符串?
发布于 2011-09-26 19:49:10
与这里的大多数其他答案相反,这可以在使用带有capturing group的positive lookahead assertion的单个正则表达式中完成
>>> my_pattern = '(?=(a.*?b.*?c))'
>>> my_regex = re.compile(my_pattern, re.DOTALL|re.IGNORECASE)
>>> matches = my_regex.findall(string)
>>> print min(matches, key=len)
A|B|Cfindall()将返回所有可能的匹配项,因此您需要min()来获取最短的匹配项。
它是如何工作的:
发布于 2010-01-28 01:00:41
不是的。Perl返回最长的、最左边的匹配,同时遵守非贪婪的量词。恐怕你得循环一遍。
编辑:是的,我意识到我在上面提到了Perl,但我相信Python也是如此。
发布于 2010-01-28 02:25:40
这可能是一个有用的sexegers应用程序。正则表达式匹配偏向于最长、最左边的选择。使用非贪婪的量词,比如在.*?中绕过最长的部分,并颠倒输入和模式都可以绕过最左边的匹配语义。
考虑以下根据需要输出A|B|C的程序:
#! /usr/bin/env python
import re
string = "A|B|A|B|C|D|E|F|G"
my_pattern = 'c.*?b.*?a'
my_regex = re.compile(my_pattern, re.DOTALL|re.IGNORECASE)
matches = my_regex.findall(string[::-1])
for match in matches:
print match[::-1]另一种方法是创建一个更严格的模式。假设你不想重复已经看到的字符:
my_pattern = 'a[^a]*?b[^ab]*?c'您的示例是通用的和人为的,但如果我们对您正在使用的输入有更好的想法,我们就可以提供更好、更有帮助的建议。
https://stackoverflow.com/questions/2148700
复制相似问题