在过去的两天里,我一直在努力解决这个问题。
请帮助我理解为什么会发生这种情况。我的目的是只选择具有<DTL1 val="92">.....</HDR>
的<HDR>
这是我的正则表达式
(?<=<HDR>).*?<DTL1\sval="3".*?</HDR>
输入字符串为:
<HDR>abc<DTL1 val="1"><DTL2 val="2"></HDR><HDR><DTL1 val="92"><DTL2 val="55"></HDR><HDR><DTL1 val="3"><DTL2 val="4"></HDR>
但是这个正则表达式选择
abc<DTL1 val="1"><DTL2 val="2"></HDR><HDR><DTL1 val="92"><DTL2 val="55"></HDR>
有谁能帮帮我吗?
发布于 2014-12-01 01:02:46
正则表达式引擎将始终为您提供字符串中最左侧的匹配(即使您使用非贪婪的量词)。这就是你所得到的。
因此,一个解决方案是禁止在.*?
所描述的部分中出现另一个过于宽松的<HDR>
。
有两种技术可以做到这一点,您可以将.*?
替换为:
(?>[^<]+|<(?!/HDR))*
或通过以下方式:
(?:(?!</HDR).)*+
大多数情况下,第一种方法的性能更好,但是如果字符串包含高密度的<
,那么第二种方法也可以提供很好的结果。
使用possessive quantifier或atomic group可以减少获得结果的步骤数,特别是当子模式失败时。
示例:
使用第一种方法:
(?<=<HDR>)(?>[^<]+|<(?!/HDR))*<DTL1\sval="3"(?>[^<]+|<(?!/HDR))*</HDR>
或者这个变种:
(?<=<HDR>)(?:[^<]+|<(?!/HDR|DTL1))*+<DTL1\sval="3"(?:[^<]+|<(?!/HDR))*+</HDR>
使用第二种方法:
(?<=<HDR>)(?:(?!</HDR).)*<DTL1\sval="3"(?:(?!</HDR).)*+</HDR>
或者这个变种:
(?<=<HDR>)(?:(?!</HDR|DTL1).)*+<DTL1\sval="3"(?:(?!</HDR).)*+</HDR>
发布于 2014-12-01 04:22:17
Casimir et Hippolyte已经给你提供了几个很好的解决方案。我想详细说明几件事。
首先,为什么您的正则表达式不能执行您想要的操作:(?<=<HDR>).*?
告诉它匹配以<HDR>
开头的第一个字符开始的任意数量的字符,直到它遇到非贪婪量词(<DTL1...
)之后的字符。嗯,<HDR>
前面的第一个字符是第一个a
,所以它匹配从那里开始的所有内容,直到遇到固定字符串<DTL1\sval="3"
。
Casimir et Hippolyte的解决方案是针对一般情况的,其中标签的内容可以是嵌套的以外的任何内容。你也可以积极地向前看:
(?<=<HDR>)(.(?!</HDR>))*<DTL1\sval="3".*?</HDR>
但是,如果确保字符串位于所示的结构中,其中的标记只包含一个或多个标记,因此您知道其中不会有任何结束标记,则可以通过将第一个.*?
替换为[^/]*
来更有效地完成此操作:
(?<=<HDR>)[^/]*<DTL1\sval="3".*?</HDR>
被否定的字符类比零宽度断言更有效,如果您使用被否定的字符类,贪婪的量词比懒惰的量词更有效。
还要注意的是,通过使用lookbehind来匹配开头,可以将其从匹配中排除,但可以包含结尾。你确定那是你想要的吗?你要匹配这个..。
<DTL1 val="3"><DTL2 val="4"></HDR>
...when大概你想要这个..。
<HDR><DTL1 val="3"><DTL2 val="4"></HDR>
...or这个。
<DTL1 val="3"><DTL2 val="4">
因此,在第一种情况下,不要对开始标记使用后视:
<HDR>(.(?!</HDR>))*<DTL1\sval="3".*?</HDR>
<HDR>[^/]*<DTL1\sval="3".*?</HDR>
在第二种情况下,使用结束标记的先行标记:
(?<=<HDR>)(.(?!</HDR>))*<DTL1\sval="3".*?(?=</HDR>)
(?<=<HDR>)[^/]*<DTL1\sval="3".*?(?=</HDR>)
https://stackoverflow.com/questions/27215466
复制相似问题