正则表达式(Regular Expression),又称规则表达式,在代码中常简写作regex、regexp或RE。正则表达式通常用来检索、替换那些符合某个模式(规则)的文本。常用的程序设计语言都支持正则表达式,比如C++11中也将正则表达式纳入标准中,Perl、Python、PHP、Javascript、Ruby等脚本语言都内置了强大的正则表达式处理引擎,Java、C#、Delphi等编译型语言都支持正则表达式。
正则表达式由一些普通字符和一些元字符(Meta Characters)组成。普通字符包括可打印字符(大小写的字母、数字、部分特殊字符)和一些不可打印的字符(比如换行符,制表符Tab和空格等),以及正则表达式中规定的特殊字符。而元字符则在正则表达式中具有特殊的含义,下面会给予解释。
不可见字符也是正则表达式的组成部分。下表列出了常见的不可见字符的转义序列 [1][1]^{[1]}:
字符 | 含义 |
---|---|
\cx | 匹配由x指明的控制字符。例如,\cM匹配一个回车符(^M,Control+M)。x的值必须为 A-Z或a-z之一。否则,将c视为一个原义的’c’字符 |
\t | 匹配一个制表符。等价于 \x09 和 \cI |
\n | 匹配一个换行符。等价于 \x0a 和 \cJ |
\v | 匹配一个垂直制表符。等价于 \x0b 和 \cK |
\f | 匹配一个换页符。等价于 \x0c 和 \cL |
\r | 匹配一个回车符。等价于 \x0d 和 \cM |
下表说明了常用元字符的含义与作用 [4][4]^{[4]}:
元字符 | 描述 |
---|---|
|将一个字符标记为特殊字符、或一个原义字符、或一个后向引用、或一个八进制转义符。例如,“\\n”匹配“\n”。“\n”匹配换行符。序列”\\”匹配”\”。”\77”匹配字符? | |
^ | 匹配字符串的开始位置 |
$ | 匹配输入字符串的结束位置 |
* | 匹配前面的子表达式零次或多次(>=0次)。例如,zo*能匹配“z”,也能匹配“zo”以及“zoo” |
+ | 匹配前面的子表达式一次或多次(>=1次)。例如,“zo+”能匹配“zo”以及“zoo”,但不能匹配“z”。+等价于{1,} |
? | 匹配前面的子表达式零次或一次。例如,”zo?”可以匹配”z”或”zo”。?等价于{0,1} |
{n} | 匹配n次,n是非负整数。例如,“zo{2}”匹配“zoob”,不能匹配“zob” |
{n,} | 匹配至少n次(>=n),n是一个非负整数。例如,“zo{2,}”能匹配“zooob”,但不能匹配“zo”。“zo{1,}”等价于“zo+”。“o{0,}”则等价于“zo*” |
{n,m} | m和n均为非负整数,其中n<=m。最少匹配n次且最多匹配m次。例如,“o{1,3}”将匹配“fooooood”中的前三个o。“o{0,1}”等价于“o?”。请注意在逗号和两个数之间不能有空格 |
? | 当?紧跟在任何一个其他限制符(*,+,?,{n},{n,},{n,m})后面时,匹配模式是懒惰匹配。懒惰模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串oooo,o+?将匹配每个o”即4次匹配,而“o+”将只匹配1次即匹配“oooo” |
. | 匹配除“\r\n”之外的任何单个字符。要匹配包括“\r\n”在内的任何字符,请使用像“[\s\S]”的模式 |
(exp) | 将()内的表达式定义为组(group),又称子表达式,并且将匹配这个表达式的字符保存到一个临时区域(一个正则表达式中最多可以保存9个),可以用 \1 到\9 的符号来引用。要匹配小括号,请使用\(或\) |
(?<name>exp) | 匹配exp,并捕获文本到名称为name的组里,也可以写成(?'name'exp)。这个元字符主要作用是给组命名。要反向引用这个分组捕获的内容,你可以使用\k<name> |
(?:exp) | 匹配exp,不捕获匹配的文本,也不给此分组分配组号 |
(?=exp) | 正向先行零宽断言,断言此位置的后面能匹配表达式exp,因不消耗字符,所以称为零宽断言。比如industry能够匹配ind(?=us)ustry,但是不能匹配ind(?=aa)ustry |
(?<=exp) | 反向后顾零宽断言,断言此位置的前面能匹配表达式exp。比如industry能够匹配ind(?<=nd)ustry,但是不能匹配ind(?<=aa)ustry。注意Javascript不支持该元字符,所以不要在线进行测试,可点此下载网友提供的C#版正则表达式测试器 |
(?!exp) | 正向零宽断言,断言此位置的后面不能匹配表达式exp |
(?<!exp) | 反向零宽断言,断言此位置的前面不能匹配表达式exp。比如(?<![a-z])\d{7}匹配前面不是小写字母的七位数字。注意Javascript不支持该元字符 |
(?#comment) | 这种类型的分组不对正则表达式的处理产生任何影响,仅提供注释 |
x|y | 匹配x或y。例如,“z|food”能匹配“z”或“food”,请注意“[z |
[xyz] | 字符集合。匹配所包含的任意一个字符。例如,“[abc]”可以匹配“plain”中的“a” |
[^xyz] | 字符补集。匹配指定字符外的任意字符。例如,“[^abc]+”可以匹配“plain”中的“pl”和“in” |
[a-z] | 字符范围。匹配指定范围内的任意字符。例如,“[a-z]”可以匹配“a”到“z”范围内的任意小写字母字符。注意:只有连字符在字符组内部时,并且出现在两个字符之间时,才能表示字符的范围,如果出现在其它位置,则表示连字符本身 |
[^a-z] | 字符范围补集。匹配不在指定范围内的任意字符。例如,“[^a-z]”可以匹配任何不在“a”到“z”范围内的任意字符 |
\b | 匹配单词边界,指单词和空格间的位置。正则表达式的“匹配”有两种概念:一种是匹配字符,一种是匹配位置,这里的\b指匹配位置。例如,“er\b”可以匹配“border”中的“er”,但不能匹配“verb”中的“er” |
\B | 匹配非单词边界与\b功能相反。“er\B”能匹配“verb”中的“er”,但不能匹配“border”中的“er” |
\<word\> | 匹配单词word的开始(\<)和结束(>)位置,等价于“\bword\b”。例如正则表达式\<the\>能够匹配字符串”for the wise”中的”the”,但是不能匹配字符串”otherwise”中的”the”。注意:该元字符不是所有编程语言都支持 |
\d | 匹配一个数字。等价于[0-9] |
\D | 匹配一个非数字字符。等价于[^0-9] |
\s | 匹配任何不可打印字符,包括空格、制表符、换页符等 |
\S | 匹配任何可打印字符 |
\w | 匹配任意一个组成单词的字符,包括下划线、字母、数字和汉字等Unicode字符,类似但不等价于[A-Za-z0-9_] |
\W | 匹配任何非单词字符。类似但不等价于[^A-Za-z0-9_] |
\xn | 匹配n,其中n为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如,“\x41”匹配“A”。“\x041”则等价于“\x04&1”。正则表达式中可以使用ASCII编码 |
\num | 匹配num,其中num是一个正整数。表示对前面所获取的子表达式的匹配的引用。例如,“(.)\1”匹配两个连续的相同字符 |
\oct | 表示一个八进制ASCII码值或一个后向引用。如果\oct之前至少有oct个子表达式,则\oct为后向引用,否则,如果oct为八进制数字(0-7),则oct为一个八进制ASCII码值 |
\un | 匹配n,其中n是一个用四个十六进制数字表示的Unicode字符。例如,\u00A9匹配版权符号(©) |
| | 表达式逻辑“或”。例如正则表达式“him |
[:lower:] | 匹配任意一个小写字母,使用时加上中括号[],下同,即[[:lower:]]等价于[a-z] |
[:upper:] | 匹配任意一个大写字母,[[:upper:]]等价于[A-Z] |
[:alpha:] | 匹配任意一个字母,[[:alpha:]]等价于[a-zA-Z] |
[:digit:] | 匹配任意一个数字,[[:digit:]]等价于[0-9] |
[:alnum:] | 匹配任意一个字母或数字,[[:alnum:]]等价于[a-zA-Z0-9] |
[:blank:] | 匹配空格或制表符Tab,[[:blank:]]等价于[\x20\t] |
[:space:] | 匹配任意空白字符,包括空格,[[:space:]]等价于[\x20\t\r\n\v\f] |
[:graph:] | 匹配任意ASCII可见字符,[[:graph:]]等价于[\x21-\x7E] |
[:print:] | 匹配空格或任意ASCII可见字符,[[:print:]]等价于[\x20-\x7E] |
[:punct:] | 匹配任意标点符号(Punctuation Characters),[[:punct:]]等价于[][!"#$%&'()*+,./:;<=>?@\^_`{|}~-] |
[:cntrl:] | 匹配任意控制字符,比如CR、LF、Tab、Del等,[[:cntrl:]]等价于[\x00-\x1F\x7F] |
[:xdigit:] | 匹配任意十六进制数码,[[:xdigit:]]等价于[A-Fa-f0-9] |
以上元字符为日常正则表达式中可能用到的,并未做全部列举。由于不同流派和版本的正则表达式引擎规则有所差异,上述元字符功能并非放之四海而皆准,有些元字符在某些引擎中并未得到支持。
关于上面元字符的描述会涉及到几个名词概念,在这里作简要的描述。
(1)八进制转义字符[2][2]^{[2]}。 我们学过用一个转义符\加上一个特殊字母来表示某个字符的方法,如:\n表示换行符,而\t表示Tab符,\’则表示单引号。八进制转义字符是反斜杠后跟一个八进制数,用于表示ASCII码等于该值的字符。例如问号?的ASCII值是63,那么我们可以把它转换为八进值77,然后用\77来表示?。由于是八进制,所以本应写成\077,但因为CC++规定不允许使用斜杠加10进制数来表示字符,所以这里的0可以不写。
同理,十六进制转义字符,就是反斜杠\后面接一个十六进制数来表示一个字符。还是以问号?为例,问号?的ASCII码值63转换为十六进制是4F,那么十六进制转义字符为\x4F。
(2)后向引用[3][3]^{[3]}。
正则表达式中,使用小括号扩住一个表达式称之为组(group),又称为子表达式,匹配这个子表达式的文本可以在正则表达式或其它程序中作进一步的处理。默认情况下,每个组会自动拥有一个组号,规则是:从左向右,以组的左括号为标志,第一个出现的组号为1,第二个为2,以此类推。后向引用(亦称反向引用)指的是正则表达式重复利用前面某个子表达式。例如:\1代表分组1匹配的文本。难以理解?请看示例:
\b(\w+)\b\s+\1\b
可以用来匹配重复的单词,像logo logo
或kitty kitty
。这个表达式首先是一个单词,也就是单词开始处和结束处之间存在多于一个字母或数字\b(\w+)\b
,这个单词会被捕获到编号为1的组中,然后是1个或几个空白符\s+
,最后是组1中捕获的内容(也就是前面匹配的那个单词)。
(3)零宽断言。 零宽断言(Zero Width Assertion),是一种零宽度的匹配,它匹配到的内容不会保存到匹配结果中去,因不会消耗待匹配字符,所以有“零宽度”之说。又因像元字符\b、^、$那样用于指定一个位置,该位置应该满足一定的条件(即断言),所以称之为零宽断言。零宽断言根据是否匹配表达式exp分为正向与负向零宽断言,匹配则为正向零宽断言(Positive Zero Width Assertion),不匹配则为负向零宽断言(Negative Zero Width Assertion)。
正向零宽断言根据匹配的方向分为两种,从当前位置向右匹配,为正向先行零宽断言(Positive Lookahead Zero Width Assertion),使用元字符(?=exp)表示;从当前位置向左匹配,为正向后顾零宽断言(Positive Lookbehind Zero Width Assertion),使用元字符(?<=exp)表示。上文已有简单的举例说明,分别再看一下例子说明。
正向先行零宽断言的例子。比如\b\w+(?=ing\b),匹配以ing结尾的单词的前面部分(除了ing以外的部分),如查找I’m singing while you’re dancing.时,它会匹配sing和danc。再来个正向后顾零宽断言的例子,比如(?<=\bre)\w+\b会匹配以re开头单词的后半部分(除了re以外的部分),例如在查找reading a book时,它匹配ading。
负向零宽断言根据匹配的方向同样分为两种,从当前位置向右匹配,为负向先行零宽断言(Negative Lookahead Zero Width Assertion),使用元字符(?!exp)表示;从当前位置向左匹配,为负向后顾零宽断言(Negative Lookbehind Zero Width Assertion),使用元字符(?
(1)匹配中文。[\u4e00-\u9fa5]
。
(2)匹配身份证号码。身份证为15位或者18位,15位的全为数字,18位的前17位为数字,最后一位为数字或者大写字母”X“。与之匹配的正则表达式:(^\d{15}$)|(^\d{17}([0-9]|X)$)
。
(3)匹配Email地址:w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*
。
(4)匹配网址URL的正则表达式:[a-zA-z]+://[^\S]*
。
(5) 匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
。
(6)匹配中国国内电话号码:d{3}-d{8}|d{4}-d{7}
。匹配形式如0511-4405222 或 021-87888822。
(7)匹配腾讯QQ号:[1-9][0-9]{4,}
。腾讯QQ号从10000开始,最长为10位,10000为腾讯官方QQ。
(8)匹配中国邮政编码:^[1-9]\d{5}$
。中国邮政编码为6位数字,第一位不为零。
(9)匹配IP地址。IPv4的地址是(0~255).(0~255).(0~255).(0~255)的格式。下面的正则表达式会匹配12.12.12.12,但不会匹配012.12.12.12。
^((25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9])\.){3}(25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9])$
。
(10)匹配特定数字。
^[1-9]d*$ //匹配正整数
^-[1-9]d*$ //匹配负整数
^-?[1-9]d*$ //匹配整数
^[1-9]d*|0$ //匹配非负整数(正整数+0)
^-[1-9]d*|0$ //匹配非正整数(负整数+0)
^[1-9]d*.d*|0.d*[1-9]d*$ //匹配正浮点数
^-([1-9]d*.d*|0.d*[1-9]d*)$ //匹配负浮点数
^-?([1-9]d*.d*|0.d*[1-9]d*|0?.0+|0)$ //匹配浮点数
^[1-9]d*.d*|0.d*[1-9]d*|0?.0+|0$ //匹配非负浮点数(正浮点数 + 0)
^(-([1-9]d*.d*|0.d*[1-9]d*))|0?.0+|0$ //匹配非正浮点数(负浮点数 + 0)
(11)匹配特定字符串。
^[A-Za-z]+$ //匹配由26个英文字母组成的字符串
^[A-Z]+$ //匹配由26个英文字母的大写组成的字符串
^[a-z]+$ //匹配由26个英文字母的小写组成的字符串
^[A-Za-z0-9]+$ //匹配由数字和26个英文字母组成的字符串
^\w+$ //匹配由数字、26个英文字母或者下划线组成的字符串
(12)匹配空行。
windows: ^(\s*)\r\n
linux: ^(\s*)\n
mac: ^(\s*)\r
(13)匹配任意字符串,包括不可打印字符。
[\s\S]+
//或者
[\s\S]{1,}
[1]正则表达式.菜鸟教程 [2]八进制转义字符 [3]正则表达式后向引用详解 [4]正则表达式.百度百科 [5]正则表达式应用举例 [6]常用正则表达式大全(转) [7]正则表达式30分钟入门教程 [8]Regular expression.wikipedia