前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >正则表达式backreference

正则表达式backreference

作者头像
随心助手
发布2019-10-15 10:57:06
7820
发布2019-10-15 10:57:06
举报
文章被收录于专栏:nginx遇上redisnginx遇上redis

一、问题引入

一个在HTML页面中匹配标题标签(H1—H6)的问题:

文本:

<h1>Welcome to my page</H1>

Content is divided into twosections:<br>

<h2>Introduction</h2>

Information about me.

<H2>Hobby</H2>

Information about my hobby.

<h2>This is invalid HTML</h3>

正则表达式:<[hH][1-6]>.*?</[hH][1-6]>

结果:

<body>

【<h1>Welcome to my page</H1>】

Content is divided into twosections:<br>

【<h2>Introduction</h2>】

Information about me.

【<H2>Hobby</H2>】

Information about my hobby.

【<h2>This is invalid HTML</h3>】

</body>

分析:模式<[hH][1-6]>匹配任何一级标题的开始标签,而且不区分大小写,在这个例子中它匹配到了<h1>、<h2>,</[hH][1-6]>匹配到了</h1>、</h2>、</h3>;这里使用了懒惰型元字符来匹配标签中的文本,否则会匹配到从第一个开始标签到最后一下结束标签之间的内容。但是从结果可以看出,有一个无效的标签也匹配上了,即<h2></h3>,它们根本不能配对。要解决这个问题,就需要使用到回溯引用(backreference)。

二、回溯引用匹配

回溯引用是指模式的后半部分引用在前半部分中定义的子表达式。至于子表达式的使用、划分和引用,在前面已经介绍过了。现在来解决前面的例子:

文本:

<body>

<h1>Welcome to my page</H1>

Content is divided into twosections:<br>

<h2>Introduction</h2>

Information about me.

<H2>Hobby</H2>

Information about my hobby.

<h2>This is invalid HTML</h3>

</body>

正则表达式:<[hH]([1-6])>.*?</[hH]\1> 结果:

<body>

【<h1>Welcome to my page</H1>】

Content is divided into twosections:<br>

【<h2>Introduction</h2>】

Information about me.

【<H2>Hobby</H2>】

Information about my hobby.

<h2>This is invalid HTML</h3>

分析:首先匹配开始标题标签的模式<[hH]([1-6])>,使用括号把[1-6]做为子表达式,而匹配结束标题标签模式为</[hH]\1>,其中\1表示引用第一个子表达式,即([1-6]),如果([1-6])匹配到的是1,那\1也匹配到1,如果匹配到2,那\1也匹配到2,所以最后一个无效的标题标签就不会被匹配到了。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-06-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 nginx遇上redis 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档