前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >值得读的linux的正则表达式总结---1

值得读的linux的正则表达式总结---1

作者头像
qsjs
发布2020-06-09 09:00:06
7870
发布2020-06-09 09:00:06
举报
文章被收录于专栏:MyPanda的学习笔记

在linux 的使用中,相同的正则表达式在不同的命令中所实现的匹配结果并完全相同,这就免不了导致我们在使用时候的疑惑。要解决这个疑惑,我们需要了解一些背景:

POSIX 是一个标准,其中定义了一些正则表达式的规范,而Linux基本上实现了POSIX的规范,但并没有参加正式的POSIX认证(这个说法查自百度的百科词条POSIX)。 而POSIX 定义了两种正则表达式语法,一种是BRE(Basic Regex Expression),另一种是ERE(Extended Regex Expression).

关于基本正则表达式(BRE),其支持的基本用法有:

代码语言:javascript
复制
^    表示匹配行首
$    表示匹配行尾
.    表示匹配任意单个字符,但是不含换行符‘\n’

[]   匹配区间的任意字符,区间中可以是一个到多个字符,因为 并不是单一符号表示,所以需要用双引号 引用起来.
[^]  区间任意字符都不匹配,因为不是单一符号表示,所以要用 双引号 引用起来. 同样,区间中可以是一个到多个字符.
-    递增的连续区间,从来不能单独使用,常用在 [] 的内部,比如 "[a-z]" 表示a到z中的任意字符."[^a-z]" 表示a-z都不能匹配,也就是a-z之外的字符匹配.

*    属于二级正则表达式,因为其表示前面匹配出现的此处,此处表示匹配0次到多次.

\    这个表示转义字符. 比如:echo "abcde\f" | grep  -o '\\'  的结果为: \

ERE作为扩展正则表达式,其除了支持BRE,还支持如下的基本用法:

代码语言:javascript
复制
扩展的regular expression, 主要是实现二级正则表达式,也就是对匹配次数进行限制.
+  限制匹配的次数为1到多次.
?  限制匹配的次数为1次或者0次.
()  单一字符,可以直接跟限制次数的表达式,但是对于字符串,就需要用()引用起来,然后才能跟限制次数的表达式.
{n}   匹配前面的表达式n次
{n,}  匹配前面的表达式n次或者更多次.
{n,m} 匹配前面的表达式n次到m次.
|   相当于逻辑或,a|b  表示匹配a或者b.

关于上述扩展以及基本正则表达式,参考https://man.linuxde.net/docs/shell_regex.html

知道了上述的基本和扩展正则表达式,当使用linux命令的时候,要查看帮助都支持什么正则表达式,比如: grep命令,其帮助文档中有如下一段:

代码语言:javascript
复制
       -G, --basic-regexp
              Interpret PATTERN  as  a  basic  regular  expression  (BRE,  see
              below).  This is the default.

也就是说,默认情况下,grep 支持基本BRE正则表达式.

实际上,并不是所有的命令都完全兼容的支持 BRE与ERE, 对于不同的命令,可能都有特殊的情况,比如:grep 就无法把 \t 识别为tab键对应的值。对于grep的这个情况,有如下的多种解决方法: a. 指定grep 使用perl的正则表达式,参数为: -P, perl 正则是支持 "\t" 表示tab. b. 使用 "^V<tab>" 来实现向grep 传递tab键的值, 其中引号里面的内容并不是看到的输入字符,而是以下操作的结果: 按下ctrl+v, 然后按下tab建。 这种方式有一个明显的缺点: 如果需要在shell脚本中实现grep 的话,显然该方法并不具有很好的通用性. c. 3.1.2.4 ANSI-C Quoting,通过这里描述的ANSI-C的Quoting的特性,我们可以用 $'\t' 来表示 tab 键的值. 个人的理解是: shell 对这个 $'\t' 进行了interpreted, 然后把结果传递给了grep 做进一步的处理,但是如果用在grep中的正则表达式比较复杂,而tab仅仅是其中一个字符,那么用起来比较麻烦,另外,并且不是所有的shell都支持对$'\t'的 interpreted. 所以通用性也不是很好. d. 用printf 命令来输出 tab 对应的键值,然后传递给grep 进行处理。具体的用法是 :printf '\t' ,这个命令的结果就是 tab键的值,可以传递给grep 使用。比如用: grep "$(printf '\t')" foo.txt 命令。 如果是复杂的正则表达式,那么依然具有很好的兼容性。个人比较推荐.

在linux 的shell中,对变量的访问是用 $加上变量名称来实现的,如果变量的值是多行的内容(比如是一个文件的内容),那么这时候对变量的访问就有两种方式, 访问变量时候是否用引号,对应的结果是不一样的,如果使用了引号,那么是按行进行处理的,如果没有用引号,那么是作为一个整体处理的。

代码语言:javascript
复制
[root@test~]# str=`head /etc/os-release`
[root@test ~]# echo $str
NAME="Red Hat Enterprise Linux Workstation" VERSION="7.6 (Maipo)" ID="rhel" ID_LIKE="fedora" VARIANT="Workstation" VARIANT_ID="workstation" VERSION_ID="7.6" PRETTY_NAME="Red Hat Enterprise Linux Workstation 7.6 (Maipo)" ANSI_COLOR="0;31" CPE_NAME="cpe:/o:redhat:enterprise_linux:7.6:GA:workstation"
[root@test ~]# echo "$str"
NAME="Red Hat Enterprise Linux Workstation"
VERSION="7.6 (Maipo)"
ID="rhel"
ID_LIKE="fedora"
VARIANT="Workstation"
VARIANT_ID="workstation"
VERSION_ID="7.6"
PRETTY_NAME="Red Hat Enterprise Linux Workstation 7.6 (Maipo)"
ANSI_COLOR="0;31"
CPE_NAME="cpe:/o:redhat:enterprise_linux:7.6:GA:workstation"
[root@test ~]# 
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档