前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[Linux]正则表达式和grep使用

[Linux]正则表达式和grep使用

作者头像
祥知道
发布2020-03-10 15:59:09
1.2K0
发布2020-03-10 15:59:09
举报
文章被收录于专栏:祥的专栏祥的专栏

原创文章,欢迎转载。转载请注明:转载自 祥的博客

原文链接:https://cloud.tencent.com/developer/article/1596388


文章目录

代码语言:txt
复制
- @[toc]1.正则表达式1.1.基本正则表达式1.2. POSIX字符类正则表达式1.3. 元字符正则表达式2.运用2.1.例子2.2.处理特殊字符grep命令3.1.介绍和简单使用3.2. 正则表达式元字符3.3. grep 选项3.4. grep测试实例3.4.1.  普通用法3.4.2.  

1.正则表达式

1.1.基本正则表达式

正则表达式 的基本组成部分

可以看以前的博客[Regex]Get正则表达式:https://blog.csdn.net/humanking7/article/details/51175937

正则表达式

描  述

示  例

^

行起始标记

^tux 匹配以tux起始的行

$

行尾标记

tux$ 匹配以tux结尾的行

.

匹配任意一个字符

Hack. 匹配Hackl和Hacki,但是不能匹配Hackl2和Hackil,它只能匹配单个字符

[]

匹配包含在 字符 之中的任意一个字符

cookl 匹配cook或cool

^

匹配除 ^字符 之外的任意一个字符

9^01 匹配92、93,但是不匹配91或90

-

匹配 [] 中指定范围内的任意一个字符

1-5 匹配从1~5的任意一个数字

?

匹配之前的项1次或0次

colou?r 匹配color或colour,但是不能匹配colouur

+

匹配之前的项1次或多次

Rollno-9+ 匹配Rollno-99、Rollno-9,但是不能匹配Rollno-

*

匹配之前的项0次或多次

co*l 匹配cl、col、coool等

()

创建一个用于匹配的子串

ma(tri)?x 匹配max或maxtrix

{n}

匹配之前的项n次

0-9{3} 匹配任意一个三位数,0-9{3} 可以扩展为0-90-9

{n,}

之前的项至少需要匹配n次

0-9{2,} 匹配任意一个两位或更多位的数字

{n,m}

指定之前的项所必需匹配的最小次数和最大次数

0-9{2,5} 匹配从两位数到五位数之间的任意一个数字

|

交替 : 匹配 | 两边的任意一项

Oct (1st | 2nd) 匹配Oct 1st 或Oct 2nd

\

转义符可以将上面介绍的特殊字符进行转义

a.b 匹配a.b,但不能匹配ajb。通过在 . 之间加上前缀 \ ,从而忽略了.的特殊意义

1.2. POSIX字符类正则表达式

POSIX字符类是一个形如[:...:]的特殊元序列(meta sequence),它可以用于匹配特定的字符范围。

正则表达式

描  述

示  例

:alnum:

字母与数字字符

[:alnum:]+

:alpha:

字母字符(包括大写字母与小写字母)

[:alpha:]{4}

:blank:

空格与制表符

[:blank:]*

:digit:

数字字符

[:digit:]?

:lower:

小写字母

[:lower:]{5,}

:upper:

大写字母

([:upper:]+)?

:punct:

标点符号

[:punct:]

:space:

包括换行符、回车等在内的所有空白字符

[:space:]+

1.3. 元字符正则表达式

元字符是一种Perl风格的正则表达式只有一部分文本处理工具支持它,并不是所有的工具都支持下表中所列的字符,但是之前介绍的正则表达式字符类都是被广泛支持的。

正则表达式

描  述

示  例

\b

单词边界

\bcool\b 匹配cool,但不匹配coolant

\B

非单词边界

cool\B 匹配coolant,但不匹配cool

\d

单个数字字符

b\db 匹配b2b,但不匹配bcb

\D

单个非数字字符

b\Db 匹配bcb,但不匹配b2b

\w

单个单词字符(字母、数字与 _ )

\w 匹配1或a,但不匹配 &

\W

单个非单词字符

\W匹配&,但不匹配1或a

\n

换行符

\n 匹配一个新行

\s

单个空白字符

x\sx 匹配x x,但不匹配xx

\S

单个非空白字符

\x\S\x 匹配xkx,但不匹配xx

\r

回车

\r 匹配回车

2.运用

2.1.例子

  • 为了匹配给定文本中所有单词,可以使用下面的正则表达式:
代码语言:javascript
复制
( ?[a-zA-Z]+ ?)

“?”用于匹配单词前后可能出现的空格[a-zA-Z]+ 代表一个多个字母(a~zA~Z)。

  • 为了匹配一个IP地址,可以使用下面的正则表达式:
代码语言:javascript
复制
[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}
# 或者
[[:digit:]]{1,3}\.[[:digit:]]{1,3}\.[[:digit:]]{1,3}\.[[:digit:]]{1,3}

我们知道IP地址通常的书写形式是192.168.0.2,它是由点号分割的4个整数(每一个整数的取值范围从0255)。

[0-9][:digit:] 匹配数字0~9{1,3} 匹配13个数字, \. 匹配 "."

2.2.处理特殊字符

正则表达式用$^.*+{ 以及} 等作为特殊字符。但是如果我们希望将这些字符作为非特殊字符(表示普通字面含义的字符)来使用的话,应该怎么做呢?来看一个例子。

正则表达式:[a-z]*.[0-9]

那么,它是什么意思?

  1. 它可以匹配0个或多个 [a-z]([a-z]*) ,接任意单个字符(. ),再接[0-9] 中的任意一个字符,所以它能够匹配 abcdeO9
  2. 它也可以理解成:匹配[a-z]任意一个字符,接单个字符* ,再接单个字符. (点号),最后接一个数字,所以它能够匹配x*.8

为了避免这种理解上的混乱,我们可以在字符前面放上一个“\ ”(这种做法称为“对字符进行转义”)。对于像 * 这种具有多种含义的字符,可以在前面加上“\ ”,使其具备或丧失某些特殊的含义。至于转义后字符的意义是否具备特殊的含义,则取决于你所使用的工具。

3. grep命令

3.1.介绍和简单使用

grep 这个命令是一个全局查找正则表达式并且打印结果行的命令。它的输入是一个文件或者是一个标准输入(stdin)。它的输出一般是打印在里屏幕上grep 家族里还有 egrepfgrep 这两个命令。

grep 命令在一个多个文件中查找某个字符模式。如果这个模式中包含空格,就必须用引号把它括起来grep命令中,模式可以是一个被引号括括起来的字符串,也可以是单个词位于模式之后所有的单词都被视为文件名grep 将输出发送到屏幕,它不会输入文件进行任何修改或变化,下面我们以一个命令来说明。

代码语言:javascript
复制
# 命令格式
grep [选项] 模式 [文件....]

例子1:

查找文件/etc/passwd中,匹配(含有)root的行。这里面模式就是root,文件为/etc/passwd

代码语言:javascript
复制
root@vultr:~# grep root  /etc/passwd
root:x:0:0:root:/root:/bin/bash
root@vultr:~# 

说明:

  • 如果查找成功,文件中相应行会显示在屏幕上;
  • 如果没有找到指定的模式,就不会有任何输出;
  • 如果指定的文件不是一个合法的文件,屏幕上就会显示报错信息。
  • 如果发现了要查找的模式grep 就返回退出状态 0,表示成功
  • 如果没找到要查找的模式,返回的退出状态为 1
  • 如果找不到指定文件时,退出状态将是 2

grep 的程序输入可以来自标准输入管道,而不仅仅是文件。

如果忘了指定文件grep会以为你要它从标准输入(即键盘)获取输入,于是停下来等你健入一些字符。

如果输入来自管道,就会有另一条命令的输出通过管道变成 grep命令的输入,如果匹配到要查找的模式,grep 会把输出打印在屏幕上。

例子2:

ps命令的输出被送到 grep,然后所有包含 /sbin/init 的行都被打印在屏幕上。

代码语言:javascript
复制
root@vultr:~# ps -ef | grep "/sbin/init"
root         1     0  0 Nov22 ?        00:00:16 /sbin/init
root      8272  7862  0 08:21 pts/1    00:00:00 grep --color=auto /sbin/init
root@vultr:~# 

3.2. 正则表达式元字符

元字符也是一种字符,但他表达的含义不同于字符本身的字面含义。例如, ^$就是元字符grep 支持很多正则表达式元字符,以便用户更精确的定义要查找模式

元字符

功 能

示 例

示例的匹配对象

^

行首定位符

/^love/

匹配所有以 love 开头的行

$

行尾定位符

/love$/

匹配所有以 love 结尾的行

.

匹配除换行外的单个字符

/l..e/

匹配包含字符 l、后跟两个任意字符、再跟字母 e 的行

*

匹配零个或多个前导字符

/*love/

匹配在零个或多个空格紧跟着模式 love 的行

[]

匹配指定字符组内任一字符

/Llove/

匹配包含 love 和 Love 的行

^

匹配不在指定字符组内任一字符

/^A-KM-Zove/

匹配包含 ove,但 ove 之前的那个字符不在 A至K 或 M至Z 间的行

(..)

保存已匹配的字符

&

保存查找串以便在替换串中引用

s/love/**&**/

符号& 代表查找串。字符串 love 将替换前后各加了两个**的引用,即 love 变成**love**

\<

词首定位符

/\<love/

匹配包含以 love 开头的单词的行

>

词尾定位符

/love>/

匹配包含以 love 结尾的单词的行

x{m}

连续 m 个 x

/o{5}/

出现连续 5个字母o 的行

x{m,}

至少 m 个 x

/o{5,}/

至少 5 个连续的 o 的行

x{m,n}

至少m 个 x,但不超过 n个 x

/o{5,10}/

5~10 个连续的 o 的行

3.3. grep 选项

grep 选项用于调整执行查找显示结果的方式。例如:通过选项来关闭大小写敏感、要求显示行号,或者只显示报错信息等。

选 项

功 能

-E

如果加这个选项,那么后面的匹配模式就是扩展的正则表达式,也就是 grep -E = egrep

-i

比较字符时忽略大小写区别

-w

把表达式作为词来查找,相当于正则中的"\<...>"(…表示你自定义的规则)

-x

被匹配到的内容,正好是整个行,相当于正则"^...$"

-v

取反,也就是输出我们定义模式相反的内容

-c

count统计,统计匹配结果的行数,主要不是匹配结果的次数,是行数。

-m

只匹配规定的行数,之后的内容就不在匹配了

-n

在输出的结果里显示行号,这里要清楚的是这里所谓的行号是该行内容在原文件中的行号,而不是在输出结果中行号

-o

只显示匹配内容, grep默认是显示满足匹配条件的一行,加上这个参数就只显示匹配结果,比如我们要匹配一个 ip 地址,就只需要结果,而不需要该行的内容。

-R

递归匹配。如果要在一个目录中多个文件或目录匹配内容,则需要这个参数

-B

输出满足条件行的前几行,比如 grep -B 3 "aa" file 表示在 file 中输出有 aa 的行,同时还要输出 aa 的前 3 行

-A

这个与-B 类似,输出满足条件行的后几行

-C

这个相当于同时用-B -A,也就是前后都输出

3.4. grep测试实例

下列所有示例程序都是基于test.txt 的文本数据。

代码语言:javascript
复制
root@vultr:~# cat test.txt 
northwest   NW  Charles Main       3.0     .98     3   34
western     WE  Sharon Gray        5.3     .97     5   23
southwest   SW  Lewis Dalsass      2.7     .8      2   18
southern    SO  Suan Chin          5.1     .95     4   15
southeast   SE  Patricia Hemenway  4.0     .7      4   17
eastern     EA  TB Savage          4.4     .84     5   20
northeast   NE  AM Main Jr.        5.1     .94     3   13
north       NO  Margot Weber       4.5     .89     5   9
central     CT  Ann Stephens       5.7     .94     5   13
root@vultr:~# 

3.4.1. 普通用法

打印文件 test.txt 文件包含正则表达式 NW 的行

代码语言:javascript
复制
root@vultr:~# grep NW test.txt 
northwest   NW  Charles Main       3.0     .98     3   34
root@vultr:~# 

3.4.2. grep ^

打印以字母 n 开头的行, (^) 是行首定位符

代码语言:javascript
复制
root@vultr:~# grep ^n test.txt
northwest   NW  Charles Main       3.0     .98     3   34
northeast   NE  AM Main Jr.        5.1     .94     3   13
north       NO  Margot Weber       4.5     .89     5   9
root@vultr:~# 

3.4.3. `grep

打印所有以数字 4 结尾的行。 ($) 为行尾定位符

代码语言:javascript
复制
root@vultr:~# grep "4$" test.txt 
northwest   NW  Charles Main       3.0     .98     3   34
root@vultr:~# 

3.4.4. grep '' 或 ""

打印所有包含 TB Savage 的行。如果不用引号 (这个例子中,使用单引号双引号都可以),TBSavage 之间的空格将导致 grep 会在 Savagetest.txt 查找 TB。所以,如果字符串之间有空格,必须要用引号引起来

代码语言:javascript
复制
root@vultr:~# grep 'TB Savage' test.txt
eastern     EA  TB Savage          4.4     .84     5   20
root@vultr:~# 

3.4.5. grep .

打印所有包含数字 5,后面跟一个.号 再跟一个任意字符的行。 (.)号代表单个字符,被 (\)转义后,只代表本身一个.号。

代码语言:javascript
复制
root@vultr:~# grep '5\..' test.txt 
western     WE  Sharon Gray        5.3     .97     5   23
southern    SO  Suan Chin          5.1     .95     4   15
northeast   NE  AM Main Jr.        5.1     .94     3   13
central     CT  Ann Stephens       5.7     .94     5   13
root@vultr:~# 

3.4.6. grep []

打印所有字母 we 开头的行。 []表示任意一个字符都可以匹配。

代码语言:javascript
复制
root@vultr:~# grep '^[we]' test.txt 
western     WE  Sharon Gray        5.3     .97     5   23
eastern     EA  TB Savage          4.4     .84     5   20
root@vultr:~# 

3.4.7. grep [^]

打印包含非数字字符的行。由于至少每一行有一个非数字字符,因此所有行都被打印。

代码语言:javascript
复制
root@vultr:~#  grep '[^0-9]'  test.txt 
northwest   NW  Charles Main       3.0     .98     3   34
western     WE  Sharon Gray        5.3     .97     5   23
southwest   SW  Lewis Dalsass      2.7     .8      2   18
southern    SO  Suan Chin          5.1     .95     4   15
southeast   SE  Patricia Hemenway  4.0     .7      4   17
eastern     EA  TB Savage          4.4     .84     5   20
northeast   NE  AM Main Jr.        5.1     .94     3   13
north       NO  Margot Weber       4.5     .89     5   9
central     CT  Ann Stephens       5.7     .94     5   13
root@vultr:~# 

3.4.8. grep '[]'

打印了包含两个大写字符、后跟一个空格一个大写字符的行,例如 TB SavageAM Main

代码语言:javascript
复制
root@vultr:~# grep '[A-Z][A-Z] [A-Z]'  test.txt
eastern     EA  TB Savage          4.4     .84     5   20
northeast   NE  AM Main Jr.        5.1     .94     3   13
root@vultr:~# 

3.4.9. grep *

打印包含一个s、后跟 0 个或多个连着的s一个空格的文本行。

代码语言:javascript
复制
root@vultr:~# grep 'ss* ' test.txt
northwest   NW  Charles Main       3.0     .98     3   34
southwest   SW  Lewis Dalsass      2.7     .8      2   18
central     CT  Ann Stephens       5.7     .94     5   13
root@vultr:~# 

3.4.10. grep {}

打印所有出现至少 9 个小写字母连在一起的行,例如, northwestsouthwestsoutheastnortheast

代码语言:javascript
复制
root@vultr:~# grep '[a-z]\{9\}' test.txt 
northwest   NW  Charles Main       3.0     .98     3   34
southwest   SW  Lewis Dalsass      2.7     .8      2   18
southeast   SE  Patricia Hemenway  4.0     .7      4   17
northeast   NE  AM Main Jr.        5.1     .94     3   13
root@vultr:~# 

3.4.11. grep \(\)

如果某一行包含一个 3后面跟一个句点一个数字,再任意多个字符(.*),然后跟一个或任意多个空格,再接一个3,则打印该行。

其中 \(3\) 将字符3保存下来,后面用\1 进行代表字符 3

代码语言:javascript
复制
root@vultr:~# grep '\(3\)\.[0-9].*\1 *\1' test.txt
northwest   NW  Charles Main       3.0     .98     3   34
root@vultr:~# 

3.4.12. grep \<Word\>

打印所有包含单词 north 的行。“ \<”词首定位符“ \>”词尾定位符

代码语言:javascript
复制
root@vultr:~# grep '\<north\>' test.txt 
north       NO  Margot Weber       4.5     .89     5   9
root@vultr:~# 

3.4.13. grep \<Word2>\

打印所有包含以小写字母开头以 n 结尾,中间由任意多个字符组成单词的行。注意 符号.*,他代表任意字符,包括空格

代码语言:javascript
复制
root@vultr:~#  grep '\<[a-z].*n\>' test.txt 
northwest   NW  Charles Main       3.0     .98     3   34
western     WE  Sharon Gray        5.3     .97     5   23
southern    SO  Suan Chin          5.1     .95     4   15
eastern     EA  TB Savage          4.4     .84     5   20
northeast   NE  AM Main Jr.        5.1     .94     3   13
central     CT  Ann Stephens       5.7     .94     5   13
root@vultr:~# 

3.5. grep选项测试实例

3.5.1. grep -n

选项-n 在找到指定模式的行前面加上其行号再一并输出(显示的行号是文本中的行号)。

代码语言:javascript
复制
root@vultr:~# grep -n 'north' test.txt 
1:northwest   NW  Charles Main       3.0     .98     3   34
7:northeast   NE  AM Main Jr.        5.1     .94     3   13
8:north       NO  Margot Weber       4.5     .89     5   9
root@vultr:~# 

3.5.2. grep -i

选项-i 关闭大小写敏感性。表达式 pat 包含任意大小写的组合都符合。

代码语言:javascript
复制
root@vultr:~# grep -i 'pat' test.txt 
southeast   SE  Patricia Hemenway  4.0     .7      4   17
root@vultr:~# 

3.5.3. grep -v

这个实例中,选项-v 打印所有不含模式 235 的行。

选项-v 可用来删除输入文件汇中特定的条目。如果真要删除这些条目,就要把 grep 的输出重定向到一个临时文件中,然后把临时文件的名字改成原文件的名字。

注意不能从原文件重定向到原文件,这样会破坏原文件的。

代码语言:javascript
复制
root@vultr:~# grep -v '[235]' test.txt 
southeast   SE  Patricia Hemenway  4.0     .7      4   17
root@vultr:~# 

3.5.4. grep -l

选项-l 使 grep 只输出包含模式的文件名,而不输出文本行

代码语言:javascript
复制
root@vultr:~# grep -l 'north' test.txt t2.sh 
test.txt
root@vultr:~# 

3.5.5. grep -c

选项-cgrep 打印出含有模式的行数目。这个数字并不代表模式的出现次数。例如,即使 west 在某行中出现 2 次,这行也只计一次

代码语言:javascript
复制
root@vultr:~# grep -c 'north' test.txt
3
root@vultr:~# 

3.5.6. grep -w

选项-w只查找作为一个词,而不是词的一部分出现的模式。这条命令只打印包含词 north 的行,而不打印那些northwestnorthwest 等中出现的行。

代码语言:javascript
复制
root@vultr:~# grep 'north' test.txt
northwest   NW  Charles Main       3.0     .98     3   34
northeast   NE  AM Main Jr.        5.1     .94     3   13
north       NO  Margot Weber       4.5     .89     5   9
root@vultr:~# grep -w 'north' test.txt
north       NO  Margot Weber       4.5     .89     5   9
root@vultr:~# 

3.6. grep 与管道

grep 的输入不一定都是文件,它也常常从管道读取输入

代码语言:javascript
复制
root@vultr:~# ls
code  control_vpn  restart_ss.sh  showUsed_ss.sh  t2.sh  test.txt
root@vultr:~# ls | grep "^s"
showUsed_ss.sh
root@vultr:~# ls | grep "s"
restart_ss.sh
showUsed_ss.sh
t2.sh
test.txt
root@vultr:~# 

3.7. egrep 扩展

egrepgrep 的基础上增加了更多的元字符。但是 egrep 不允许使用\(\), \{\}

元字符

功 能

示 例

示例的匹配对象

^

行首定位符

/^love/

匹配所有以 love 开头的行

$

行尾定位符

/love$/

匹配所有以 love 结尾的行

.

匹配除换行外的单个字符

/l..e/

匹配包含字符 l、后跟两个任意字符、再跟字母 e 的行

*

匹配零个或多个前导字符

/*love/

匹配在零个或多个空格紧跟着模式 love 的行

[]

匹配指定字符组内任一字符

/Llove/

匹配包含 love 和 Love 的行

^

匹配不在指定字符组内任一字符

/^A-KM-Zove/

匹配包含 ove,但 ove 之前的那个字符不在 A至K 或 M至Z 间的行

egrep

新增的元字符:

+

匹配一个或多个加号前面的字符

'a-z+ove'

匹配一个或多个小写字母后跟 ove 的字符串。 move love approve

?

匹配 0 个或一个前导字符

'lo?ve'

匹配 l 后跟一个或 0 个字母 o 以及 ve 的字符串。 love或者lve

a|b

匹配 a 或 b

'love|hate'

匹配 love 和 hate 这两个表达式之一

()

字符组

'love(able|ly)(ov+)'

匹配 loveable 或 lovely, 匹配 ov的一次或多次出现

grep 不支持“|”这个, egrep 支持“|”egrep 查到了包含 west 或者 north 的行。

代码语言:javascript
复制
root@vultr:~# grep "west|north" test.txt 
root@vultr:~# egrep "west|north" test.txt 
northwest   NW  Charles Main       3.0     .98     3   34
western     WE  Sharon Gray        5.3     .97     5   23
southwest   SW  Lewis Dalsass      2.7     .8      2   18
northeast   NE  AM Main Jr.        5.1     .94     3   13
north       NO  Margot Weber       4.5     .89     5   9
root@vultr:~# 

4. 参考文献

  1. 跟老男孩学三剑客命令
  2. Linux Shell脚本攻略(第2版)

OK!

以上,Enjoy~

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 文章目录
  • 1.正则表达式
    • 1.1.基本正则表达式
      • 1.2. POSIX字符类正则表达式
        • 1.3. 元字符正则表达式
        • 2.运用
          • 2.1.例子
            • 2.2.处理特殊字符
            • 3. grep命令
              • 3.1.介绍和简单使用
                • 3.2. 正则表达式元字符
                  • 3.3. grep 选项
                    • 3.4. grep测试实例
                      • 3.4.1. 普通用法
                      • 3.4.2. grep ^
                      • 3.4.3. `grep
                      • 3.4.4. grep '' 或 ""
                      • 3.4.5. grep .
                      • 3.4.6. grep []
                      • 3.4.7. grep [^]
                      • 3.4.8. grep '[]'
                      • 3.4.9. grep *
                      • 3.4.10. grep {}
                      • 3.4.11. grep \(\)
                      • 3.4.12. grep \<Word\>
                      • 3.4.13. grep \<Word2>\
                    • 3.5. grep选项测试实例
                      • 3.5.1. grep -n
                      • 3.5.2. grep -i
                      • 3.5.3. grep -v
                      • 3.5.4. grep -l
                      • 3.5.5. grep -c
                      • 3.5.6. grep -w
                    • 3.6. grep 与管道
                      • 3.7. egrep 扩展
                      • 4. 参考文献
                      领券
                      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档