Linux命令第10节 grep文本搜索工具

文章来源：企鹅号 - zicreate

跟我一起学嵌入式linux开发之常用命令： grep文本搜索工具

1．命令功能

grep 即 global search regular expression，grep 命令是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。

该命令组包含：grep，egrep 和 fgrep 命令，还有一个 zgrep 。grep命令一次只能搜索一个指定的模式；egrep命令等同于grep -E，可以使用扩展的字符串模式进行多模式搜索；fgrep命令等同于grep -F，是快速搜索命令，它检索固定字符串，但不识别正则表达式。

2．命令格式

grep[选项]match_pattern[文件名1，文件名2，…]grep[选项][-e match_pattern -f 文件][文件名1，文件名2，…]3．命令参数

-a 不要忽略二进制数据。-A 除了显示符合范本样式的那一行之外，并显示该行之后的内容。-b 在显示符合范本样式的那一行之外，并显示该行之前的内容。-c 计算符合范本样式的列数。-C或- 除了显示符合范本样式的那一列之外，并显示该列之前后的内容。-d 当指定要查找的是目录而非文件时，必须使用这项参数，否则grep命令将回报信息并停止动作。-e 指定字符串作为查找文件内容的范本样式。-E将范本样式为延伸的普通表示法来使用，意味着使用能使用扩展正则表达式。-f 指定范本文件，其内容有一个或多个范本样式，让grep查找符合范本条件的文件内容，格式为每一列的范本样式。-F将范本样式视为固定字符串的列表。-G将范本样式视为普通的表示法来使用。-h 在显示符合范本样式的那一列之前，不标示该列所属的文件名称。-H在显示符合范本样式的那一列之前，标示该列的文件名称。-i 忽略字符大小写的差别。-l 列出文件内容符合指定的范本样式的文件名称。-L列出文件内容不符合指定的范本样式的文件名称。-n 在显示符合范本样式的那一列之前，标示出该列的编号。-q 不显示任何信息。-R/-r 此参数的效果和指定“-d recurse”参数相同。-s 不显示错误信息。-v 反转查找。-w 只显示全字符合的列。-x 只显示全列符合的列。-y 此参数效果跟“-i”相同。-o 只输出文件中匹配到的部分。

pattern正则表达式元字符集(基本集)：

^ 锚定行的开始如：’^grep’匹配所有以grep开头的行。$ 锚定行的结束如：’grep$’匹配所有以grep结尾的行。. 匹配一个非换行符的字符如：’gr.p’匹配gr后接一个任意字符，然后是p。* 匹配零个或多个先前字符如：’ *grep’匹配所有一个或多个空格后紧跟grep的行。 .*一起用代表任意字符。[] 匹配一个指定范围内的字符，如'[Gg]rep’匹配Grep和grep。[^] 匹配一个不在指定范围内的字符，如：'[^A-FH-Z]rep’匹配不包含A-F和H-Z的一个字母开头，紧跟rep的行。(..) 标记匹配字符，如：'(love)’，love被标记为1。> 锚定单词的结束，如’grep>’匹配包含以grep结尾的单词的行。x{m} 连续重复字符x，m次，如：’o’匹配包含连续5个o的行。x{m,} 连续重复字符x,至少m次，如：’o’匹配至少连续有5个o的行。x{m,n} 连续重复字符x，至少m次，不多于n次，如：’o’匹配连续5–10个o的行。w 匹配一个文字和数字字符，也就是[A-Za-z0-9]，如：’Gw*p’匹配以G后跟零个或多个文字或数字字符，然后是p。W w的反置形式，匹配一个非单词字符，如点号句号等。W*则可匹配多个。b 单词锁定符，如: ‘bgrepb’只匹配grep，即只能是grep这个单词，两边均为空格。4．使用场景

场景1：从管道（）输入中搜索

在开发驱动的时候一般都会使用 printk 输出 debug 信息辅助调试，printk 输出的信息可以通过 dmesg 命令查看，但是大部分时候驱动输出信息会淹没在繁杂的系统log中，为了提取指定的驱动信息，常采样的方法如下：

提取 ipmi 相关log：$ dmesg grep ipmi[4.537236] ipmi message handler version39.2[4.542648] ipmi_si: probing via SMBIOS[4.542650] ipmi_si: SMBIOS: io0xca2regsize1spacing1irq[4.542651] ipmi_si: Adding SMBIOS-specified kcs state machine[4.542653] ipmi_si: probing via SPMI[4.542654] ipmi_si: SPMI: io0xca2regsize1spacing1irq

上面命令中间的 “” 是管道链接符，功能是将前一个命令的输出作为后一个命令的输入，后期文章将做更详细讲解。

类似的信息提取常用操作如下：

获取本机所有IP$ ifconfig grep "[0-9]\[.][0-9]\[.][0-9]\[.][0-9]\"inet 10.239.85.234 netmask 255.255.255.0 broadcast 10.239.85.255inet 10.1.100.190 netmask 255.255.255.0 broadcast 10.1.100.255inet 127.0.0.1 netmask 255.0.0.0上面命令中的正则表达式的意思参考上文“pattern正则表达式元字符集(基本集)”。查找匹配的进程$ ps -aux grep -i "work$"root 31760 0.0 0.0 19984 1124 pts/14 S+ 09:37 0:00 tmux a -t work从历史记录里查找输入过的git命令$ history grep git 387 git branch 388 git status 389 git log -v多级匹配，同时匹配多个字符串，“与”匹配$ cat /etc/yum.conf grep -v "^#" grep urlbugtracker_url=http://bugs.centos.org/set_project.php?project_id=23&ref=http://bugs.centos.org/bug_report_page.php?category=yum

场景2：在一堆文件中查找指定字符串

$ lldrwxrwxr-x.2root root4096Sep2209:50PCbuild-rw-r--r--.1root root26Sep2209:53pybuilddir.txt-rw-r--r--.1root root43097Sep2209:50pyconfig.h-rw-r--r--.1root root41188Sep2209:50pyconfig.h.in-rwxr-xr-x.1root root11471600Sep2209:53pythondrwxrwxr-x.2root root4096Jan414:49Python-rw-r--r--.1root root3048Sep2209:50python-config-rw-r--r--.1root root2042Sep2209:50python-config.py-rw-r--r--.1root root60997Sep2209:50python-gdb.py# 查找包含字符串"PyImport_Cleanup"的文件，标示出所属文件，所在行号，并输出匹配行前后2行的内容$ grep"PyImport_Cleanup"-Rnb--Python/pystate.c-324-}Python/pystate.c-325-Python/pystate.c:326:/* used by import.c:PyImport_Cleanup */Python/pystate.c-327-voidPython/pystate.c-328-_PyState_ClearModules(void)--Python/import.c-400-Python/import.c-401-voidPython/import.c:402:PyImport_Cleanup(void)Python/import.c-403-{Python/import.c-404- Py_ssize_t pos;--......多模式匹配，匹配多个字符串中的一个，“或”匹配$ grep -rnb -e 'PyImport_Cleanup'-e"PyImport_ImportModule"PC/bdist_wininst/install.c:690:20210: mod =PyImport_ImportModule("builtins");PC/python34stub.def:243:4623:PyImport_CleanupPC/python34stub.def:253:4860:PyImport_ImportModulePC/python34stub.def:254:4882:PyImport_ImportModuleLevelPC/python34stub.def:255:4909:PyImport_ImportModuleNoBlock或者在当前目录中创建一个搜索模式文件“grep_pattern”，文件内容如下：$ cat grep_patternPyImport_CleanupPyImport_ImportModule$ grep -f grep_pattern *

场景3：-E 扩展匹配模式

例如上文中的多模匹配：

$ grep -rnb -e 'PyImport_Cleanup' -e "PyImport_ImportModule"

使用 -E 参数查找多个模式：

$ grep -Ernb "PyImport_Cleanup PyImport_ImportModule"

或者

$ egrep -rnb "PyImport_Cleanup PyImport_ImportModule"

egrep = grep -E 可以使用基本的正则表达外，还可以用扩展表达式。

扩展表达式：

匹配一个或者多个先前的字符，至少一个先前字符。如：'[a-z]+able'，匹配一个或多个小写字母后跟able的串，如loveable,enable,disable等。

? 匹配0个或者多个先前字符。

abc 匹配a或b或c，如：grepsed匹配grep或sed

() 字符组，如： love(ableers) 匹配loveable或lovers。

(..)(..)\1\2 模板匹配。 \1代表前面第一个模板，\2代第二个括弧里面的模板。

x,x,x 作用同x\,x\,x\ ， x的字符数量在m到n个之间。

常见操作如下：

egrep'^+'file以一个或者多个空格开头的行.grep'^*'file同上egrep'(TOMDAN) SAVAGE'file包含 TOM SAVAGE 和DAN SAVAGE的行。egrep'(ab)+'file包含至少一个ab的行。egrep'x[0-9]?'file包含x或者x后面跟着个或者多个数字的行。egrep'fun\.$'* 所有文件里面以fun.结尾的行。egrep'[A-Z]+'file至少包含一个大写字母的行。egrep'[0-9]'file至少一个数字的行。egrep'[A-Z]...[0-9]'file有五个字符，第一个式大写, 最后一个是数字的行。egrep'[tT]est'file包含单词test或Test的行。egrep'ken sun'file包含kensun的行。egrep -v'marry'file不包含marry的行。egrep -i'sam'file不考虑sam的大小写,含有sam的行。egrep -l"dear ken"* 包含dear ken的所有文件的清单。egrep -ntomfile包含tom的行，每行前面追加行号。egrep -s"$name"file找到变量名$name的, 不打印而是显示退出状态，表示找到，1表示表达式没找到符合要求的，2表示文件没找到。

关于上面命令中通配符的讲解在前期的文章中已经有所涉及，本文不再详解。

扩展

（1）zgrep

在gzip压缩文件中搜索，这个命令支持grep的一部分命令参数，使用起来并不友好，建议还是解压之后使用grep。

（2）egrep

egrep 代表着“扩展全局正则表达式”。它可以识别更多的正则表达式元字符，可以在 grep 命令中使用选项-E来启用它。egrep是用extended regular expression语法来解读的，而grep则用basic regular expression 语法解读，extended regular expression比basic regular expression的表达更规范。

（3）fgrep

相当于执行grep指令加上参数"-F"，它搜索字符串而不是搜索匹配表达式的模式。fgrep 命令使用快速的压缩算法。$, *, [, , (, )和\等字符串被 fgrep 命令按字面意思解释。

fgrep 很简单就是固化表达式的搜索。如：

$ fgrep "$name...[a-z]" file

在file里面找到和字符$name...[a-z]一样的行。其中$和...等没有转义的意义。

或者使用 -F 参数

$ grep -Frn"PyImport_Cleanup"Doc/c-api/import.rst:224:..c:function::voidPyImport_Cleanup()Doc/data/refcounts.dat:508:PyImport_Cleanup:void:::Include/import.h:70:PyAPI_FUNC(void) PyImport_Cleanup(void);

（4）ngrep

ngrep工具是grep命令的网络版，ngrep用于抓包，并可以通过正则表达式，过滤、获取指定样式的数据包。能识别TCP、UDP和ICMP协议，理解bpf的过滤机制。

由于我在工作中很少使用，此处不再展开。

捕捉 80端口的request和response。-d eno1 指定监听的网卡，也可以用-d any来捕捉所有的包，-W byline 用来识别换行符。

$ ngrep -W byline -d eno1 port80interface: eno1 (10.239.85.0/255.255.255.0)filter: ( port80) and ((ip ip6) (vlan && (ip ip6)))###T10.239.200.168:50456->10.239.85.234:80[A]......#T10.239.200.168:50456->10.239.85.234:80[AP]GET /getWorkloadConfig HTTP/1.1.Host:10.239.85.34.Connection: keep-alive.Origin: http://10.239.85.34:9000.User-Agent: Mozilla/5.0(Windows NT10.0; Win64; x64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/63.0.3239.84Safari/537.36.Accept: */*.Referer: http://10.239.85.34:9000/.Accept-Encoding: gzip, deflate.Accept-Language: en,en-US;q=0.9,zh-CN;q=0.8,zh;q=0.7.If-None-Match: "9991f354c9ef564e382375bf48f3423bdc1b09cd"....省略...

（5）pgrep

pgrep 通过程序名字来查询正在运行进程的PID信息。

常用参数：

默认只显示PID-l 同时显示进程名和PID-o 当匹配多个进程时，显示进程号最小的那个-n 当匹配多个进程时，显示进程号最大的那个

示例：

通过 ps 查看发现有一个这样的进程：

root 12179 0.0 0.1 781812 16588 pts/10 S+ 2017 0:17 python work_server.py

然后通过 pgrep 查找结果如下：

$ pgrep GroupHttpService.py$ pgreppython-l1233python7607python9206python10787python12179python

可以发现 pgrep 查找的是程序名，不包括其参数。如果参数里包括查找的 keyword，而程序名中不包括，所则使用pgrep命令无法查到该进程。

解决办法是：

$ ps -axu grep keyword

而 pgrep 命令只是相当于。所以，这条命令知道有就可以了，并不常用。

发表于: 2018-01-112018-01-11 10:00:38
原文链接：http://kuaibao.qq.com/s/20180111G067HG00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Linux命令第10节 grep文本搜索工具

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Linux命令 第10节 grep文本搜索工具

相关快讯

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Linux命令第10节 grep文本搜索工具