首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何用 awk 删除文件重复【Programming】

了解如何在不排序或更改其顺序情况下使用awk'!visited $ 0 ++'。 [jb0vbus7u0.png] 假设您有一个文本文件,并且需要删除所有重复。...摘要 要删除重复,同时保留它们在文件顺序,请使用: awk '!...对于文件每一,如果出现次数为零,则将其增加一并打印该行,否则,它仅增加出现次数而无需打印该行。 我对awk并不熟悉,所以我想了解它是如何通过这么短脚本来实现这一点。...值:在awk,任何非零数字值或任何非空字符串值均为true 。默认情况下,变量被初始化为空字符串,如果转换为数字则为零。...abc ghi def xyz klm 参考资料 Gnu awk 用户指南 awk 数组 Awk真值 Awk 表达式 如何在Unix删除文件重复删除重复而不排序 awk '!

8.6K00

Linux基础之正则表达式

给定字符串是否符合正则表达式过滤逻辑(称作“匹配”): 2. 可以通过正则表达式,从字符串获取我们想要特定部分。...: 查看显示 /etc/fstab 文件以 # 注释开头: 这里也可以不加【】: -v 取反,即显示不以#注释,-o 选项为只显示匹配字符串: 显示 /etc/fstab 文件非注释...,锚定首为 # 注释,取反: 显示 /etc/fstab 文件以#号开头,后面跟一个空格,后面为任意长度任意字符, -c 选项可以统计匹配行数: 在 /tmp/fstab 文件中加入多个空白...,以#号开头,后面仅跟一个空格,且不以空白符结尾: 显示 /tmp/sshd_config 文件不以#注释、空白以及有空白字符: 显示 /etc/passwd 文件中用户名和用户SHELL.../etc 目录下以p开头不以数字结尾所有文件和目录: 显示 ip a 或者 ifconfig 命令IP地址,-E 选项为支持扩展正则表达式: -l 选项可以列出包含字符串文件列表: -w

1.1K20
您找到你想要的搜索结果了吗?
是的
没有找到

Linux 私房菜:文件目录管理及常见命令

路径(PATH) - 相对路径:`cd /var/tmp/`,由根目录`/`开头 - 绝对路径:不以`/`开头,与相对路径写法相对应 环境变量(ENVIRONMENT VARIABLE)。...`快捷方式形式复制(软连接) - `-l`硬连接 - `-u`目标不存在才复制,或存在`mtime`较旧 - `rm [-fir] 文件或目录` - remove,删除 - `-f`忽略警告...- `:f`显示文件名和当前末尾行行数 - `q`退出 - `less File`,类似于`more`功能更强大,同样用于翻阅查看文件 - `space空格键 或 page down`翻页...字符串`向上搜索 - `n`搜索匹配下一个 - `N`搜索匹配前一个 - `:f`显示文件名、当前显示范围、byte大小和百分占比等 - `g 或 home`跳到文件开头 - `G 或...- `s`只找来源文件 - `u`只找不在上面三种类型其它文件 - `locate [-iclSr] keyword`,根据指定数据库`/var/lib/mlocate/mlocate.db`搜索

57730

Linux私房菜:文件目录管理及常见命令

路径(PATH) 相对路径:cd /var/tmp/,由根目录/开头 绝对路径:不以/开头,与相对路径写法相对应 环境变量(ENVIRONMENT VARIABLE)。...一页页向下翻阅查看文件 space空格键翻页 b 或 ctrl + b往回翻页 enter确认键翻 /字符串向下搜索 :f显示文件名和当前末尾行行数 q退出 less File,类似于...more功能更强大,同样用于翻阅查看文件 space空格键 或 page down翻页 b 或 ctrl + b 或 page up往回翻页 enter确认键翻 /字符串向下搜索 ?...字符串向上搜索 n搜索匹配下一个 N搜索匹配前一个 :f显示文件名、当前显示范围、byte大小和百分占比等 g 或 home跳到文件开头 G 或 end跳到文件末尾 q退出 head...whereis -[lbmsu] 文件或目录,在指定目录搜索文件或目录 l列出指定目录 b只找binary文件 m只找在manual路径下文件 s只找来源文件 u只找不在上面三种类型其它文件

72410

Linux 命令行操作和文件管理

#以列表方式查看当前目录所有子目录和文件(包含隐藏文件) ls -al /usr       #以列表方式查看 /usr 目录所有子目录和文件 值得注意是:在Linux,路径开头“/”表示根目录...,以“/”开头路径称为绝对路径,是指文件文件夹相对于根目录“/”位置;不以“/”开头路径称为相对路径,是文件文件夹相对于当前目录为位置。...(3)cd 作用:切换当前目录 cd [目录] 描述目录路径时,可以使用以下特殊字符: 符号 说明 / 目录以“/”开头,成为绝对路径,不以“/”开头则是相对路径(相对当前位置) .....下面查找语句查询当前名录下包含“D”文件列表,其中grep是模式匹配指令。...ls -l | grep D 5 归档、压缩和解压缩 压缩和解压缩 (1)tar        tar具有归档、解包和解压缩等功能 用常用选项: 选项 说明 -c 指定特定目录压缩 -x 从备份文件还原文件

1.8K30

Python 正则表达式一文通

考虑以下场景: 文末有一个包含大量数据日志文件,从这个日志文件,希望只获取日期和时间。乍一看,日志文件可读性是很低。 在这种情况下,可以使用正则表达式来识别模式并轻松提取所需信息。...如上所示,在正则表达式查找单词就这么简单。 接下来我们将了解如何使用正则表达式生成迭代器。 生成迭代器 生成迭代器是找出并目标字符串开始和结束索引简单过程。...当我们执行上述程序时,输出如下: (11, 18) (38, 45) 接下来我们将检查如何使用正则表达式将单词与模式匹配。 将单词与模式匹配 考虑一个输入字符串,我们必须将某些单词与该字符串匹配。...代码 [shmp] 表示要查找单词首字母,因此,任何以字母 s、h、m 或 p 开头字符串都将被视为匹配,其中任何一个,并且最后必须跟在“at”后面。...我们不会给出从 h 到 m 开始所有内容输出,而是会向我们展示除此之外所有内容输出。 我们可以预期输出是不以 h 和 m 之间字母开头最后仍然紧随其后单词。

1.8K20

linux之grep使用技巧

显示不以#开头 > grep ^[^#] rumenz.txt 显示#开头 > grep ^# rumenz.txt 从单个文件查找指定字符串 > grep "rumenz" 1.txt 从多个文件查找指定字符串...,并只输出含有该文本文件名 > grep -l "rumenz" * -l: 查询多文件时候只输出包含匹配字符文件名 递归查找目录下所有文件,并只输出含有该文本文件路径 > grep -rl "...> grep -q "rumenz" 1.txt 除开某一个目录不匹配 > grep -R --exclude-dir="tmp" "rumenz" tmp 文件不用查找 去掉文本空行 > cat...-v "^#" 打印匹配后5 > grep -A 5 'rumenz' 1.txt 打印匹配前5 > grep -B 5 'rumenz' 1.txt 打印匹配前后5 > grep...> cat 1.txt | grep -e "ab" -e "ef" -o -e 指定字符串作为查找文件内容关键字符 -o 只输出文件匹配部分, 不会打印多余内容。

1.4K10

linux之grep使用技巧

显示不以#开头 > grep ^[^#] rumenz.txt 显示#开头 > grep ^# rumenz.txt 从单个文件查找指定字符串 > grep "rumenz" 1.txt 从多个文件查找指定字符串...,并只输出含有该文本文件名 > grep -l "rumenz" * -l: 查询多文件时候只输出包含匹配字符文件名 递归查找目录下所有文件,并只输出含有该文本文件路径 > grep -rl "...> grep -q "rumenz" 1.txt 除开某一个目录不匹配 > grep -R --exclude-dir="tmp" "rumenz" tmp 文件不用查找 去掉文本空行 > cat...-v "^#" 打印匹配后5 > grep -A 5 'rumenz' 1.txt 打印匹配前5 > grep -B 5 'rumenz' 1.txt 打印匹配前后5 > grep...> cat 1.txt | grep -e "ab" -e "ef" -o -e 指定字符串作为查找文件内容关键字符 -o 只输出文件匹配部分, 不会打印多余内容。

2.4K00

linux之grep使用技巧

grep基本命令 Linux之grep命令 显示不以#开头 > grep ^[^#] rumenz.txt 显示#开头 > grep ^# rumenz.txt 从单个文件查找指定字符串...> grep -c "rumenz" 1.txt 查找目录下所有文件,并只输出含有该文本文件名 > grep -l "rumenz" * -l: 查询多文件时候只输出包含匹配字符文件名 递归查找目录下所有文件...> grep -q "rumenz" 1.txt 除开某一个目录不匹配 > grep -R --exclude-dir="tmp" "rumenz" tmp 文件不用查找 去掉文本空行 >...| grep -v "^#" 打印匹配后5 > grep -A 5 'rumenz' 1.txt 打印匹配前5 > grep -B 5 'rumenz' 1.txt 打印匹配前后....txt 同时匹配多个字符串 > cat 1.txt | grep -e "ab" -e "ef" -o -e 指定字符串作为查找文件内容关键字符 -o 只输出文件匹配部分, 不会打印多余内容

80810

Linux中正则表达式和字符串查询、替换(trdiffwcfind)

正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则字符串。正则表达式可以用来检查一个串是否含有某种子串、将匹配子串替换或者从某个串取出符合某个条件子串等。...元字符就是指那些在正则表达式具有特殊意义专用字符 01 基本正则表达式 字符匹配 # T元字符 含义 1 ....向后引用前面被匹配第1个、第2个,第3个..... 1、过滤 /etc/passwd 以s或S开头 grep "^[sS]" /etc/passwd 2、过滤 /etc/passwd 不以小写字母开头...以空格开头 grep "^ " /etc/passwd 5、过滤 /etc/passwd 空行 grep "^$" /etc/passwd 6、过滤 /etc/passwd 以r开头,...r后面可以跟0个或任意多个o(也就是说这行第一个字符必须是r,这行还可以有0个或任意个o) grep "^ro*" /etc/passwd 7、过滤 /etc/passwd 以r开头,r后面必须跟

2.7K10

sed 命令+正则表达式

] 输入文件            第一具有sed命令解释器sed脚本文件     option如下:       n 不打印; sed不写编辑到标准输出,缺省为打印所有(编辑和未编辑),p命令可以用来打印编辑...除了我们以上所介绍元字符之外,正则表达式具有另外一种较为独特专用字符,即定位符。定位符用于规定匹配模式在目标对象出现位置。    ...其中,“^”定位符规定匹配模式必须出现在目标字符串开头,“$”定位符规定匹配模式必须出现在目标对象结尾,\b定位符规定匹配模式必须 出现在目标字符串开头或结尾两个边界之一,而“\B”定位符则规定匹配对象必须位于目标字符串开头和结尾两个边界之内...,即匹配对象既不能作为目标字 符串开头,也不能作为目标字符串结尾。.../\bbom/   因为上述正则表达式模式以“\b”定位符开头,所以可以与目标对象以 “bomb”, 或 “bom”开头字符串匹配

3.4K20

你真的了解如何将 Nginx 配置为Web服务器吗

如果找到匹配前缀字符串,仍继续搜索正则表达式,如果前缀字符串以 ^~ 开头,则不再检查正则表达式。 具体搜索匹配流程如下: 将 URI 与所有的前缀字符串进行比较。...= 修饰符表明 URI 必须与前缀字符串相等(不是开始,而是相等),如果找到,则搜索停止。 如果找到最长前缀匹配字符串以 ^~ 开头,则不再搜索正则表达式是否匹配。 存储匹配最长前缀字符串。...location 也定义了如何处理匹配请求:返回静态文件 或者 交给代理服务器处理。...让后将来自代理服务器响应转发给客户端。 在上面的示例,所有不以 /images / 开头 URI 请求都将传递给代理服务器处理。...: 匹配单个字符c [a-z]: 匹配a-z小写字母任意一个 全局变量 $args : #这个变量等于请求参数,同$query_string $content_length : 请求头中Content-length

2K80

你真的了解如何将 Nginx 配置为Web服务器吗

如果找到匹配前缀字符串,仍继续搜索正则表达式,如果前缀字符串以 ^~ 开头,则不再检查正则表达式。 具体搜索匹配流程如下: 将 URI 与所有的前缀字符串进行比较。...= 修饰符表明 URI 必须与前缀字符串相等(不是开始,而是相等),如果找到,则搜索停止。 如果找到最长前缀匹配字符串以 ^~ 开头,则不再搜索正则表达式是否匹配。 存储匹配最长前缀字符串。...静态文件和代理 location 也定义了如何处理匹配请求:返回静态文件 或者 交给代理服务器处理。...让后将来自代理服务器响应转发给客户端。 在上面的示例,所有不以 /images / 开头 URI 请求都将传递给代理服务器处理。...: 匹配单个字符c [a-z]: 匹配a-z小写字母任意一个 全局变量 $args : #这个变量等于请求参数,同$query_string $content_length : 请求头中Content-length

2.3K70

正则表达式

例如,'o{2}' 不能匹配 "Bob" 'o',但是能匹配 "food" 两个 o。...总结: n{X} 匹配包含 X 个 n 序列字符串。 n{X,Y} 匹配包含 X 或 Y 个 n 序列字符串。 n{X,} 匹配包含至少 X 个 n 序列字符串。...″:^[1-9][0-9]*$ 这表示任意一个不以0开头数字,但是,这也意味着一个字符”0″不通过,所以我们采用下面的形式:^(0|[1-9][0-9]*)$ 一个0或者一个不以0开头数字.我们还可以允许开头有一个负号...字符计1)) 空白正则表达式:\n\s*\r (可以用来删除空白) HTML标记正则表达式: (网上流传版本太糟糕,上面这个也仅仅能部分,对于复杂嵌套标记依旧无能为力) 首尾空白字符正则表达式:^\s*|\s*$或(^\s*)|(\s*$) (可以用来删除首行尾空白字符(包括空格

53410

js正则表达式校验金额-正则表达式排除指定字符串

阅读目录   ​​回到顶部​​   查找不以baidu开头字符串   baidu.com   sina.com.cn   正则:^(?!...要与特定锚点相结合,例如^开头或者$结尾,那么上面的例子意思如下:   ^(?!baidu).*$ 先匹配一个开头位置,并且要求接下来位置后面不是baidu这个字符串。...,而是在字符串中间这样就给匹配带来了麻烦,在正则表达式没有提供类似排除功能。...例如我要匹配首不是abc的话,那么此时^(?!abc) 这个时候(?!abc)实际上在匹配时候其传动装置位置被首进行了限定,所以对于那些以abc开头字符串来说就会匹配失败了。   ...对于上面的题目,我们答案是^(1|2f)+$ 其实就将所有的匹配分成了2种情况,一种情况是假设字符串没有f字符, 自然就不可能有if字符串了,这种情况下匹配字符串是不可能有if

2K50

Js中常用正则表达式

10,000":^[1-9][0-9]*$ 2.这表示任意一个不以0开头数字,但是,这也意味着一个字符"0"不通过,所以我们采用下面的形式:^(0|[1-9][0-9]*)$ 3.一个0或者一个不以0...字符计1)) 空白正则表达式:\n\s*\r (可以用来删除空白) HTML标记正则表达式: (网上流传版本太糟糕,上面这个也仅仅能部分,对于复杂嵌套标记依旧无能为力) 首尾空白字符正则表达式:^\s*|\s*$或(^\s*)|(\s*$) (可以用来删除首行尾空白字符...\.0+|0$  //匹配非正浮点数(负浮点数 + 0) 评注:处理大量数据时有用,具体应用时注意修正 匹配特定字符串: ^[A-Za-z]+$  //匹配由26个英文字母组成字符串 ^[A-Z]+$...  //匹配由26个英文字母大写组成字符串 ^[a-z]+$  //匹配由26个英文字母小写组成字符串 ^[A-Za-z0-9]+$  //匹配由数字和26个英文字母组成字符串 ^\w+$

3.5K00

Linux操作_grepegrep工具使用

三、过滤出不带有某个关键字,并输出行号 ? 四、过滤出所有包含数字 ? 说明:只要有一个数字就算匹配到了。 五、过滤出所有不包含数字 ? 说明:只要包含一个数字,就不显示。...六、过滤掉所有以#开头 ? 说明:这里面是包含有空行。 七、过滤掉所有空行和以#开头 ? 在正则表达式,^表示开始,$表示结尾,^$表示空行。 如何打印出不以英文字母开头?...上例,r.o表示把r与o之间有一个任意字符过滤出来。 ? *表示零个或多个*前面的字符。上例,ooo*表示oo、ooo、oooo...或者更多o。 ? 上例,....*表示零个或多个任意字符,空行也包含在内,它会把/etc/passwd文件里面的所有行都匹配到。 九、指定要过滤出字符出现字数 ? 说明:符号{ },其内部为数字,表示前面的字符要重复次数。...十一、过滤出零个或一个指定字符 ? 十二、过滤出字符串1或者字符串2 ? 十三、egrep( )使用 ? 说明:这里用( )表示一个整体,上例中会把包含rooo或者rato过滤出来。

70870

Shell 编程(五):文本三剑客之 sed

查询命令 含义 1d 删除第 1 行内容 1,10d 删除 1 到 10 内容 1,+5d 删除 1 到 6 内容 /pattern1/d 删除每行匹配到 pattern1 行内容 /...10,/pattern1/d 删除第 10 直到匹配到 pattern1 所有行内容 例子 删除配置文件 /etc/nginx 所有注释和空行 > sed -i '/[:blank:]*#.../d;/^$/d' nginx 在配置文件 /etc/nginx 中所有不以 # 开头行前面添加 * 符号,注意:以 # 开头不添加 > sed -i 's/^[^#]/\*&/g' nginx...删除 /etc/passwd 第 15 > sed -i '15d' passwd 删除 /etc/passwd 第 5 到以 ftp 开头所有内容 > sed -i '5,/^ftp...文件特定后面,匹配以 ftp 开头,到第 18 所有 > sed -i '/^ftp/,18r /etc/vconsole.conf' passwd > cat passwd 将 passwd

76510

Linux操作_grepegrep工具使用

三、过滤出不带有某个关键字,并输出行号 ? 四、过滤出所有包含数字 ? 说明:只要有一个数字就算匹配到了。 五、过滤出所有不包含数字 ? 说明:只要包含一个数字,就不显示。...六、过滤掉所有以#开头 ? 说明:这里面是包含有空行。 七、过滤掉所有空行和以#开头 ? 在正则表达式,^表示开始,$表示结尾,^$表示空行。 如何打印出不以英文字母开头?...上例,r.o表示把r与o之间有一个任意字符过滤出来。 ? *表示零个或多个*前面的字符。上例,ooo*表示oo、ooo、oooo...或者更多o。 ? 上例,....*表示零个或多个任意字符,空行也包含在内,它会把/etc/passwd文件里面的所有行都匹配到。 九、指定要过滤出字符出现字数 ? 说明:符号{ },其内部为数字,表示前面的字符要重复次数。...十一、过滤出零个或一个指定字符 ? 十二、过滤出字符串1或者字符串2 ? 十三、egrep( )使用 ? 说明:这里用( )表示一个整体,上例中会把包含rooo或者rato过滤出来。

1.2K50
领券