前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >强大的文本分析工具,awk入门【Programming】

强大的文本分析工具,awk入门【Programming】

作者头像
Potato
修改2019-11-11 11:07:30
8940
修改2019-11-11 11:07:30
举报
图片来源:WOCinTech Chat. Modified by Opensource.com. CC BY-SA 4.0
图片来源:WOCinTech Chat. Modified by Opensource.com. CC BY-SA 4.0

Awk是Unix和类似Unix系统下功能强大的文本分析工具,但是因为它具有可用于执行常见解析任务的编程函数,因此也被视为一种编程语言。 您可能不会使用awk开发下一个GUI应用程序,也不会改变您的默认脚本语言,但是在特定任务下它可以成为十分强大且实用的程序。这些任务可能是多种多样的。想要知道哪些问题可以使用awk的最好方法就是学习awk。之后您会惊讶地发现使用awk后将会令工作事半功倍。

Awk的基本语法是:

awk [ options ] 'pattern {action}' file

首先,创建此示例文件并将其另存为colours.txt

name       color  amount
apple      red    4
banana     yellow 6
strawberry red    3
grape      purple 10
apple      green  8
plum       purple 2
kiwi       brown  4
potato     brown  9
pineapple  yellow 5

这些数据被一个或多个空格分隔为列。在某种程度上,你正在分析的数据通常是有组织的。它可能并不总是以空格分隔的列,甚至也不总是以逗号或分号分隔的列,但是在日志文件或数据转储中,通常有一个可预测的模式。 您可以使用数据模式来帮助 awk 提取和处理需要关注的数据。

打印列

在awk中,print功能可以显示您指定的任何内容。您可以使用许多预定义的变量,但是最常见的一些是指定文本文件中的列的整数。例如:

$ awk '{print $2;}' colours.txt
color
red
yellow
red
purple
green
purple
brown
brown
yellow

在这个例子中,awk 显示第二列,表示为 $2。 这是相对直观的,因此您可以猜测出print $1显示第一列,print $3显示第三列,以此类推。如果你想要显示所有列,请使用 $0。需要注意的是,美元符号($)后面的数字是一个表达式,所以 $2和 $(1 + 1)的意思是一样的。

有条件地选择列

您正在使用的示例文件非常结构化。它有一行充当标题,而各列直接相互关联。通过定义条件需求,您可以在查看这些数据时限定希望awk返回的内容。例如,查看第2栏中与“yellow”匹配的项目,并打印第1栏的内容:

awk '$2=="yellow"{print $1}' file1.txt
banana
pineapple

同样也可以使用正则表达式。这个条件查看 $2,寻找与字母 p 后跟任意数量(一个或多个)字符的近似匹配,这些字符后跟字母 p:

$ awk '$2 ~ /p.+p/ {print $0}' colours.txt
grape purple 10
plum purple 2

数字通过awk自然地解释。例如,要打印任何第三列包含大于5的整数的行:

awk '$3>5 {print $1, $2}' colours.txt
name color
banana yellow
grape purple
apple green
potato brown

分隔符

默认情况下,awk使用空格作为字段分隔符。但是,并非所有文本文件都使用空格来定义字段。例如,使用以下内容创建一个名为colours.csv的文件:

name,color,amount
apple,red,4
banana,yellow,6
strawberry,red,3
grape,purple,10
apple,green,8
plum,purple,2
kiwi,brown,4
potato,brown,9
pineapple,yellow,5

Awk也可以使用完全相同的方式处理数据,只要您指定使用哪个字符作为字段分隔符。使用 -- field-separator (简称-f)选项来定义分隔符:

$ awk -F"," '$2=="yellow" {print $1}' file1.csv
banana
pineapple

保存输出

使用输出重定向,您可以将结果写入文件。 例如:

$ awk -F, '$3>5 {print $1, $2} colours.csv > output.txt

这将创建一个包含awk查询内容的文件。

您还可以将文件拆分为按列数据分组的多个文件。 例如,如果要根据每行显示的颜色将colours.txt拆分为多个文件,则可以通过在awk语句中包括重定向来使awk重定向每个查询 :

$ awk '{print > $2".txt"}' colours.txt

这将生成名为 yellow.txt、 red.txt 等文件。

在下一篇文章中,您将了解有关字段,记录和一些强大的awk变量的更多信息。

本文改编自社区技术播客Hacker Public Radio

本文系外文翻译,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系外文翻译前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 打印列
  • 有条件地选择列
  • 分隔符
  • 保存输出
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档