首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

统计文件中出现单词次数

is the is world grace the kevin art the kevin the is kevin 统计kevin.txt文件中出现单词次数 第一种方法:结合grep和awk编写shell...找到指定单词,自定义变量count自增,最后输出语句和count值 sort: 把各行按首字母排列顺序重新排列起来 sort -nr: 每行都以数字开头,按数字从达到小,排列各行 uniq -c: 统计各行出现次数...利用管道组成一条命令) 写一个shell脚本,查找kevin.txt文本中n个出现频率最高单词,输出结果需要显示单词出现次数,并按照次数从大到小排序。...分为以下几步: 1)将文本文件一行一个单词形式显示出来; 2)将单词大写字母转化成小写字母,即Word和word认为一个单词; 3)对单词进行排序; 4)对排序好单词列表统计每个单词出现次数...,字母a开头单词z开头单词后面。

3.7K111
您找到你想要的搜索结果了吗?
是的
没有找到

awk命令使用

Ubuntu14.04 目的:想用awk统计某个文本中单词出现次数,并以一定格式输出结构 通常,awk逐行处理文本。awk每接收文件一行,然后执行相应命令来处理。...搜索统计单词“law”个数 $ awk -F : '/law/{count++} END{print "the count is ",count}' /etc/legal the count is...1 统计单词“the”个数 $ awk -F : '/the/{count++} END{print "the count is ",count}' /etc/legal the count is...3 找到指定单词,自定义变量count自增,最后输出语句和count值 命令sort,把各行按首字母排列顺序重新排列起来 sort -nr,每行都以数字开头,按数字从达到小,排列各行 uniq -c,统计各行出现次数...| sort|uniq -c|sort -nr|awk -F' ' '{printf("%s %s\n",$2,$1)}' 统计/etc/legal中单词出现次数,并以“单词 次数”格式输出结果

51620

linux文本处理三剑客之awk

~不包含 正则 awk正则 ^表示....开头行 某一列开头 $3~/^oldoy/ $表示.....结尾行 某一列结尾$4~/lidao$/ ^$表示空行 某一列是空 很少用...#找出 第3列2开头行,并显示第1,3和最后一列 ​找出 第3列1或2开头行,并显示第1列,第3列和最后一列 ​还有这几种写法 ​3)表示范围 /哪里开始/,/哪里结束/ 常用...{print sum}' ​4.5 awk数组 统计日志:类似于 统计次数统计每个ip出现次数统计每种状态码出现次数统计系统中每个用户被攻击次数统计攻击者ip出现次数 累加求和:统计每个...[$2]++}END{for(i in array)print i,array[i]}' url.txt www 3(出现次数) mp3 1(出现次数) post 2(出现次数) #array[]...not enough",$1,$5,$NF}' 注意:awk使用多个条件时候 第1个条件可以放在 ‘条件{动作}’ 第2个条件 一般使用if 面试题:统计这段语句中,单词中字符小于6单词,显示出来

76500

三剑客命令

.* 代表任意多个字符 就是代表任意多个字符 lele{n} 用来匹配前面lele出现次数。...n为次数 就是统计前面lele出现次数 lele{n,} 含义同上,但次数最少为n 从功能就可以看出 lele{n,m} 义同上,但lele出现次数在n与m之间 从功能就可以看出 lele{n,m}...义同上,但lele出现次数在n与m之间 从功能也可以看出 三剑客功能非常强大,但我们只需要掌握他们分别擅长领域即可:grep擅长查找功能,sed擅长取行和替换。...-w 匹配整个单词 -E 使用ERE,相当于egrep -F 相当于fgrep,不支持正则表达式 找出123开头行grep "^123" 文件找出456结尾行grep "456 系统正则符号 基础正则符号...=== 统计/etc/services 文件#号开头awk '/^#/ {i=i++;print i}' /etc/services 或者 [root@creditease awk]# grep

3.4K10

正则表达式

正则表达 1.1 ^str 什么字符串开头 ? 1.2 str$ 什么字符串结尾 ? 过滤出来空白行,必须是空白行(多个空格都不行) ? 1.3 “.” 匹配单个字符 ?...1.4 “*”表示之前字符连续出现任意次数(包括0次) ? 正则表达式贪婪性,匹配到最后一个不能匹配字符 ? 1.5 \<word 查找word字符串开头单词,所在行 ?...1.6 word \>查找word字符串结束单词,所在行 ? 1.7 \查找包括word这个单词行 ? 1.8 \b既能表示词首,也能表示词尾,匹配单词边界 ?...1.9 \B 匹配“非单词边界”\B在前面就是不匹配这个字符开头行 ? 1.10 x{M} 重复字符x,M次 ? 1.11 x{M,} 重复字符x,最少M次 ?...aaffgg bbccee abcc 一般单纯过滤字符串时候我们配合-n和p使用,这样就能显示出我们想要行结果 1.16 匹配连续字符串出现次数 ?

81530

提升awk技能两个教程【译】

本文将阐述如何使用awk来处理更加结构化和更复杂任务,包含一个简单邮件合并应用程序。 awk程序结构 一个awk脚本由通过花括号{}作为边界函数块组成。...你也需要读取并丢弃proposals.csv第一行,否则会创建出一个Dear firstname开头文件。为了做到这点,需要使用特定函数getline并在读取之后,把记录计数器重置为0。...awk进阶: 词频统计 awk一个最强大特性是关联数组。大部分编程语言中,数组元素通常是用数字作为索引,但awk中,数组通过一个key字符串引用。...一个使用这个概念简单示例是词频计数器。你可以解析一个文件,提取出每行单词(忽略标点符号),为该行中每个单词计数器递增,然后输出在文本中出现次数在前20单词。...数组内容,利用awk管道能力输出到shell命令,执行数字排序,并打印前20个出现次数最高单词: END { sort_head = "sort -k2 -nr | head -n

4.7K10

awk 进阶使用案例

域 记录中每个单词称做“域”,默认情况下空格或tab分隔。awk可跟踪域个数,并在内建变量NF中保存该值。...B 匹配单词空字符串。 < 匹配一个单词开头空字符串,锚定开始。 > 匹配一个单词末尾空字符串,锚定末尾。 w 匹配一个字母数字组成单词。 W 匹配一个非字母数字组成单词。...如awk '$1 ~/^root/' test将显示test文件第一列中root开头行。 比较表达式(三元运算符) conditional expression1 ?...如:awk '{count[$1]++} END{for(name in count) print name,count[name]}' test。该语句将打印$1中字符串出现次数。...nginx日志中出现ip次数,取前10个ip awk '/^[0-9]/{ip[$1]++}END{for(i in ip){print i,ip[i]}}' www.i7dom.cn.log |sort

1.8K20

Linux awk统计日志中出现IP(或出现次数最多N个IP)

简单来说awk就是把文件逐行读入,空格为默认分隔符将每行切片,切开部分再进行各种分析处理。...可用awk统计固定格式日志里一些数据,如日志中出现过所有不同IP awk ‘{i=$1;count[i]++}END{for(i in count)print(i,count[i])}’ /var...less 统计url,一天访问次数 cat access_log | grep '12/Aug/2009' | grep '/images/index/e1.gif' | wc | awk '{print...-2020-09-06.log | grep 2020-09-06T23:27|grep /api/v1|wc -l //api/vi 开头接口多少行 发现系统存在问题 我们可以使用下面的命令行,统计服务器返回状态码...awk '{print $9}' access.log | sort | uniq -c | sort 正常情况下,状态码 200 或 30x 应该是出现次数最多。40x 一般表示客户端访问问题。

1.1K20

​LeetCode刷题实战192:统计词频

题意 写一个 bash 脚本以统计一个文本文件 words.txt 中每个单词出现频率。 为了简单起见,你可以假设: words.txt只包括小写字母和 ' ' 。 每个单词只由小写字母组成。...2 day 1 说明: 不要担心词频相同单词排序问题,每个单词出现频率都是唯一。...你可以使用一行 Unix pipes 实现吗? 解题 思路:cat+tr+sort+uniq+sort+awk cat命令:用于连接文件并打印到标准输出设备上。...sort命令:用于将文本文件内容加以排序,其中-r参数表示相反顺序排序,本题中即降序。 uniq命令:用于删除文件中重复行,其中-c选项表示在输出行前面加上每行在输入文件中出现次数。...awk命令:AWK是一种处理文本文件语言,是一个强大文本分析工具。下述脚本中awk命令用法表示每行按空格或TAB分割,输出文本中第2、1项。

68330

shell脚本实例

'使用sed 去除以空格开头行,第一个sort进行整理输出,uniq -c进行统计,sort -rn进行从大到小排列 # cat cat.ip | awk -F "|" '{print $1}' |...192.168.2.12       2 192.168.2.14       2 192.168.2.13       1 192.168.2.16       1 192.168.2.15  统计一个文本内每个单词出现次数...从未知串中抽取特定字符或者连续字符更具有挑战。这时其实使用sed就更有特色了。  使用sed显示基于字符域:       可以使用sed基于字符模式而不是基于域进行字符串分隔。.../ {getline;print $1;}'  打印daemon开头下一行(如果想打印后面几行可以getline;print $1) adm:x:3:4:adm:/var/adm:/sbin/nologin...简单循环脚本:目录下有m1-4.txt,写一个脚本创建m1-4目录,并将相应文件拷贝进去 #!

3.2K60
领券