shell—awk工具
本文最后更新于 209 天前,如有失效请评论区留言。

Auther | CuckooYang

awk

awk简介

awk 是一种编程语言,用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件,或其它命令的输出。可以在命令行中使用,但更多是作为脚本来使用。

awk的处理文本和数据的方式是这样的,它逐行扫描文件,从第一行到最后一行,寻找匹配的特定模式的行,并在这些行上进行操作。如果没有指定处理动作,则把匹配的行显示到标准输出(屏幕),如果没有指定模式,则所有被操作所指定的行都被处理。

awk分别代表其作者姓氏的第一个字母。因为它的作者是三个人,分别是Alfred Aho、Brian Kernighan、Peter Weinberger。

  • awk是行处理器:优势在于处理庞大文件时不会出现内存溢出或是处理缓慢的问题;

  • awk处理过程:依次对每一行进行处理,然后输出,默认分隔符是空格或者tab键。

awk语法

awk [options] 'commands' filenames

options:

-F 对于每次处理的内容,可以指定一个自定义的分隔符,默认的分隔符是空白字符(空格或 tab 键 )

awk工作原理

awk -F":" '{print $1,$3}' /etc/passwd

(1)awk使用一行作为输入,并将这一行赋给变量$0,每一行可称作为一个记录,以换行符结束 
(2)然后,行被空格分解成字段,每个字段存储在已编号的变量中,从$1开始 
(3)awk如何知道空格来分隔字段的呢?因为有一个内部变量FS来确定字段分隔符,初始时,FS赋为空格或者是tab 
(4)awk打印字段时,将以设置的方法,使用print函数打印,awk在打印的字段间加上空格,因为$1,$2间有一个,逗号。逗号比较特殊,映射为另一个变量,成为输出字段分隔符OFS,OFS默认为空格 
(5)awk打印字段时,将从文件中获取另一行,并将其存储在$0中,覆盖原来的内容,然后将新的字符串分隔成字段并进行处理。该过程持续到处理文件结束。

command:

语法:awk ‘BEGIN{} {} END{} ’ 文件名

BEGIN{}和END{}可选

BEGIN{}                   {}               END{}         filename

行处理前的动作          行内容处理的动作     行处理之后的动作    文件名

BEGIN{}和END{} 是可选项。
函数-BEGIN{}:读入文本之前要操作的命令。(也可以设置变量.取值可以不加$)
{}:主输入循环:用的最多。读入文件之后擦操作的命令。如果不读入文件都可以不用写。
END{}:文本全部读入完成之后执行的命令。

示例

[root@awk ~]# awk 'BEGIN{ print 1/2} {print "ok"} END{print "----"}' /etc/hosts
或者:
[root@awk ~]# cat /etc/hosts | awk 'BEGIN{print 1/2} {print "ok"} END{print "----"}'
0.5
ok     # 有两行ok内容,表明hosts文件中有两行记录
ok                
----

awk 'BEGIN{print ""} {print ""} END{print ""}'

记录与字段相关内部变量

1.记录和字段
awk 按记录处理:'一行是一条记录',因为awk默认以换行符分开的字符串是一条记录。(默认\n换行符:记录分隔符)
字段:以字段分割符分割的字符串(默认是单个或多个“ ” tab键来分割)

2.awk中的变量
$0:  # 表示整行;
$1:  # 第一个字段
$2:  # 第二个字段,依次类推...

NF:  # 统计字段的个数
$NF: # 是number finally,表示最后一列的信息

RS:  # 输入记录分隔符;
ORS: # 输出记录分隔符。

NR:  # 行号(记录号)
FNR: # 按不同的文件打印行号,不同文件单独分开计数

FS:  # 输入字段分隔符(默认为一个空格)--简写为“-F”,即后面跟什么就说明是以什么作为分隔符。  
OFS: # 输出的字段分隔符(默认为一个空格)--比如将分隔符 : 以 ..  输出。

FILENAME # 文件名  被处理的文件名称

实战

【FS】:输入字段分隔符---一般简写为-F'(属于行处理前)'
[root@awk ~]# cat /etc/passwd | awk 'BEGIN{FS=":"} {print $1,$2}'
root x
bin x
daemon x
adm x
lp x
sync x
shutdown x
halt x
mail x
[root@awk ~]# cat /etc/passwd | awk -F":" '{print $1,$2}'
root x
bin x
daemon x
adm x
lp x
sync x
shutdown x
halt x
mail x
#注:如果-F不加默认为空格区分!
【OFS】:(输出字段分隔符)
[root@awk ~]# cat /etc/passwd | awk 'BEGIN{FS=":";OFS=".."} {print $1,$2}'
root..x
bin..x
daemon..x
adm..x
lp..x
sync..x
shutdown..x
halt..x
mail..x

【NR】:表示记录编号, '在awk将行做为记录,' 该变量相当于当前行号,也就是记录号'(属于行处理时或行处理前)'
创建两个文件
[root@awk ~]# vim a.txt     # 文件1
love
love.
loove
looooove
[root@awk ~]# vim file1.txt  # 文件2
isuo
IPADDR=192.168.246.211
hjahj123
GATEWAY=192.168.246.1
NETMASK=255.255.255.0
DNS=114.114.114.114
[root@awk ~]# awk '{print NR,$0}' a.txt file1.txt   # NR测试
1 love
2 love.
3 loove
4 looooove
5  
6 isuo
7 IPADDR=192.168.246.211
8 hjahj123
9 GATEWAY=192.168.246.1
10 NETMASK=255.255.255.0
11 DNS=114.114.114.114
【FNR】:表示记录编号, 在awk将行做为记录, 该变量相当于当前行号,也就是记录号('会将不同文件分开')'(属于行处理时)'
[root@awk ~]# awk '{print FNR,$0}' a.txt file1.txt   # FNR测试
1 love
2 love.
3 loove
4 looooove
5  
1 isuo
2 IPADDR=192.168.246.211
3 hjahj123
4 GATEWAY=192.168.246.1
5 NETMASK=255.255.255.0
6 DNS=114.114.114.114

【RS】:输入记录分隔符,即后面跟什么,就表示以什么作为换行符(同时会删除该换行符)'(属于行处理前)'
创建一个文件
[root@awk ~]# vim passwd
root:x:0:0:root:/root:/bin/bashbin:x:1:1:bin:/bin:/sbin/nologin
[root@awk ~]# cat passwd | awk 'BEGIN{RS="bash"} {print $0}' 
root:x:0:0:root:/root:/bin/
bin:x:1:1:bin:/bin:/sbin/nologin
【ORS】:输出记录分隔符'(属于行处理前)'
对刚才的文件进行修改
[root@awk ~]# vim passwd
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
[root@awk ~]# cat passwd | awk 'BEGIN{ORS=" "} {print $0}'
root:x:0:0:root:/root:/bin/bash bin:x:1:1:bin:/bin:/sbin/nologin

【NF】:统计列的个数'(属于行处理前)'
[root@awk ~]# cat /etc/passwd | awk -F":" '{print NF}'
7  # 表明第1行以冒号(:)分割的列数为7
7
7
7
【$NF】:打印最后一列'(属于行处理前)'
[root@awk ~]# cat /etc/passwd | awk -F":" '{print $NF}'
/bin/bash
/sbin/nologin
/sbin/nologin
/sbin/nologin
/sbin/nologin
练习1:将文件合并为一行
[root@awk ~]# cat /etc/passwd | awk 'BEGIN{ORS="" } {print $0}'
练习2:把一行内容分成多行
1.首先创建一个文件
[root@awk ~]# vim d.txt
root:x:0:0:root:/root:/bin/bash
[root@awk ~]# cat d.txt | awk 'BEGIN{RS=":"} {print $0}'
root
x
0
0
root
/root
/bin/bash

关系运算符号

实现 字符串的完全相等需要使用 ==

字符串需要使用双引号
!= 表示不等于

[root@awk ~]# awk -F":" '$NF == "/bin/bash"' /etc/passwd  打印最后一列为/bin/bash的所有记录
[root@awk ~]# awk -F":" '$1 != "root"' /etc/passwd  打印第一列不是root的所有记录
  • 比较表达式:

比较表达式采用对文本进行比较,只有当条件为真,才执行指定的动作。
比较表达式使用关系运算符,用于比较数字与字符串。

关系运算符有
< 小于 例如 x<y
> 大于 x>y
<= 小于或等于 x<=y
== 等于 x==y
!= 不等于 x!=y
>= 大于等于 x>=y

示例

[root@awk ~]# awk -F":" '$3 == 0' /etc/passwd  # 像这种没有写花括号的,默认在是处理时
[root@awk ~]# awk -F":" '$3 < 10' /etc/passwd
  • 算术运算:+, -, *, /, %(模: 取余), ^(幂:2^3)

可以在模式中执行计算,awk都将按浮点数方式执行算术运算

awk -F: '$3 * 10 > 500' /etc/passwd
  • 逻辑操作符和复合模式

&& 逻辑与, 相当于 并且
||逻辑或,相当于 或者
! 逻辑非 , 取反

awk -F":" '$1~/root/ && $3<=15' /etc/passwd  # 匹配有root关键字的行且第3列值小于的所有行
awk -F":" '$1~/root/ || $3<=15' /etc/passwd  # 匹配有root关键字的行或第3列值等于的所有行

常见使用

1.打印一个文件中的第2列和第5列

# cat /etc/passwd | awk -F : '{print $2,$5}'

2.打印指定行指定列的某个字符

# free -m | awk 'NR==2 {print $2}'

3.统计一个文件的行数

# cat /etc/passwd | awk '{print NR}'

4.在awk中使用if条件判断

if语句:
{if(表达式){语句;语句;...}}
    ++i:从1开始加,赋值在运算
    i++: 从0开始加,运算在赋值

实战案例:
显示管理员用户姓名
[root@qfedu ~]# cat /etc/passwd | awk -F":" '{if($3==0) {print $1 " is administrator"}}'

统计系统用户数量
[root@qfedu ~]# cat /etc/passwd | awk -F":" '{if($3>=0 && $3<=1000){i++}} END{print i}'

5.在awk中使用for循环

for循环
for(表达式){语句}

每行打印两遍
[root@qfedu ~]# awk '{for(i=1;i<=2;i++) {print $0}}' /etc/passwd
root:x:0:0:root:/root:/bin/bash
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin

数组遍历--用来统计网站日志,tcp连接状态等。

++i:从1开始加,赋值在运算
i++: 从0开始加,运算在赋值
#按索引遍历:
1.先创建一个test文件
# vim test.txt  #将文件内容的第一个字段作为数组的值,通过索引获取到值
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
# cat test.txt | awk -F":" '{username[x++]=$1} END{for(i in username) {print i,username[i]}}'
0 root
1 bin
#注意:变量i是索引

真实案例

#把要统计的对象作为索引,最后对他们的值进行累加,累加出来的这个值就是你的统计数量

1. 统计/etc/passwd中各种类型shell的数量
# cat /etc/passwd | awk -F: '{shells[$NF]++} END{ for(i in shells){print i,shells[i]} }'

2.统计nginx日志出现的状态码
# cat access.log | awk '{stat[$9]++} END{for(i in stat){print i,stat[i]}}'

3.统计当前nginx日志中每个ip访问的数量
# cat access.log | awk '{ips[$1]++} END{for(i in ips){print i,ips[i]}}'

4.统计某一天的nginx日志中的不同ip的访问量
# cat access.log |grep '28/Sep/2019' | awk '{ips[$1]++} END{for(i in ips){print i,ips[i]}}' 

5.统计nginx日志中某一天访问最多的前10个ip
# cat access.log |grep '28/Sep/2019' | awk '{ips[$1]++} END{for(i in ips){print i,ips[i]}}' |sort -k2 -rn | head -n 2
sort:排序,默认升序
-k:指定列数
-r:降序
-n:以数值来排序

6.统计tcp连接的状态---下去自己查各个状态,包括什么原因造成的!
# netstat -n | awk '/^tcp/ {tcps[$NF]++} END {for(i in tcps) {print i, tcps[i]}}'
LAST_ACK 5 (正在等待处理的请求数)
SYN_RECV 30
ESTABLISHED 1597 (正常数据传输状态)
FIN_WAIT1 51
FIN_WAIT2 504
TIME_WAIT 1057 (处理完毕,等待超时结束的请求数)

经典案例

UV与PV统计
PV:即访问量,也就是访问您商铺的次数;
例如:今天显示有300 PV,则证明今天你的商铺被访问了300次。
================================================================
UV:即访问人数,也就是有多少人来过您的商铺;  #需要去重
例如:今天显示有50 UV,则证明今天有50个人来过你的商铺。
=================================================================
1.根据访问IP统计UV
# cat access.log | awk '{print $1}' |sort |uniq -c | wc -l
uniq:去重
-c:统计每行连续出现的次数
2.更具访问ip统计PV
# cat access.log | awk '{print $1}' |wc -l
或者是url
# cat access.log | awk '{print $7}' |wc -l
3.查询访问最频繁的URL
# cat access.log | awk '{print $7}'|sort | uniq -c |sort -n -k 1 -r | more
4.查询访问最频繁的IP
# cat access.log | awk '{print $1}'|sort | uniq -c |sort -n -k 1 -r | more

作业---切割nginx的日志,统计PV\UV,出现次数最多的url等各种切割统计
---END

版权声明:除特殊说明,博客文章均为cuckooyang原创,依据CC BY-SA 4.0许可证进行授权,转载请附上出处链接及本声明。 | 博客订阅:RSS | 广告招租:留言板 | 博客VPS |
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇