iostat命令是Linux系统上查看I/O性能最基本的工具,其全称为 I/O statistics。iostat能统计磁盘活动情况,也能统计CPU使用情况。 iostat属于sysstat软件包,可以通过命令进行安装:
yum install sysstat
iostat数据的来源是Linux操作系统的/proc/diskstats:
# cat /proc/diskstats
8 0 sda 239219 1806 37281259 2513275 904326 88832 50268824 26816609 0 4753060 29329105
8 1 sda1 338 0 53241 6959 154 0 5496 3724 0 6337 10683
8 2 sda2 238695 1797 37226458 2504489 620322 88832 50263328 25266599 0 3297988 27770221
8 16 sdb 1009117 481 1011773 127319 0 0 0 0 0 126604 126604
8 17 sdb1 1008792 480 1010929 127078 0 0 0 0 0 126363 126363
253 0 dm-0 1005 0 8040 15137 30146 0 241168 2490230 0 30911 2505369
253 1 dm-1 192791 0 35500457 2376087 359162 0 44095600 22949466 0 2312433 25325563
253 2 dm-2 47132 0 1717329 183565 496207 0 5926560 7348763 0 2517753 7532688
注意,procfs中的前三个字段:主设备号、从设备号、设备名。
从第四个字段开始,介绍的是该设备的相关统计:
iostat有以下缺陷:
iostat[参数][时间][次数]
例如,iostat -d -x -k 1 3:每1s采集一次数据,显示3次,以kb为单位显示磁盘使用情况详细信息。
使用iostat后,结果面板如下:
avg-cpu: %user %nice %system %iowait %steal %idle
1.44 0.00 0.39 0.00 0.00 98.17
Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn
sda 0.37 0.47 30.30 3561197 229837730
dm-0 0.44 0.33 29.97 2518272 227313194
dm-1 0.12 0.13 0.33 1013276 2520308
dm-2 0.00 0.00 0.00 502 2068
iostat结果面板 avg-cpu 描述的是系统cpu使用情况:
iostat结果面板 Device 项描述的是系统磁盘使用情况:
命令:
iostat -d -x -k 1 1
输出结果:
Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util
sda 0.03 0.16 0.01 0.36 0.47 30.30 165.95 0.02 55.32 9.22 56.77 13.56 0.50
dm-0 0.00 0.00 0.01 0.44 0.33 29.97 136.71 0.02 54.07 12.12 54.68 11.28 0.50
dm-1 0.00 0.00 0.03 0.08 0.13 0.33 8.00 0.12 1015.22 5.91 1420.78 0.41 0.00
dm-2 0.00 0.00 0.00 0.00 0.00 0.00 48.96 0.00 1.27 0.37 9.80 1.27 0.00
结果说明:
IO请求的队列长度,反映了系统磁盘任务处理的繁忙程度,该值越大,表示排队等待处理的IO请求越多。 平均队列长度的计算: 我们考虑如下的场景,如果同一时间来了250个IO请求,后续再也没有新的请求到来。这种情况下,每个请求处理时间都是4ms,那么所有IO的平均等待时间为:
平均等待时间 = 单个请求处理时间*(1+2+3+4...+(请求总数-1))/请求总数
对于我们的例子来说,平均等待时间是 500ms,那么所有IO花费的总时间为250*500 = 125000ms,这个时间除以1000ms,得到 125,即平均队列长度。 这个值很明显是符合直观的。排在队列最前端的IO认为,队列的长度是0,第2个IO认为队列的长度是1,第3个IO认为队列的长度是2,最后一个认为队列的长度是249。
await是单个I/O所消耗的时间,包括硬盘设备处理I/O的时间和I/O请求在kernel队列中等待的时间:
await = IO 平均处理时间 + IO在队列的平均等待时间
正常情况下队列等待时间可以忽略不计:
await = ((所有读IO的时间)+(所有写IO的时间))/((读请求的个数) + (写请求的个数))
这个值,多大算正常呢? 对于SSD,从0.0x毫秒到1.x毫秒不等,具体看产品手册。 对于机械硬盘,大致来说一万转的机械硬盘是8.38毫秒,包括寻道时间、旋转延迟、传输时间。 关于await的一个误区是,人们常常武断地认为,await值比较高,就认为磁盘性能差,其实,await这个值不能反映硬盘设备的性能。 我们考虑两种IO的模型:
第一种情况await高达500ms,第二个情况await只有4ms,但是都是同一块盘。 在实践中,要根据应用场景来判断await是否正常,如果I/O模式很随机、I/O负载比较高,会导致磁头乱跑,寻道时间长,那么相应地await要估算得大一些;如果I/O模式是顺序读写,只有单一进程产生I/O负载,那么寻道时间和旋转延迟都可以忽略不计,主要考虑传输时间,相应地await就应该很小,甚至不到1毫秒。 对磁盘阵列来说,因为有硬件缓存,写操作不等落盘就算完成,所以写操作的service time大大加快了,如果磁盘阵列的写操作不在一两个毫秒以内就算慢的了;读操作则未必,不在缓存中的数据仍然需要读取物理硬盘,单个小数据块的读取速度跟单盘差不多。
%util表示该设备有I/O(即非空闲)的时间比率,不考虑I/O有多少,只考虑有没有。
很多初学者看到%util 等于100%就说硬盘能力到顶了,这种说法是错误的。
由于现代硬盘设备都有并行处理多个I/O请求的能力,所以%util即使达到100%也不意味着设备饱和了,举个简化的例子:
可见,即使%util高达100%,硬盘也仍然有可能还有余力处理更多的I/O请求,即没有达到饱和状态。那么iostat有没有哪个指标可以衡量硬盘设备的饱和程度呢?很遗憾,没有。