硬盘存储衡量指标

这是我在2013年11月写在博客里面的笔记,翻出来挺有意思。

1 存储衡量指标:

容量:决定因子是硬盘个数,单盘容量

IOPS:决定因子磁盘个数,cache命中率,阵列算法

I/O响应时间:R=T/(1-U) R是响应时间 T是I/O控制器服务一个块所用时间,U是硬盘利用率。

吞吐量:决定因子是阵列架构,光纤通道大小,硬盘个数

2 IOPS计算方法

IOPS:IO系统每秒所执行IO操作的次数。

2.1 IOPS计算方法:

IO Time = Seek Time + 60 sec/Rotational Speed/2 + IO Chunk Size/Transfer Rate

于是我们可以这样计算出IOPS

IOPS = 1/IO Time = 1/(Seek Time + 60 sec/Rotational Speed/2 + IO Chunk Size/Transfer Rate)

Seek Time寻址时间:一般10krpm 为5ms

T ransfer Rate:40MB/s

2.2 顺序写对IOPS的影响:

上面计算公式都是实际情况中的随机读写,如果考虑一种相对极端的顺序读写操作,比如说在读取一个很大的存储连续分布在磁盘的的文件,因为文件的存储的分布是连续的,磁头在完成一个读IO操作之后,不需要从新的寻址,也不需要旋转延时,在这种情况下我们能到一个很大的IOPS值。

2.3 单盘的IOPS:

磁阵做RAID 10,15K SAS单盘IOPS为65

1)响应时间和IOPS:

R=T/(1-U) R是响应时间 T是I/O控制器服务一个块所用时间,U是硬盘利用率。

磁盘利用率越高,磁盘响应时间越慢,同样磁盘利用率越高,IOPS越高。

因此对于敏感应用,磁盘利用率不要超过70%。即单盘最大实际能提供的IOPS,为MAX(IOPS)*70%

15000rpm的硬盘,最大提供IOPS为180,实际能提供的其实只有180*70%=126

系统实际IOPS越接近理论的最大值,IO的响应时间会成非线性的增长,越是接近最大值,响应时间就变得越大,而且会比预期超出很多。磁盘利用率超过70%,响应时间会急剧上升。

8K IO Chunk Size (135 IOPS, 7.2 ms)   135 => 240.0 ms   105 => 29.5 ms   75 => 15.7 ms   45 => 10.6 ms   64K IO Chunk Size(116 IOPS, 8.6 ms)   135 => 没响应了……   105 => 88.6 ms   75 => 24.6 ms   45 => 14.6 ms

2)IOPS和传输速度(吞吐量)的关系:

IOPS和传输速度没有直接关系,不能使用IOPS*块大小=传输速度。在没有缓存的情况下它们共同的决定因素都是对磁盘系统的访问方式以及单个IO的大小。对磁盘进行随机访问时候我们可以利用IOPS来衡量一个磁盘系统的性能,此时的传输速度不会太大;但是当对磁盘进行连续访问时,此时的IOPS已经没有了参考的价值,这个时候限制实际传输速度却是磁盘的最大传输速度。因此在实际的应用当中,只会用IOPS来衡量小IO的随机读写的性能,而当要衡量大IO连续读写的性能的时候就要采用传输速度而不能是IOPS了。

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2016-05-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PHP技术

关系型数据库与NoSQL数据库场景说明

一个程序员很有必要熟悉或者精通一种数据库,MySQL无疑是首选。为什么使用MySQL呢,因为它是开源的,同时具备轻量、简单、稳定和高性能等特点,尤其是其学习成本...

2796
来自专栏积累沉淀

Hbase原理、基本概念、基本架构

Hbase原理、基本概念、基本架构 概述 ? HBase是一个构建在HDFS上的分布式列存储系统; HBase是基于Google BigTable模型开发...

44110
来自专栏Albert陈凯

详细探究Spark0.8的shuffle实现

Background 在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这...

2625
来自专栏架构师之路

细聊分布式ID生成方法

一、需求缘起 几乎所有的业务系统,都有生成一个记录标识的需求,例如: (1)消息标识:message-id (2)订单标识:order-id (3)帖子标识:t...

3355
来自专栏Albert陈凯

借助 Redis ,让 Spark 提速 45 倍!

一些内存数据结构比其他数据结构来得更高效;如果充分利用Redis,Spark运行起来速度更快。 Apache Spark已逐渐俨然成为下一代大数据处理工具的典...

3293
来自专栏Java Edge

Druid入门应用场景存储系统选择Druid介绍

设计一个系统来预估未来一年的广告流量,不是总流量,是任意时间段任何定向(Targeting)条件约束情况下的流量。定向条件有近百种(内容类别,设备平台,用户地域...

1404
来自专栏PHP技术

关系型数据库与NoSQL数据库场景说明

1 关系型数据库 关系型数据库把所有的数据都通过行和列的二元表现形式表示出来。它的优势: 保持数据的一致性(事务处理) 由于以标准化为前提,数据更新的开销很小(...

2063
来自专栏PingCAP的专栏

TiDB 2.0 GA Release

2018 年 4 月 27 日,TiDB 发布 2.0 GA 版。相比 1.0 版本,对 MySQL 兼容性、系统稳定性、优化器和执行器做了很多改进。

4595
来自专栏王小雷

Hive基础(1)

Hive基础(1) Hive的HQL(2) 1. Hive并不是分布式的,它独立于机器之外,类似于Hadoop的客户端。 2. 元数据和数据的区别,前者如表名、...

1977
来自专栏沃趣科技

容器化RDS|调度策略

导 语 前文数据库容器化|未来已来我们介绍了基于Kubernetes实现的下一代私有 RDS。其中,调度策略是具体实现时至关重要的一环,它关系到RDS 集群的服...

38410

扫码关注云+社区