浮点数原理与精度损失问题

TOMOCAT

发布于 2020-10-29 11:14:43

2.7K0

发布于 2020-10-29 11:14:43

碰巧最近定义接口的时候碰到了浮点数精度的问题，稍微整理了浮点数的一些知识点：

指数部分决定了数的大小范围，有效数字部分决定了数的精度。

举两个简单的例子：

十进制	二进制	二进制科学计数法	S	E	M
3.0	11.0	1.1 x 2^1	0	1	1.1
-5.0	-101.0	-1.01 x 2^2	1	2	1.01

double类型和float类型（可能还有long double类型）在计算机的底层存储结构都是一致的，唯一的不同在于float是32位而double是64位的。

无论什么数据，在计算机内存中都是以01存储的，浮点数也不例外。

计算机中小数的表示按照小数点的位置是否固定可以分为浮点数和定点数。为了方便和float32浮点数做对比，我们构造一个32位精度的定点数，其中小数点固定在23bit处：

定点数的底层表示

从定点数的存储上看，它表示的数值范围有限（以小数点在23bit为例，整数部分仅有8位，则整数部分取值范围是0~255），但好在处理定点数计算的硬件比较简单。

以32位浮点数为例，最高一位是符号位s，接着的8位是指数位E，最后的23位是有效数字M。double64最高一位是符号位，有11个指数位和52个有效数字位。下图展示了float32类型的底层表示：

float的底层表示

其中IEEE 754的规定为：

，因此规定M在存储时舍弃第一个1，只存储小数点之后的数字，这样可以节省存储空间（以float32为例，可以保存23位小数信息）

指数E是一个无符号整数，因此它的取值范围为0到255，但是指数可以是负的，所以规定在存入E时在它原本的值加上127（使用时减去中间数127），这样E的取值范围为-127到128
- E不全为0，不全为1：正常的计算规则，E的真实值就是E的字面值减去127（中间值），M加回1
- E全为0：指数E等于1-127为真实值，M不加回1（此时M为0.xxxxxx），这样是为了表示0和一些很小的数
- E全为1：M全为0表示正负无穷大（取决于S符号位）；M不全为0时表示不是一个数（NaN）