前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >EasyC++07,C++浮点数类型

EasyC++07,C++浮点数类型

作者头像
TechFlow-承志
发布2022-08-26 16:35:37
6190
发布2022-08-26 16:35:37
举报
文章被收录于专栏:TechFlow

作者 | 梁唐

大家好,我是梁唐。

今天是EasyC++专题第7篇,浮点数类型。

点击『阅读原文』跳转github仓库,欢迎star,欢迎pr~

浮点数

浮点数是C++的第二组基本类型,它能够表示带小数部分的数字。不仅如此,浮点数的范围也比int更大,可以表示更大范围的数字。

我们都知道在计算机当中,所有数据本质上都是转化成二进制存储的。整数很简单,存储的就是转化成二进制之后的01串,那么浮点数又是如何存储的呢?

很容易猜到的是浮点数存储的结果也是二进制,但相比于整型直接转化成二进制要复杂一些。它需要先表示成下面这行式子:

这里的n即我们要存储的浮点数,s表示符号位,m是尾数,而e则是阶数。

符号位很好理解,它和整型当中的符号位一样,0表示正数,1表示负数。m表示尾数, 1\le m < 2 。我们这么看很抽象,来看一个例子,比如3.0,转化成二进制是(11.0)_2 ,相当于1.1*2^1 。那么,s=1, m=1.1, e=1

我们了解了浮点数的表示方式,那么它又是如何存储在计算机当中的呢?这需要我们进一步地剖析其中的细节。

关于m

首先是m,m被定义成一个大于等于1,小于2的小数。我们可以简单写成1.xx,其中xx表示的就是小数的部分。

既然它总是大于等于1,小于2的,那么它的个位一定是1,我们就可以将它省略,仅仅看之后小数的部分。小数的部分,我们同样使用二进制来逼近。比如0.625,可以表示成0.5 + 0.125,即2^{-1} + 2^{-3} ,表示成二进制就是(101)_2 ,只不过这里它的最高位是从-1开始的。

以32位的浮点数为例,除去1位表示符号,8位表示阶数之后,还有23位留给m。由于我们舍掉了小数点之前的1,所以我们的阶数是从-1开始的,理论上等价于24个二进制位。

关于e

在浮点数存储当中,e是一个无符号整数。以32位浮点数为例,e一共有8位,可以表示0-255。

但e是可以为负数的,根据IEEE 754的规定,e的真实值必须再减去一个中间数。对于8位的e,它的中间数是127。比如e的实际值是10,但是存储的时候需要存储成127+10=137。

除此之外,e还有另外三种情况:

  1. e不全为0,或全为1时,采用上述的规则表示
  2. e全为0时,e等于1-127,有效数字m不再默认加上1,这样是为了还原0.xxx的小数,以及接近于0的数
  3. e全为1时,如果有效数字m全为0,表示无穷大,如果m不全为0,表示nan(not a number)

关于e的规则看起来有些复杂,初看觉得有些难以理解,为什么要用减去中间值的设计,而不用符号位?后来仔细思考了一下才发现,如果引入符号位很难区分0.xxx以及e就是等于0的情况,虽然也可以特判处理,但就没有现在这样优雅了。

觉得上文看不懂的小伙伴可以直接略过这段,毕竟这个是浮点数的实现原理,算是很底层的内容了,C++ primer上对于这部分也没有过多阐述。

浮点数的使用

C++当中有两种浮点数的书写方式,第一种是使用常规的小数点表示法:

代码语言:javascript
复制
double a = 1.23;
float b = 3.43;

另外一种写法是科学记数法,写成:

代码语言:javascript
复制
double a = 2.45e8;
double b = 1e-7;

2.45e8表示2.45 * 10^8 ,e之后可以跟正数也可以跟负数,但数字当中不能有空格。

浮点数类型

和C语言一样,C++也有三种浮点数类型:float,doublelong double。和整型一样,这三种类型都是浮点数,只不过表示的范围不同。

浮点数的范围有两个部分综合决定,一个部分是有效数字。比如14179是5位有效数字,而14000只有两位,因为后面三个0都是填充位,有效数字的位数不依赖小数点的位置。C++当中要求,float通常表示7位有效数字,double通常16位位,而long double至少和double一样。

另外,它们能够表达的指数范围至少是-37到37。一般来说,float一共是4个字节32位,而double是8个字节64位,当然这也取决于具体的运行环境。

注意事项

关于浮点数的使用有几点注意事项,千万要注意。

  1. cout输出浮点数会删除结尾的0
  2. 书写浮点数常量时默认为double类型,如果需要强制表示为float类型,请在结尾加上后缀f或者F,如:2.34f
  3. 由于浮点数有精度,不能直接判断两个浮点数是否相等,很有可能得不到预期结果,正确的做法是判断精度范围,如:
代码语言:javascript
复制
double epsilon = 1e-8;
// 判断a是否和b相等
if (abs(a - b) < epsilon) {
    // todo
}

判断两个浮点数a和b是否相等,等价于两者的差的绝对值小于某一个精度。

  1. 范围问题,如运行下列代码将得到错误的结果:
代码语言:javascript
复制
float a = 2.3e22f;
float b = a + 1.0f;

cout << b - a << endl;

输出的结果将是0,因为2.3e22是一个小数点左边有23位的数字,加上1之后,就是在第23位加上1。但是float类型只能表示数字中的前6位或者前7位,表示不了这么高的精度,因此这个+1的操作完全没有生效。

这个问题是一个大坑,一不小心就会中招,千万要小心。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-10-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Coder梁 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 浮点数
    • 关于m
      • 关于e
      • 浮点数的使用
      • 浮点数类型
      • 注意事项
      相关产品与服务
      对象存储
      对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档