从0.2+0.4不等于0.6说浮点数

## 浮点数的表示

考研复习的时候，浮点数我一直心存疑惑。

> 下面文章小数特指十进制数字，浮点数特指计算机存储的格式。

现代计算机的一般的浮点数都是遵循IEEE754标准。

**首先我们将任何一个小数首先转换成下面的格式**：

± 1.M * 2^e （这个1是二进制的1）

（其中，M叫做尾数，e叫做阶数的真值，IEEE754标准中，为了计算机比较阶的大小（都是正数），将E = e+127，存储的是E，而并不是e）

转换过程很简单，我们先将**任何一个小数，转换成二进制**，通过移动小数点，总能达到上面的格式。

下面举两个例子说明这种转换：

```
1. 分数

//分子分母拆成2的幂之和。
49/256 = (2^5 + 2^4 + 2^0)/2^8 = 2^-3 + 2^-4 + 2^-8

即0.00110001 = 1.10001 * 2^-3;

2. 小数
20.59375

整数部分和小数部分分别转换成二进制即可：
10100.10011 = 1.010010011 * 2^4
```

但是**不是任何小数都可以转换成精确的二进制**：

* 无穷小数（或者无法化成有限位数小数的分数）如π、1/3
* 某些有限的小数，如0.2、0.3等等很多

也就是说，大部分的小数其实不能精确表示的。

但当时我有两个困惑：

* 说浮点数表示范围是(2^104 - 2^128) ~ (2^128 - 2^104)，范围这么大，怎么好多题目说一些**整数**（十进制的整数一定可以换成二进制的）都没办法精确表示呢
* java等一些语言中，输入0.3也没看见有问题呀，不是说0.3不能转换成精确二进制的吗，那么输入0.3，输出这个变量应该不是0.3才对呀

### 第一个问题

IEEE745 关于 float类型（32位），是这样定义的：

数符s（1位） + 阶码E（8位，使用移码，就是将文章开头的e+127 得到） + 尾数M（23位）

即：s 1.M * 2^E（式子中的1是二进制1，而且是隐含的，就是指我们实际上计算机中并不存这个1，但是我们将二进制浮点数还原成小数的时候，我们会加上这个1）

先说明两个概念的不同**数的表示范围**和**数的精度**。

* 数的表示范围。只是一个范围，并不保证范围内的每个数字都可以表示。浮点数可以表示的**最大整数，或者最小整数**，超过这个这个极限，都是**无法表示**的。
* 数的精度。是指数字的有效位数。**精度**听起来很陌生，有效位数大家一定会算，从左边第一个不为0的数字开始，到数字结束的长度就是有效位数。**很多小数都没办法精确表示，所以我们研究浮点数的精度，一般是在讨论整数**。如123456789 这个浮点数没办法精确表示。

这里的**无法表示**和上文的**无法精确表示**不是一个概念。

* 无法表示代表错误，超限。输出结果而输入差了数量级。
* 无法精确表示是表示不是很精确，但是差不多。

先说明浮点数精度的一个结论：

> **float尾数23位，所以能够表示的十进制数字（包括小数和整数）有效位数为7~8位**。

当时看课本的时候我又懵逼了，这是怎么的出来的？

我们回过头来看这个浮点数表示格式：1.M * 2^e

而且我们明确一点，任何小数转换成浮点数都需要先转换成二进制。尾数23位，一般9位的十进制大约是10^9，化成二进制大约是2^28，需要27位表示尾数，所以超过浮点数的精度了。

所以我们才有下面两个结论：

* 数的精度是由尾数长度决定的
* 数的范围是由阶码长度决定的

同理，double 类型尾数52位，化成十进制有效位数大概是17位。

> 考研有的题目都是给出超过有效位数的十进制，问你是否可以精确表示，所以记住结论即可。

通过IEEE754标准，我们还可以获得浮点数的一些结论：

1. E一共8位，即可以表0~255，但获取真正的指数值，需要减去127（不要问为什么不是128，计算机协会就是这么规定，我个人认为设置成128也没有什么问题），即表示范围为-127 ~ 128，但是额外规定了下面：
   1. E = 255(即e = 128) 配合 尾数全0，数符为1，为负无穷（即- 1.0000 * 2^128）；数符为0，表示正无穷（即 1.0000 * 2^128）。
   2. E = 0（e = -127）配合 尾数全0，表示0（即 ± 1.000 * 2^-127）（因为隐藏位的原因，所以必须要定义实数0）
2. 所以浮点数的指数真实表示范围为-126 ~ 127。即表示的最大正数为2^128 - 2^104(1.1111(23个1)…… * 2^127)。最小负数为2^104 - 2^128

### 第二个问题

为什么java下面这段代码是正确的呢？

```java
System.out.println(0.2+0.4); //0.6000000000000001
System.out.println(0.4);//0.4
```

第一行输出我们应该可以理解了，因为0.2 和 0.4 都不能精确表示，这样计算仍然会丢失精度。

第二行却能正确输出，原因是**只是这个浮点数不参加运算，高级语言内部会有一个修正，确保能够精确显示**，但不能精确运算。（java 可以使用bigdecimal 精确运算小数。）

最后指出**浮点数表示个数和浮点数表示范围也不是一个概念**。使用32位，但是实数0有两种表示方法，即浮点数表示格式为2^32 -1，但是表示范围却很大。因为小数是无限的，浮点数用二进制存储携带的信息量个数一定是有限的。

## 字节序

即分为两种，大端存储和小端存储。
我们假设内存一个地址的存储单元是8位，即存储两位16进制数字。

如：0x12345678

首先我们确定哪边是高位，哪边是低位。很明显个位是低位，十位、百位依次位置更高。

所以存储方式根据命名就可以知道。
**小端存储**就是把低位存到内存地址小的单元中。
**大端存储**就是把低位存到内存地址大的单元中。

### 字节对齐

首先要理解**字节对齐**是什么意思。就是我们值存到计算机中，并不是一个挨着一个的。不一定是存完了a 变量，我们把b变量放在相邻的位置。

而**字节对齐讨论对象是结构体，即结构体内部元素在内存中排列方式问题**。

掌握下面三条规则，即可掌握结构体元素的内存排列。

（int 4字节，float 4字节，double 8字节，char 1字节，long 8字节，short 2字节）

* 结构体成员是普通变量，存储的起始地址必须是该变量大小的整数倍
* 结构体成员是另一个结构体或者数组等之类的集合。该结构体/集合存储的起始地址是内部最大的变量大小的整数倍
* 最后，整个结构的内存单元大小必须是内部最大成员（包括普通变量或者是结构体成员）大小的整数倍，不足需要补齐。

## 参考文章

* http://xiaoxiaoqiang.win/2017/07/18/java/java%E4%B8%ADfloat%E5%92%8Cdouble%E7%B2%BE%E5%BA%A6%E9%97%AE%E9%A2%98/
* https://www.kancloud.cn/kancloud/codepuzzle/45902
* https://hit-alibaba.github.io/interview/basic/arch/Arch.html
* https://blog.csdn.net/hairetz/article/details/4084088
* https://stackoverflow.com/questions/58501421/how-to-improve-the-precision-of-computing-float-numbers

浮点数的表示

考研复习的时候，浮点数我一直心存疑惑。

下面文章小数特指十进制数字，浮点数特指计算机存储的格式。

现代计算机的一般的浮点数都是遵循IEEE754标准。

首先我们将任何一个小数首先转换成下面的格式：

± 1.M * 2^e （这个1是二进制的1）

（其中，M叫做尾数，e叫做阶数的真值，IEEE754标准中，为了计算机比较阶的大小（都是正数），将E = e+127，存储的是E，而并不是e）

转换过程很简单，我们先将任何一个小数，转换成二进制，通过移动小数点，总能达到上面的格式。

下面举两个例子说明这种转换：

1. 分数

//分子分母拆成2的幂之和。
49/256 = (2^5 + 2^4 + 2^0)/2^8 = 2^-3 + 2^-4 + 2^-8 

即0.00110001 = 1.10001 * 2^-3;

2. 小数
20.59375

整数部分和小数部分分别转换成二进制即可：
10100.10011 = 1.010010011 * 2^4

但是不是任何小数都可以转换成精确的二进制：

无穷小数（或者无法化成有限位数小数的分数）如π、1/3
某些有限的小数，如0.2、0.3等等很多

也就是说，大部分的小数其实不能精确表示的。

但当时我有两个困惑：

说浮点数表示范围是(2^104 - 2^128) ~ (2^128 - 2^104)，范围这么大，怎么好多题目说一些整数（十进制的整数一定可以换成二进制的）都没办法精确表示呢
java等一些语言中，输入0.3也没看见有问题呀，不是说0.3不能转换成精确二进制的吗，那么输入0.3，输出这个变量应该不是0.3才对呀

第一个问题

IEEE745 关于 float类型（32位），是这样定义的：

数符s（1位） + 阶码E（8位，使用移码，就是将文章开头的e+127 得到） + 尾数M（23位）

先说明两个概念的不同数的表示范围和数的精度。

数的表示范围。只是一个范围，并不保证范围内的每个数字都可以表示。浮点数可以表示的最大整数，或者最小整数，超过这个这个极限，都是无法表示的。
数的精度。是指数字的有效位数。精度听起来很陌生，有效位数大家一定会算，从左边第一个不为0的数字开始，到数字结束的长度就是有效位数。很多小数都没办法精确表示，所以我们研究浮点数的精度，一般是在讨论整数。如123456789 这个浮点数没办法精确表示。

这里的无法表示和上文的无法精确表示不是一个概念。

无法表示代表错误，超限。输出结果而输入差了数量级。
无法精确表示是表示不是很精确，但是差不多。

先说明浮点数精度的一个结论：

float尾数23位，所以能够表示的十进制数字（包括小数和整数）有效位数为7~8位。

当时看课本的时候我又懵逼了，这是怎么的出来的？

我们回过头来看这个浮点数表示格式：1.M * 2^e

所以我们才有下面两个结论：

数的精度是由尾数长度决定的
数的范围是由阶码长度决定的

同理，double 类型尾数52位，化成十进制有效位数大概是17位。

考研有的题目都是给出超过有效位数的十进制，问你是否可以精确表示，所以记住结论即可。

通过IEEE754标准，我们还可以获得浮点数的一些结论：

E一共8位，即可以表0~255，但获取真正的指数值，需要减去127（不要问为什么不是128，计算机协会就是这么规定，我个人认为设置成128也没有什么问题），即表示范围为-127 ~ 128，但是额外规定了下面：
1. E = 255(即e = 128) 配合尾数全0，数符为1，为负无穷（即- 1.0000 2^128）；数符为0，表示正无穷（即 1.0000 2^128）。
2. E = 0（e = -127）配合尾数全0，表示0（即 ± 1.000 * 2^-127）（因为隐藏位的原因，所以必须要定义实数0）
所以浮点数的指数真实表示范围为-126 ~ 127。即表示的最大正数为2^128 - 2^104(1.1111(23个1)…… * 2^127)。最小负数为2^104 - 2^128

第二个问题

为什么java下面这段代码是正确的呢？

System.out.println(0.2+0.4); //0.6000000000000001
System.out.println(0.4);//0.4

第一行输出我们应该可以理解了，因为0.2 和 0.4 都不能精确表示，这样计算仍然会丢失精度。

第二行却能正确输出，原因是只是这个浮点数不参加运算，高级语言内部会有一个修正，确保能够精确显示，但不能精确运算。（java 可以使用bigdecimal 精确运算小数。）

最后指出浮点数表示个数和浮点数表示范围也不是一个概念。使用32位，但是实数0有两种表示方法，即浮点数表示格式为2^32 -1，但是表示范围却很大。因为小数是无限的，浮点数用二进制存储携带的信息量个数一定是有限的。

字节序

即分为两种，大端存储和小端存储。
我们假设内存一个地址的存储单元是8位，即存储两位16进制数字。

如：0x12345678

首先我们确定哪边是高位，哪边是低位。很明显个位是低位，十位、百位依次位置更高。

所以存储方式根据命名就可以知道。
小端存储就是把低位存到内存地址小的单元中。
大端存储就是把低位存到内存地址大的单元中。

字节对齐

首先要理解字节对齐是什么意思。就是我们值存到计算机中，并不是一个挨着一个的。不一定是存完了a 变量，我们把b变量放在相邻的位置。

而字节对齐讨论对象是结构体，即结构体内部元素在内存中排列方式问题。

掌握下面三条规则，即可掌握结构体元素的内存排列。

（int 4字节，float 4字节，double 8字节，char 1字节，long 8字节，short 2字节）

结构体成员是普通变量，存储的起始地址必须是该变量大小的整数倍
结构体成员是另一个结构体或者数组等之类的集合。该结构体/集合存储的起始地址是内部最大的变量大小的整数倍
最后，整个结构的内存单元大小必须是内部最大成员（包括普通变量或者是结构体成员）大小的整数倍，不足需要补齐。

参考文章

最后修改：2021 年 11 月 02 日

喜欢我的文章吗？
别忘了点赞或赞赏，让我知道创作的路上有你陪伴。

4 条评论

Futu
2019 年 03 月 26 日

首先我们确定哪边是高位，哪边是低位。很明显个位是地位，十位、百位依次位置更高。
其中地位应该是文字错误？

回复
1. 友人C
  2019 年 03 月 26 日
  
  @Futu
  
  经常打错别字，真的要好好反省下了
  
  回复
  1. Futu
    2019 年 03 月 26 日
    
    @友人C
    
    没有想到博主在，真是幸运，很高兴收到回复，高中便开始关注博主，祝一切顺利
    
    回复
    
    友人C
    2019 年 03 月 26 日
    
    @Futu
    
    谢谢，同样祝一切顺利
    
    回复