IEEE 754标准如何转换？_软件运维

IEEE 754标准转换过程如下：

1、将十进制数转为二进制数用类似于科学计数法的形式表示成：

V=(-1)^s*（1+M）*2^(E-127)（单精度）

V=(-1)^s*（1+M）*2^(E-1023)（双精度）

2、然后将每部分算出的数值按顺序排列

例如：-0.0625=-1.0*2^(-4)

s=1，M=1-1=0,E=-4 +127=123=0111 1011

E（双精度）=-4 +1023=1019 =0111 1111 011

扩展资料

IEEE 754的标准和组成：

1、IEEE 754标准是一种浮点数表示标准，一般分为单、双精度两种；单精度是32位的二进制数，双精度是64位的二进制数。

2、一个浮点数的组成分为三个部分：第1位是数符s s=1表示负数 s=0表示正数；第2-9位为阶码E（双精度为2-12位）；第10-32位为尾数M （双精度为13-64位）。

参考资料:百度百科-IEEE 754

直至20世纪70年代末, 实数(十进制数)被不同的计算机厂商表示成不同的二进制形式, 这使得许多程序与不同的机器不兼容. 1980年IEEE委员会将实数的浮点数据表示进行了标准化. 该标准大部分由Intel基于8087数学协处理器定制的. 认识到不同的程序需要不同的精度, 因此建立了单精度和双精度. 而今几乎所有的软件和硬件公司都遵循这些标准, 因此有必要做一些了解.

IEEE单精度浮点数使用32位数据表示到范围内的正负实数. 转换为十进制大约是到的正负实数. 这种单精度浮点数有时也叫短实数. 32位单精度形式的赋值如下图所示:

为了数学处理器的硬件设计更简单以及更少的晶体管消耗, 指数部分被加上一个常数作为偏置指数. 从实数转换为浮点有以下步骤:

例1 : 将转换成单精度(短实数)浮点.

== 二进制科学计数法 1.00111 E 3

正数b31 = 0

偏置指数b30-23为1000 0010(3+7F=82H)

有效数字位b22-0为 001110000000000000000…00.

综合给出二进制形式, 下面一行是16进制值

例2 : Convert decimal 15.575 to IEEE single-precision standard.

例3 : Convert decimal –0.00075 to IEEE single-precision standard.

验证程序(c):

双精度浮点数(Intel称之为长实数)可以表示到的正负实数. 52位有效数字, 11位指数, 第63位表示符号. 转换过程和单精度浮点一样, 首先表成1.xxx E yyy, 然后yyy加3FF得到偏置指数. 如下图所示:

例4 : Convert decimal 152.1875 to double-precision FP.

152.1875 = 二进制10011000.0011 = 科学二进制1.00110000011 E 7

b63 = 0

偏置指数b62-53 = 10000000110 (7+3FF=406)

有效数字位b52-0 = 00110000011000…..000

[1]. Muhammad Ali Mazidi etc. ARM Assembly Language Programming &Architecture [M]. section5.3

[2]. IEEE_754

[3]. Unit in the last place

数组的索引按照32位且无符号定点整数存储，也就是说数组索引最大值为 2 32 ，而数组以0开始，所以实际最大值为2 32 - 1

对于 & | ^ ~ 以后单独再说,主要说明 <<, >>, >>>

ECMA相关位运算说明

完整的位运算步骤

js能精确计算（运算结果）的数值范围是 [-2 53 , +2 53 ]

js能表示的纯整数数值范围是 [-1.8x10 308 , +1.8x10 308 ]

js能表示的纯小数数值范围是 [ -5x10 -324 , -1) ∪ (+1, 5x10 -324 ]

IEE754标准就和js中的正则表达式，unicode编码一样，他不是js特有的东西的，而是一种国际上通用规范，

目的其一，方便；

目的二，使程序可移植性强。

（在js中定义的数值，解释器会帮我们把值转化为IEEE754标准的64位浮点型，如果是位运算，解释器会把值定义为32位整型）

了解他之前，先看一个示例

那么，我们能不能创造出一种，利用有限的8位机器数，尽可能多的解决上述问题的方法呢？

假设，机器位为8，有如下的一段2进制编码：

符号位 ：0表示正值， 1表示负值；

指数位 ：就是我们理解的平方数，在这里由于是2进制，所以，指数位的010暂且表示为 2 010 = 2 2 ，且指数的表示范围为0 ~ 7之间。（一会说这样做的问题）

数值位 ：就是我们要表示的真实的值的部分，但是，这里的1010并不是我们通常理解的10进制的10，因为我们要在这解决上述定点数的问题,

那么，我们怎么设计才能让一条整数，小数共存的数据表示在一个硬件中呢？且简单易懂？

但是，以（0.）作为约定的数值位默认头是有问题的，比如：

真值 +0.001010 以我们自定义规则转换成的二进制为,

0000 0010 ，因为机器位数为8，超过的8位要舍去，10就被丢掉了，损失了精度且保留了多余的，没有意义的0 。

这就引出了我们要解决的问题4

看来，我们现在需要对规则进行一些修改，我们尝试以（1.）作为约定的数值位默认头，还是以真值 +0.001010为例，那么这个真值可以改写为

1.010 x 2 -3 == 1.010 x 2 -011

这回可 *** 蛋了，因为之前我们约定的指数部分的表示范围是0 ~ 7，这个-3可怎么办呢，聪明的你肯定想到了，何不把指数位置的第一位也规定为符号位呢？这不就可以表示正负数了吗，没错，是可以满足需求，但是，多一个符号位的判断会增加机器的运算复杂度负担，那么可以用补码啊？没错，但是，如果通过指数进行数值比较的时候（注意：在对两个值进行判断的时候，例如 3 >4，计算机浮点运算器会对 3 和 4 对应的64位浮点数指数位数值进行比较，如果不相等，直接返回true或false，如果想等，再进行数值位的比较），又要增加负担，有没有更好的办法呢？

可推理出

真值 +0.001010 == 1.010 x 2 -3 == 1.010 x 2 -011

得指数真实表示的值为 -011 + 偏移值 011 == 000

真值 +0.001010 的自定义2进制编码值为

0000 0100

经过以上的求证，得到新的8位机器数浮点数约定如下：

所以，图1-1使用我们新约定的浮点数规则解码，得到：

1.1010 x 2 010-011=-1 == 0.11010

+0.11010 == 0.9140625

先说间隙值

再说数值范围

我们再回过头来看看IEEE754,由于js使用的是IEEE754双精度浮点格式（64 位），所以我们就针对64位说明。其实，和我们上面自己胡编乱造的规则基本一样，

IEEE754双精度浮点格式

符号位1，指数位11，数值位52，偏移值 2 11-1 - 1 == 1023

现在，我们可以自己证明

因为数值位是52位，加上约定的隐藏头1. 那么就是 53位，超出的部分舍弃，所以就是精度损失

但严谨来说，应该是不包含小数

已经证明过

我们先把0.1 和 0.2 转化为2进制

很明显，0.1 和 0.2 都无法用2进制精准表示，呈现出的是无限循环。

我们看一个实例，来看看IEEE如何做舍入处理的

（例子是IEEE754单精度浮点格式（32 位），没找到64位的，自己懒得算了。。不过可以说明问题）

0.1被IEEE754双精度浮点数舍入处理后的值为

0.00011001100110011001100110011001100110011001100110011010

0.2被IEEE754双精度浮点数舍入处理后的值为

0.0011001100110011001100110011001100110011001100110011010

0.1 和 0.2 在转换后都被进位了，所以实际值，比真实值要大一点点，所以0.1+0.2比0.3略大，暂且这么来理解，因为浮点数的运算比定点数要麻烦，又由于10.1假期结束，至此一阶段笔记到此结束，之后的二阶段再补浮点数运算的笔记

参考资料

计算机组成原理

http://c.biancheng.net/view/314.html

https://www.zhihu.com/question/21711083

https://blog.csdn.net/weixin_40805079/article/details/85234878

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/7820215.html

IEEE 754标准如何转换？

发表评论

评论列表（0条）