IEEE 754标准转换过程如下:
1、将十进制数转为二进制数 用类似于科学计数法的形式表示成:
V=(-1)^s*(1+M)*2^(E-127)(单精度)
V=(-1)^s*(1+M)*2^(E-1023)(双精度)
2、然后将每部分算出的数值按顺序排列
例如:-0.0625=-1.0*2^(-4)
s=1,M=1-1=0,E=-4 +127=123=0111 1011
E(双精度)=-4 +1023=1019 =0111 1111 011
扩展资料
IEEE 754的标准和组成:
1、IEEE 754标准是一种浮点数表示标准,一般分为单、双精度两种;单精度是32位的二进制数,双精度是64位的二进制数。
2、一个浮点数的组成分为三个部分:第1位是数符s s=1表示负数 s=0表示正数;第2-9位为阶码E(双精度为2-12位);第10-32位为尾数M (双精度为13-64位)。
参考资料:百度百科-IEEE 754
直至20世纪70年代末, 实数(十进制数)被不同的计算机厂商表示成不同的二进制形式, 这使得许多程序与不同的机器不兼容. 1980年IEEE委员会将实数的浮点数据表示进行了标准化. 该标准大部分由Intel基于8087数学协处理器定制的. 认识到不同的程序需要不同的精度, 因此建立了单精度和双精度. 而今几乎所有的软件和硬件公司都遵循这些标准, 因此有必要做一些了解.
IEEE单精度浮点数使用32位数据表示 到 范围内的正负实数. 转换为十进制大约是 到 的正负实数. 这种单精度浮点数有时也叫短实数. 32位单精度形式的赋值如下图所示:
为了数学处理器的硬件设计更简单以及更少的晶体管消耗, 指数部分被加上一个常数 作为偏置指数. 从实数转换为浮点有以下步骤:
例1 : 将 转换成单精度(短实数)浮点.
== 二进制科学计数法 1.00111 E 3
正数b31 = 0
偏置指数b30-23为1000 0010(3+7F=82H)
有效数字位b22-0为 001110000000000000000…00.
综合给出二进制形式, 下面一行是16进制值
例2 : Convert decimal 15.575 to IEEE single-precision standard.
例3 : Convert decimal –0.00075 to IEEE single-precision standard.
验证程序(c):
双精度浮点数(Intel称之为长实数)可以表示 到 的正负实数. 52位有效数字, 11位指数, 第63位表示符号. 转换过程和单精度浮点一样, 首先表成1.xxx E yyy, 然后yyy加3FF得到偏置指数. 如下图所示:
例4 : Convert decimal 152.1875 to double-precision FP.
152.1875 = 二进制10011000.0011 = 科学二进制1.00110000011 E 7
b63 = 0
偏置指数b62-53 = 10000000110 (7+3FF=406)
有效数字位b52-0 = 00110000011000…..000
[1]. Muhammad Ali Mazidi etc. ARM Assembly Language Programming &Architecture [M]. section5.3
[2]. IEEE_754
[3]. Unit in the last place
数组的索引按照32位且无符号定点整数存储,也就是说数组索引最大值为 2 32 ,而数组以0开始,所以实际最大值为2 32 - 1
对于 & | ^ ~ 以后单独再说,主要说明 <<, >>, >>>
ECMA相关位运算说明
完整的位运算步骤
js能精确计算(运算结果)的数值范围是 [-2 53 , +2 53 ]
js能表示的纯整数数值范围是 [-1.8x10 308 , +1.8x10 308 ]
js能表示的纯小数数值范围是 [ -5x10 -324 , -1) ∪ (+1, 5x10 -324 ]
IEE754标准就和js中的正则表达式,unicode编码一样,他不是js特有的东西的,而是一种国际上通用规范,
目的其一,方便;
目的二,使程序可移植性强。
(在js中定义的数值,解释器会帮我们把值转化为IEEE754标准的64位浮点型,如果是位运算,解释器会把值定义为32位整型)
了解他之前,先看一个示例
那么,我们能不能创造出一种,利用有限的8位机器数,尽可能多的解决上述问题的方法呢?
假设,机器位为8,有如下的一段2进制编码:
符号位 :0表示正值, 1表示负值;
指数位 :就是我们理解的平方数,在这里由于是2进制,所以,指数位的010暂且表示为 2 010 = 2 2 ,且指数的表示范围为0 ~ 7之间。(一会说这样做的问题)
数值位 :就是我们要表示的真实的值的部分,但是,这里的1010并不是我们通常理解的10进制 的10,因为我们要在这解决上述定点数的问题,
那么,我们怎么设计才能让一条整数,小数共存的数据表示在一个硬件中呢?且简单易懂?
但是,以(0.)作为约定的数值位默认头是有问题的,比如:
真值 +0.001010 以我们自定义规则转换成的二进制为,
0000 0010 ,因为机器位数为8,超过的8位要舍去,10就被丢掉了,损失了精度且保留了多余的,没有意义的0 。
这就引出了我们要解决的问题4
看来,我们现在需要对规则进行一些修改,我们尝试以(1.)作为约定的数值位默认头,还是以真值 +0.001010为例 ,那么这个真值可以改写为
1.010 x 2 -3 == 1.010 x 2 -011
这回可 *** 蛋了,因为之前我们约定的指数部分的表示范围是0 ~ 7,这个-3可怎么办呢,聪明的你肯定想到了,何不把指数位置的第一位也规定为符号位呢?这不就可以表示正负数了吗,没错,是可以满足需求,但是,多一个符号位的判断会增加机器的运算复杂度负担,那么可以用补码啊?没错,但是,如果通过指数进行数值比较的时候(注意:在对两个值进行判断的时候,例如 3 >4,计算机浮点运算器会对 3 和 4 对应的64位浮点数指数位数值进行比较,如果不相等,直接返回true或false,如果想等,再进行数值位的比较),又要增加负担,有没有更好的办法呢?
可推理出
真值 +0.001010 == 1.010 x 2 -3 == 1.010 x 2 -011
得指数真实表示的值为 -011 + 偏移值 011 == 000
真值 +0.001010 的自定义2进制编码值为
0000 0100
经过以上的求证,得到新的8位机器数浮点数约定如下:
所以,图1-1使用我们新约定的浮点数规则解码,得到:
1.1010 x 2 010-011=-1 == 0.11010
+0.11010 == 0.9140625
先说间隙值
再说数值范围
我们再回过头来看看IEEE754,由于js使用的是IEEE754双精度浮点格式(64 位),所以我们就针对64位说明。其实,和我们上面自己胡编乱造的规则基本一样,
IEEE754双精度浮点格式
符号位1,指数位11,数值位52,偏移值 2 11-1 - 1 == 1023
现在,我们可以自己证明
因为数值位是52位,加上约定的隐藏头1. 那么就是 53位,超出的部分舍弃,所以就是精度损失
但严谨来说,应该是不包含小数
已经证明过
我们先把0.1 和 0.2 转化为2进制
很明显,0.1 和 0.2 都无法用2进制精准表示,呈现出的是无限循环。
我们看一个实例,来看看IEEE如何做舍入处理的
(例子是IEEE754单精度浮点格式(32 位),没找到64位的,自己懒得算了。。不过可以说明问题)
0.1被IEEE754双精度浮点数舍入处理后的值为
0.00011001100110011001100110011001100110011001100110011010
0.2被IEEE754双精度浮点数舍入处理后的值为
0.0011001100110011001100110011001100110011001100110011010
0.1 和 0.2 在转换后都被进位了,所以实际值,比真实值要大一点点,所以0.1+0.2比0.3略大,暂且这么来理解,因为浮点数的运算比定点数要麻烦,又由于10.1假期结束,至此一阶段笔记到此结束,之后的二阶段再补浮点数运算的笔记
参考资料
计算机组成原理
http://c.biancheng.net/view/314.html
https://www.zhihu.com/question/21711083
https://blog.csdn.net/weixin_40805079/article/details/85234878
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)