浮点数在内存中的表示方法

浮点数在内存中的表示方法,第1张

浮点数保存的字节格式如下:
地址
+0
+1
+2
+3
内容
SEEE
EEEE
EMMM
MMMM
MMMM
MMMM
MMMM
MMMM
这里
S
代表符号位,1是负,0是正
E
偏移127的幂,二进制阶码=(EEEEEEEE)-127。
M
24位的尾数保存在23位中,只存储23位,最高位固定为1。此方法用最较少的位数实现了
较高的有效位数,提高了精度。
零是一个特定值,幂是0
尾数也是0。
浮点数-125作为一个十六进制数0xC1480000保存在存储区中,这个值如下:
地址
+0
+1
+2
+3
内容0xC1
0x48
0x00
0x00
浮点数和十六进制等效保存值之间的转换相当简单。下面的例子说明上面的值-125如何转
换。
浮点保存值不是一个直接的格式,要转换为一个浮点数,位必须按上面的浮点数保存格式表
所列的那样分开,例如:
地址
+0
+1
+2
+3
格式
SEEE
EEEE
EMMM
MMMM
MMMM
MMMM
MMMM
MMMM
二进制
11000001
01001000
00000000
00000000
十六进制
C1
48
00
00
从这个例子可以得到下面的信息:
符号位是1
表示一个负数
幂是二进制10000010或十进制130,130减去127是3,就是实际的幂。
尾数是后面的二进制数10010000000000000000000
在尾数的左边有一个省略的小数点和1,这个1在浮点数的保存中经常省略,加上一个1和小数
点到尾数的开头,得到尾数值如下:
110010000000000000000000
接着,根据指数调整尾数一个负的指数向左移动小数点一个正的指数向右移动小数点因为
指数是3,尾数调整如下:
110010000000000000000000
结果是一个二进制浮点数,小数点左边的二进制数代表所处位置的2的幂,例如:1100表示
(12^3)+(12^2)+(02^1)+(02^0)=12。
小数点的右边也代表所处位置的2的幂,只是幂是负的。例如:100表示(12^(-1))+
(02^(-2))+(02^(-2))=05。
这些值的和是125。因为设置的符号位表示这数是负的,因此十六进制值0xC1480000表示-
125。

浮点数浮点数是属于有理数中某特定子集的数的数字表示,在计算机中用以近似表示任意某个实数。具体的说,这个实数由一个整数或定点数(即尾数)乘以某个基数(计算机中通常是2)的整数次幂得到,这种表示方法类似于基数为10的科学记数法。
浮点计算是指浮点数参与的运算,这种运算通常伴随着因为无法精确表示而进行的近似或舍入。
一个浮点数a由两个数m和e来表示:a = m × b^e。在任意一个这样的系统中,我们选择一个基数b(记数系统的基)和精度p(即使用多少位来存储)。m(即尾数)是形如±ddddddd的p位数(每一位是一个介于0到b-1之间的整数,包括0和b-1)。如果m的第一位是非0整数,m称作规格化的。有一些描述使用一个单独的符号位(s 代表+或者-)来表示正负,这样m必须是正的。e是指数。
由此可以看出,在计算机中表示一个浮点数,其结构如下:
尾数部分(定点小数) 阶码部分(定点整数)数符±尾数m阶符±阶码e
这种设计可以在某个固定长度的存储空间内表示定点数无法表示的更大范围的数。
例如,一个指数范围为±4的4位十进制浮点数可以用来表示43210,4321或00004321,但是没有足够的精度来表示432123和432123(必须近似为4321和43210)。当然,实际使用的位数通常远大于4。
此外,浮点数表示法通常还包括一些特别的数值:+∞和�6�1∞(正负无穷大)以及NaN('Not a Number')。无穷大用于数太大而无法表示的时候,NaN则指示非法 *** 作或者无法定义的结果。
众所周知,计算机中的所有数据都是以二进制表示的,浮点数也不例外。然而浮点数的二进制表示法却不像定点数那么简单了。
先澄清一个概念,浮点数并不一定等于小数,定点数也并不一定就是整数。所谓浮点数就是小数点在逻辑上是不固定的,而定点数只能表示小数点固定的数值,具用浮点数或定点数表示某哪一种数要看用户赋予了这个数的意义是什么。
C++中的浮点数有6种,分别是:
float:单精度,32位
unsigned float:单精度无符号,32位
double:双精度,64位
unsigned double:双精度无符号,64位
long double:高双精度,80位
unsigned long double:高双精度无符号,80位(嚯,应该是C++中最长的内置类型了吧!)
然而不同的编译器对它们的支持也略有不同,据我所知,很多编译器都没有按照IEEE规定的标准80位支持后两种浮点数的,大多数编译器将它们视为double,或许还有极个别的编译器将它们视为128位?!对于128位的long double我也仅是听说过,没有求证,哪位高人知道这一细节烦劳告知。
下面我仅以float(带符号,单精度,32位)类型的浮点数说明C++中的浮点数是如何在内存中表示的。先讲一下基础知识,纯小数的二进制表示。(纯小数就是没有整数部分的小数,讲给小学没好好学的人)
纯小数要想用二进制表示,必须先进行规格化,即化为 1xxxxx ( 2 ^ n ) 的形式(“^”代表乘方,2 ^ n表示2的n次方)。对于一个纯小数D,求n的公式如下:
n = 1 + log2(D); // 纯小数求得的n必为负数
再用 D / ( 2 ^ n ) 就可以得到规格化后的小数了。接下来就是十进制到二进制的转化问题,为了更好的理解,先来看一下10进制的纯小数是怎么表示的,假设有纯小数D,它小数点后的每一位数字按顺序形成一个数列:
{k1, k2, k3, , kn}
那么D又可以这样表示:
D = k1 / (10 ^ 1 ) + k2 / (10 ^ 2 ) + k3 / (10 ^ 3 ) + + kn / (10 ^ n )
推广到二进制中,纯小数的表示法即为:
D = b1 / (2 ^ 1 ) + b2 / (2 ^ 2 ) + b3 / (2 ^ 3 ) + + bn / (2 ^ n )
现在问题就是怎样求得b1, b2, b3,……,bn。算法描述起来比较复杂,还是用数字来说话吧。声明一下,1 / ( 2 ^ n )这个数比较特殊,我称之为位阶值。
例如0456,第1位,0456小于位阶值05故为0;第2位,0456大于位阶值025,该位为1,并将045减去025得0206进下一位;第3位,0206大于位阶值0125,该位为1,并将0206减去0125得0081进下一位;第4位,0081大于00625,为1,并将0081减去00625得00185进下一位;第5位00185小于003125……
最后把计算得到的足够多的1和0按位顺序组合起来,就得到了一个比较精确的用二进制表示的纯小数了,同时精度问题也就由此产生,许多数都是无法在有限的n内完全精确的表示出来的,我们只能利用更大的n值来更精确的表示这个数,这就是为什么在许多领域,程序员都更喜欢用double而不是float。
float的内存结构,我用一个带位域的结构体描述如下:
struct MYFLOAT
{
bool bSign : 1; // 符号,表示正负,1位
char cExponent : 8; // 指数,8位
unsigned long ulMantissa : 23; // 尾数,23位
};
符号就不用多说了,1表示负,0表示正
指数是以2为底的,范围是 -128 到 127,实际数据中的指数是原始指数加上127得到的,如果超过了127,则从-128开始计,其行为和X86架构的CPU处理加减法的溢出是一样的。
比如:127 + 2 = -127;-127 - 2 = 127
尾数都省去了第1位的1,所以在还原时要先在第一位加上1。它可能包含整数和纯小数两部分,也可能只包含其中一部分,视数字大小而定。对于带有整数部分的浮点数,其整数的表示法有两种,当整数大于十进制的16777215时使用的是科学计数法,如果小于或等于则直接采用一般的二进制表示法。科学计数法和小数的表示法是一样的。
小数部分则是直接使用科学计数法,但形式不是X ( 10 ^ n ),而是X ( 2 ^ n )。拆开来看。
0 00000000 0000000000000000000000
符号位 指数位 尾数位

​ 在计算机的数据存储里面,常规思路来看,是只能表示 有限位数 整数 的。但是,无论是在日常生活中,还是在科学研究领域,小数 (严格来讲应该是分数) 都是不可或缺的部分。那么,如何让计算机能够存储并使用小数呢?这篇文章就带大家一起来了解下两种常用的小数表示法: 定点法 浮点法

​ 其实,整数和小数的主要区别,我们可以 不规范地 理解为是否存在小数点,对吧?(其实整数也是有小数点的,我们这里暂且这么理解)那么要表示小数,只需要在整数表示的基础上,加一个小数点,不就可以了吗?没错,这就是定点数的思路。

定点数 使用 二进制 ,小数点的位置是 事先约定好的 ,在使用的过程中 不能改变 ,这也是定点数的名称的由来。有的同学可能会问了,那么,小数如何从十进制换成定点数呢?不着急,且看下面的例子:

其实很简单,和整数部分的 完全相反 。连续将小数部分的值 乘以2 ,对于每一次得到的数,若整数为0,则 顺序 记下一个0,若整数 突破了1 ,则记下1,然后整数部分 重置为0 ,小数部分 继续重复 上述 *** 作, 直到 小数部分为0为止。就像下面这样:

二进制转十进制:

​ 看懂了吧,从小数点开始 往右数 ,第一位小数的位权为-1,后面-2,-3以此类推。

​ 二进制小数点向左移动一位,相当于这个数的数值 除以 2;相反,向右移动一位就是 乘以 2。

​ 一般在现在计算机的应用中,定点数一般只有两种情况,第一种是小数点在 符号位之后 ,也就是表示 纯小数 ,第二种是在 最后 ,也就是表示 整数 。这种表示方法的范围并不大,如果需要表示类似于 这样的数值的话,那么用定点数的话就会占很大的空间。(毕竟你要很多很多个0才行,对吧)于是乎,我们的先人又开始秀智商了。

​ 上面的例子我们已经看到了定点数的局限性,于是,先人们就祭出了浮点数大法,来让我们更好地表示数(tuō)字(fà)。

​ 如果上面的例子还不能够说服你的话,我下面再举个栗子:

​ 如果此时你用定点数来表示的话,你会发现,这四组数字的表示方法 完全不同 。但是,我们的数学经验却又告诉我们,这几个数字其实是可以用一种 通式 来表示的,你应该已经想到了,就是 科学计数法 。如果使用科学计数法,那么这几组数字的通式可以表示为 。貌似比什么定点数方便多了。

​ 但是,我们知道,计算机是用来处理二进制的,那么,我们在二进制里面,可不可以打造一套 类似于科学计数法 的思路来表示小数呢——这就是浮点数的基本思路。浮点数的表示方法 有点类似 科学计数法,但是又比科学计数法要复杂。

​ 不多废话,我们来看看到底有什么猫腻。

​ 在IEEE 754中,规定了浮点数用以下形式来表示:

​ 有点懵?先不着急,首先这个公式的三个部分,分别是 符号位尾数阶码

浮点数常用的有两种:单精度浮点数和双精度浮点数。

​ 我们现在知道了浮点数的封装结构,那我们接下来来了解下它是如何表示小数的。

说了那么多,大家估计也有点晕了,我们不妨再来两个栗子看看到底该怎么使用上述的方法。

先看看浮点数转为我们能看得懂的小数。

某天,Harris碰到了一个浮点数

1 01111100 11100000000000000000000

首先我们看到 符号位 ,是1,说明这玩意儿是个 负数 ,再看看阶码,杂乱无章,想必就是 规格化的值 了。好的,套方法。先把尾数转化

,再白嫖个1,那么就是 。尾数部分搞定了,再看看指数。

偏移量 ,指数E于是就顺水推舟

再利用上述的公式

上述方法大家应该都能看懂,我们再来看看我们常用的十进制小数如何转化成浮点数表示。

来个简单点的,就3125吧。

首先,我们将这个小数用 定点数 的方法表示出来

完成转换之后,我们可以得到 ,于是E就等于了1,尾数部分把 白嫖的1 还回去

假设我们转换成 单精度浮点 ,则偏移量 ,

又由于这货是个 正数 ,符号位是0,于是,浮点数表示就出来啦:

0 10000000 10010000000000000000000

其实还是挺简单的,对吧?

​ 好啦,今天的博客就到此结束了。这期实在是有点丰富,所以,一次性理解不了没关系,多自己在纸上写写,也许就开窍了呢?

是已知的C/C++编译器都是按照IEEE(国际电子电器工程师协会)制定的IEEE浮点数表示法来进行运算的。这种结构是一种科学表示法,用符号(+或-)、指数和尾数来表示,底数被确定为2。所以在IEEE浮点数表示法里,一个浮点数为尾数乘以2的指数次方再加上符号。

扩展资料:


格式

(EfE1E2E3E4E5E6E7MfM1M2M3M4M5M6M7)

其中Ef到E7这部分叫做阶码,用移码表示,Ef是阶符,Mf到M7称作尾数,用补码表示,Mf为数符,小数点的位置在Mf后面对于浮点数的表示,字长是由硬件决定,如字长可以是32位,其中阶码8位,含一位阶符,则阶码的表示范围为-128到127,尾数为23位。

例如,原数为-11011101010001000如果用上述32位表示,-11011101010001000=-0110111010100010002^4,4=0000100,其移码=2^7+0000100=10000100

Mf为1,M1后为1101110101000100,不足23位后的空位置用0补够,则其浮点数表示为10000100,111011101010001000。

浮点数的二进制表示:

例如:-125 转为单精度二进制表示

125:

整数部分12,二进制为1100; 小数部分05, 二进制是1,先把他们连起来,从第一个1数起取24位(后面补0): 

1100 1 000 00000000 00000000 

这部分是有效数字。(把小数点前后两部分连起来再取掉头前的1,就是尾数) 

把小数点移到第一个1的后面,需要左移3位(11001 000 00000000 0000 0000 2^3 ), 加上偏移量127:127+3=130,二进制是10000010 ,这是阶码。 

-125是负数,所以符号位是1。把符号位,阶码和尾数连起来。注意,尾数的第一位总是1,所以规定不存这一位的1,只取后23位: 
1 10000010 10010000000000000000000

二进制是计算技术中广泛采用的一种数制。二进制数据是用0和1两个数码来表示的数。它的基数为2,进位规则是“逢二进一”,借位规则是“借一当二”。

二进制数(binaries)是逢2进位的进位制,0、1是基本算符;计算机运算基础采用二进制。电脑的基础是二进制。电子计算机出现以后,使用电子管来表示十种状态过于复杂,所以所有的电子计算机中只有两种基本的状态,开和关。也就是说,电子管的两种状态决定了以电子管为基础的电子计算机采用二进制来表示数字和数据。

浮点数是属于有理数中某特定子集的数的数字表示,在计算机中用以近似表示任意某个实数。具体的说,这个实数由一个整数或定点数(即尾数)乘以某个基数(计算机中通常是2)的整数次幂得到,这种表示方法类似于基数为10的科学计数法。

32位浮点数10是这样存储的
符号位1位 阶码8位 尾数23位
0 0+127 全0
将上面的的转为二进制即为机器内的存储形式

语言和C#语言中,对于浮点类型的数据采用单精度类型(float)和双精度类型(double)来存储,float数据占用32bit,double数据占用64bit,我们在声明一个变量float f= 225f的时候,是如何分配内存的呢?如果胡乱分配,那世界岂不是乱套了么,其实不论是float还是double在存储方式上都是遵从IEEE的规范的,float遵从的是IEEE R3224 ,而double 遵从的是R6453。

无论是单精度还是双精度在存储中都分为三个部分:

·符号位(Sign) : 0代表正,1代表为负

·指数位(Exponent):用于存储科学计数法中的指数数据,并且采用移位存储

·尾数部分(Mantissa):尾数部分

其中float的存储方式如下图所示:

而双精度的存储方式为:

R3224和R6453的存储方式都是用科学计数法来存储数据的,比如825用十进制的科学计数法表示就为:825 ,而1205可以表示为:1205 ,这些小学的知识就不用多说了吧。而我们傻蛋计算机根本不认识十进制的数据,他只认识0,1,所以在计算机存储中,首先要将上面的数更改为二进制的科学计数法表示,825用二进制表示可表示为100001,我靠,不会连这都不会转换吧那我估计要没辙了。1205用二进制表示为:11101101用二进制的科学计数法表示100001可以表示为10001 2^3 ,11101101可以表示为11101101 2^6 ,任何一个数都的科学计数法表示都为1xxx

,尾数部分就可以表示为xxxx,第一位都是1嘛,干嘛还要表示呀?可以将小数点前面的1省略,所以23bit的尾数部分,可以表示的精度却变成了24bit,道理就是在这里,那24bit能精确到小数点后几位呢,我们知道9的二进制表示为1001,所以4bit能精确十进制中的1位小数点,24bit就能使float能精确到小数点后6位,而对于指数部分,因为指数可正可负,8位的指数位能表示的指数范围就应该为:-127-128了,所以指数部分的存储采用移位存储,存储的数据为元数据+127,下面就看看825和1205在内存中真正的存储方式。

首先看下825,用二进制的科学计数法表示为:10001

2^3

按照上面的存储方式,符号位为:0,表示为正,指数位为:3+127=130 ,位数部分为,故825的存储方式如下图所示:

而单精度浮点数1205的存储方式如下图所示:

那么如果给出内存中一段数据,并且告诉你是单精度存储的话,你如何知道该数据的十进制数值呢?其实就是对上面的反推过程,比如给出如下内存数据:0100001011101101000000000000,首先我们现将该数据分段,0 10000 0101 110 1101 0000 0000 0000 0000,在内存中的存储就为下图所示:

根据我们的计算方式,可以计算出,这样一组数据表示为:111011012^6

=1205

而双精度浮点数的存储和单精度的存储大同小异,不同的是指数部分和尾数部分的位数。所以这里不再详细的介绍双精度的存储方式了,只将1205的最后存储方式图给出,大家可以仔细想想为何是这样子的

下面我就这个基础知识点来解决一个我们的一个疑惑,请看下面一段程序,注意观察输出结果

可能输出的结果让大家疑惑不解,单精度的22转换为双精度后,精确到小数点后13位后变为了22000000476837,而单精度的225转换为双精度后,变为了22500000000000,为何22在转换后的数值更改了而225却没有更改呢?很奇怪吧?其实通过上面关于两种存储结果的介绍,我们已经大概能找到答案。首先我们看看225的单精度存储方式,很简单 0 1000 0001 001 0000 0000 0000 0000 0000,而225的双精度表示为:0 100 0000 0001 0010 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000,这样225在进行强制转换的时候,数值是不会变的,而我们再看看22呢,22用科学计数法表示应该为:将十进制的小数转换为二进制的小数的方法为将小数 2,取整数部分,所以0282=04,所以二进制小数第一位为04的整数部分0,04×2=08,第二位为0,08 2=16,第三位为1,06×2 = 12,第四位为1,022=04,第五位为0,这样永远也不可能乘到=10,得到的二进制是一个无限循环的排列 00110011001100110011 ,对于单精度数据来说,尾数只能表示24bit的精度,所以22的float存储为:

但是这样存储方式,换算成十进制的值,却不会是22的,应为十进制在转换为二进制的时候可能会不准确,如22,而double类型的数据也存在同样的问题,所以在浮点数表示中会产生些许的误差,在单精度转换为双精度的时候,也会存在误差的问题,对于能够用二进制表示的十进制数据,如225,这个误差就会不存在,所以会出现上面比较奇怪的输出结果。

注:本文在写作过程中,参照了如下资料:

>目前C/C++编译器标准都遵照IEEE制定的浮点数表示法来进行float,double运算。这种结构是一种科学计数法,用符号、指数和尾数来表示,底数定为2——即把一个浮点数表示为尾数乘以2的指数次方再添上符号。下面是具体的规格:
符号位 阶码 尾数 长度
float 1 8 23 32
double 1 11 52 64 以下通过几个例子讲解浮点数如何转换为二进制数例一:已知:double类型384144。求:其对应的二进制表示。分析:double类型共计64位,折合8字节。由最高到最低位分别是第63、62、61、……、0位:
最高位63位是符号位,1表示该数为负,0表示该数为正;
62-52位,一共11位是指数位;
51-0位,一共52位是尾数位。
步骤:按照IEEE浮点数表示法,下面先把384144转换为十六进制数。
把整数部和小数部分开处理:整数部直接化十六进制:960E。小数的处理:
04=050+0251+01251+006250+……
实际上这永远算不完!这就是著名的浮点数精度问题。所以直到加上前面的整数部分算够53位就行了。隐藏位技术:最高位的1不写入内存(最终保留下来的还是52位)。
如果你够耐心,手工算到53位那么因该是:384144(10)=10010110000011100110011001100110011001100110011001100(2)科学记数法为:1001011000001110 0110011001100110011001100110011001100,右移了15位,所以指数为15。或者可以如下理解:1001011000001110 0110011001100110011001100110011001100×2^15
于是来看阶码,按IEEE标准一共11位,可以表示范围是-1024 ~ 1023。因为指数可以为负,为了便于计算,规定都先加上1023(2^10-1),在这里,阶码:15+1023=1038。二进制表示为:100 00001110;
符号位:因为384144为正对应 为0;
合在一起(注:尾数二进制最高位的1不要):
01000000 11100010 11000001 110 01100 11001100 11001100 11001100 11001100 例二:已知:整数3490593(16进制表示为0x354321)。求:其对应的浮点数34905930的二进制表示。 解法如下:先求出整数3490593的二进制表示: H: 3 5 4 3 2 1 (十六进制表示) B: 0011 0101 0100 0011 0010 0001 (二进制表示) │←──────21─────→│ 即: 11010101000011001000012×221可见,从左算起第一个1后有21位,我们将这21为作为浮点数的小数表示,单精度浮点数float由符号位1位,指数域位k=8位,小数域位(尾数)n=23位构成,因此对上面得到的21位小数位我们还需要补上2个0,得到浮点数的小数域表示为: 1 0101 0100 0011 0010 0001 00 float类型的偏置量Bias=2k-1-1=28-1-1=127,但还要补上刚才因为右移作为小数部分的21位,因此偏置量为127+21=148,就是IEEE浮点数表示标准: V = (-1)s×M×2E E = e-Bias中的e,此前计算Bias=127,刚好验证了E=148-127=21。 将148转为二进制表示为10010100,加上符号位0,最后得到二进制浮点数表示1001010010101010000110010000100,其16进制表示为: H: 4 A 5 5 0 C 8 4 B: 0100 1010 0101 0101 0000 1100 1000 0100 |←──── 21 ─────→ | 1|←─8 ─→||←───── 23 ─────→ | 这就是浮点数34905930(0x4A550C84)的二进制表示。 例三:05的二进制形式是01它用浮点数的形式写出来是如下格式 0 01111110 00000000000000000000000
符号位 阶码 小数位正数符号位为0,负数符号位为1阶码是以2为底的指数小数位表示小数点后面的数字
下面我们来分析一下05是如何写成0 01111110 00000000000000000000000
首先05是正数所以符号位为0再来看阶码部分,05的二进制数是01,而01是102^(-1),所以我们总结出来:要把二进制数变成(1f)2^(exponent)的形式,其中exponent是指数而由于阶码有正负之分所以阶码=127+exponent;即阶码=127+(-1)=126 即 01111110余下的小数位为二进制小数点后面的数字,即00000000000000000000000
由以上分析得05的浮点数存储形式为0 01111110 00000000000000000000000 注:如果只有小数部分,那么需要右移小数点 比如右移3位才能放到第一个1的后面, 阶码就是127-3=124例四 (2059375)10 =(1010010011 )2
首先分别将整数和分数部分转换成二进制数:
2059375=1010010011
然后移动小数点,使其在第1,2位之间
1010010011=1010010011×2^4 即e=4
于是得到:
S=0, E=4+127=131, M=010010011
最后得到32位浮点数的二进制存储格式为:
0100 1001 1010 0100 1100 0000 0000 0000=(41A4C000)16 例五:
-125转为单精度二进制表示
125:
1 整数部分12,二进制为1100; 小数部分05, 二进制是1,先把他们连起来,从第一个1数起取24位(后面补0):
110010000000000000000000
这部分是有效数字。(把小数点前后两部分连起来再取掉头前的1,就是尾数)
2 把小数点移到第一个1的后面,需要左移3位(1100100000000000000000002^3), 加上偏移量127:127+3=130,二进制是10000010,这是阶码。
3 -125是负数,所以符号位是1。把符号位,阶码和尾数连起来。注意,尾数的第一位总是1,所以规定不存这一位的1,只取后23位:
1 10000010 10010000000000000000000
把这32位按8位一节整理一下,得:
11000001 01001000 00000000 00000000
就是十六进制的 C1480000
例六:2025675
1 整数部分2,二进制为10; 小数部分0025675, 二进制是0000011010010010101001,先把他们连起来,从第一个1数起取24位(后面补0):
100000011010010010101001
这部分是有效数字。把小数点前后两部分连起来再取掉头前的1,就是尾数: 00000011010010010101001
2 把小数点移到第一个1的后面,左移了1位, 加上偏移量127:127+1=128,二进制是10000000,这是阶码。
3 2025675是正数,所以符号位是0。把符号位,阶码和尾数连起来:
0 10000000 00000011010010010101001
把这32位按8位一节整理一下,得:
01000000 00000001 10100100 10101001
就是十六进制的 4001A4A9
例七:
(逆向求十进制整数)一个浮点二进制数手工转换成十进制数的例子:
假设浮点二进制数是 1011 1101 0100 0000 0000 0000 0000 0000
按1,8,23位分成三段:
1 01111010 10000000000000000000000
最后一段是尾数。前面加上"1", 就是 110000000000000000000000
下面确定小数点位置。由E = e-Bias,阶码E是01111010,加上00000101才是01111111(127),
所以他减去127的偏移量得e=-5。(或者化成十进制得122,122-127=-5)。
因此尾数110(后面的0不写了)是小数点右移5位的结果。要复原它就要左移5位小数点,得00000110, 即十进制的0046875 。
最后是符号:1代表负数,所以最后的结果是 -0046875 。
注意:其他机器的浮点数表示方法可能与此不同 不能任意移植。 再看一例(类似例七):比如:53004d3e二进制表示为:01010011000000000100110100111110按照1个符号 8个指数 23个小数位划分0 10100110 00000000100110100111110正确的结果转出来应该是5510517227520该怎么算?好,我们根据IEEE的浮点数表示规则划分,得到这个浮点数的小数位是:
00000000100110100111110
那么它的二进制表示就应该是:
1000000001001101001111102 × 239
这是怎么来的呢? 别急,听我慢慢道来。
标准化公式中的M要求在规格化的情况下,取值范围1<M<(2-ε)正因为如此,我们才需要对原始的整数二进制表示做偏移,偏移多少呢?偏移2E。
这个“E”怎么算?上面的239怎么得来的呢?浮点数表示中的8位指数为就是告诉这个的。我们知道:
E = e-Bias
那么根据指数位:101001102=>16610
即e=166,由此算出E=e-Bias=166-127=39,就是说将整数二进制表示转为标准的浮点数二进制表示的时候需要将小数点左移39位,好,我们现在把它还原得到整数的二进制表示:1 00000000100110100111110 00000000000000001│←───── 23─────→│←─── 16───→│
23+16=39,后面接着就是小数点了。
拿出计算器,输入二进制数1000000001001101001111100000000000000000
转为十进制数,不正是:551051722752么!
通过这例六例七,介绍了将整数二进制表示转浮点数二进制表示的逆过程,还是希望大家不但能掌握转化的方法,更要理解转化的基本原理。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/12812964.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-28
下一篇 2023-05-28

发表评论

登录后才能评论

评论列表(0条)

保存