远林燕子广场舞:详细讲解IEEE浮点数

来源:百度文库 编辑:九乡新闻网 时间:2024/05/17 05:55:15

从存储结构和算法上来讲,double和float是一样的,不一样的地方仅仅是float是32位的,double是64位的,所以double能存储更高的精度。
    任何数据在内存中都是以二进制(0或1)顺序存储的,每一个1或0被称为1位,而在x86CPU上一个字节是8位。比如一个16位(2字节)的short int型变量的值是1000,那么它的二进制表达就是:00000011 11101000。由于Intel CPU的架构原因,它是按字节倒序存储的,那么就因该是这样:11101000 00000011,这就是定点数1000在内存中的结构。
    目前C/C++编译器标准都遵照IEEE制定的浮点数表示法来进行float,double运算。这种结构是一种科学计数法,用符号、指数和尾数来表示,底数定为2——即把一个浮点数表示为尾数乘以2的指数次方再添上符号。下面是具体的规格:
````````符号位 阶码 尾数 长度
float    1     8    23   32
double   1    11    52   64
临时数   1    15    64   80
由于通常C编译器默认浮点数是double型的,下面以double为例:
共计64位,折合8字节。由最高到最低位分别是第63、62、61、……、0位:
    最高位63位是符号位,1表示该数为负,0正;
    62-52位,一共11位是指数位;
    51-0位,一共52位是尾数位。
^P
    按照IEEE浮点数表示法,下面将把double型浮点数38414.4转换为十六进制代码。
    把整数部和小数部分开处理:整数部直接化十六进制:960E。小数的处理:
0.4=0.5*0+0.25*1+0.125*1+0.0625*0+……
    实际上这永远算不完!这就是著名的浮点数精度问题。所以直到加上前面的整数部分算够53位就行了(隐藏位技术:最高位的1不写入内存)。
    如果你够耐心,手工算到53位那么因该是:38414.4(10)=1001011000001110.0110101010101010101010101010101010101(2)
(注:实际上我也没算到那么位,这个也只是意思一下,所谓的55 55 55 55 CD C1 E2 40 对应却是38414.4166666666642……)科学记数法为:1.001……乘以2的15次方。指数为15!
    于是来看阶码,一共11位,可以表示范围是-1024 ~ 1023。因为指数可以为负,为了便于计算,规定都先加上1023,在这里,15+1023=1038。二进制表示为:100 00001110
    符号位:正—— 0 !
    合在一起(尾数二进制最高位的1不要):
01000000 11100010 11000001 11001101 01010101 01010101 01010101 01010101
    按字节倒序存储的十六进制数就是:
55 55 55 55 CD C1 E2 40 

    另外:float方法类似,不再叙述。下面一个小程序可用于显示任意float在内存中的二进制数。

/**********************************************************/

#include

int main()
{
float f;
unsigned int i;
char *p=(char*)&f;
scanf("%f",&f);
for(i=0;i<4;i++)
{
 unsigned int j=0x80,tmp=*(p+i);
 for(;j;j>>=1)
              if(j&tmp)printf("1");
              else printf("0");
 printf("\t");
}
return 0;
}