当前位置：文档库 › Java浮点数

Java浮点数

Java浮点数存储格式

JAVA中浮点数有两个基础类型:float和double。float占据4个字节,double 占

据8个字节。下面将以float类型为例，介绍浮点数的存储方式。double类型和

float类型的存储方式雷同。

1.浮点数的存储方式

浮点数的存储格式比较特殊，下图是4字节的float变量的存储示意图：

根据IEEE754浮点数表示标准，一个float变量在存储中由三部分组成，分别是：符号位：1位(31)，表示float的正负，0为正，1为负

幂指数：8位(23-30)，表示2进制权的幂次

有效位：23位(0-22)，表示有效数字

2.浮点数的取值范围

在float的存储中，有4个特殊的存储值，分别是：

0x7f800000:正无穷大，Float.intBitsToFloat()打印显示为infinity

0xff800000:负无穷大，打印显示为-infinity

0x00000000:正零，打印显示为0.0

0x80000000:负零，打印显示为-0.0

注意，在Java中,infinity!=-infinity,但是0.0==-0.0

以上4个特殊存储值将float的存储分为4个段

[0x00000001,0x7f7fffff]：正float数，共2^31-2^23-1个

[0x7f800001,0x7fffffff]：非数字，打印显示NaN，共2^23-1

[0x80000001,0xff7fffff]：负float数，共2^31-2^23-1个

[0xff800001,0xffffffff]：非数字，打印显示NaN，共2^23-1

3.浮点数的格式转换

令bits表示一个整数，其存储空间为4字节，下面我们求出这4个字节表示的float

类型数字为多少。

int s = ((bits>>31) == 0)?1:-1; //取出1bit符号位

int e = ((bits>>23) & 0xff); //取出8bit的幂指数

//取出23位有效位

int m = (e==0)?((bits & 0x7fffff) << 1):

((bits & 0x7fffff) | 0x800000);

则该存储空间表示的浮点数为 s*m*2^(e-150)

分析：

[0x00000001,0x007fffff]：相应实数范围为[(2^-149),(2^-126)-(2^-149)]，即

大约为[1.4E-45,1.2E-38]，离散间隔固定为(2^-149)即约为1.4E-45，

实数个数为2^23个。

[0x00800000,0x7f7fffff]：相应实数范围为[(2^-126),(2^128 - 2^104)]，即大约为

[1.2E-38,3.4E38]，以后每增加2^23个实数，离散间隔增大一倍。

所以，浮点数设计完成了整个A=[0x00000000,0x7f7fffff]离散空间到

B=[0.0,3.4E38]区间

部分值的一个映射，该映射具有以下属性：

<1>B中被映射实数的初始间隔为c=2^-149，并且每经过2^23个数间隔变为

c=2*c

<2>该映射是单调递增的

评价：

浮点数的存储设计，从本质上来说是设计了一个优秀的数值映射，充分利用了2进制存储

的特点。

Java的double类型探索

一.double类型的存储表示

Java的浮点类型表示完全按照IEEE754标准(Standards of IEEE 754 floating point numbers),有兴趣可以上IEEE标准网站(https://www.wendangku.net/doc/6b15020349.html,)查阅.该标准的内容基本上描述了浮点类型的存储格式(Storage Layout),下面我从中总结几段,来概括该标准,详细信息请查阅标准原文.

1.什么是浮点数.

计算机上表达实数有两中方法:定点表示(fixed-point)和浮点表示(floating-point).定点表示法就是在现有的数字中间的某个位置固定小数点,整数部分和小数部分的表示和一个普通整数的表示法没什么两样.例如,我们的数字长度为4,小数点位于中间,那么你可以表示10.28,也可以表示00.01,与这种方法性质类似的定点表示还有使用分数的形式.定点数的固定窗口形式使得他既不能够表示非常大的数又不能表示非常小的数.并且当除法发生时,大量的精度

丢失.

浮点数采用科学计数法的形式来表示实数.例如123.456可以表示成1.23456×102.相对于定点数的固定窗口(fixed Window)的限制,它采用的是浮动窗口(sliding window),因此可以表示较大精度范围的一个实数.

2.存储布局(Storage Layout)

所谓的存储布局就是一个浮点数在内存中如何表示.我们知道浮点数有float和double,前者是4个字节也就是32位,后者是8个字节也就是64位.布局分别为:

符号指数小数部分偏移附加(bias)

单精度1[31] 8[30-23] 23[22-00] 127

双精度1[63] 11[62-52] 52[51-00] 1023

中括号内为位的编号范围,外面为该部分所占有的位的数量.偏移附加不属于位表示的内容,是一个常量,稍后解释.

符号只有一位:0-表示正数1-表示负数

指数部分:用指数部分的值(8位/11位,unsigned)的值减去偏移附加得到该数实际的指数例如值为200,实际指数为73=200-127.对于双精度的double来说常量bias=1023

尾数:尾数是什么?对于一个科学计数法来讲,形式象这样的L.M×BE,那么这个L.M就是所谓的尾数(mantisa).它由一个起始位和一个小数部分组成.举个例子,5可以用科学计数法表示成不同形式:

5*100

0.5*101

50*10-1

那么我们引进一个概念,规范化形式(normalized form)和非规范化形式(denormalized form).我们定义规范化形式为小数点位于第一个不为0的数字后面的表达形式为规范化形式,因此上面的第一种形式为规范化形式,其他的为非规范化形式,Java中的浮点表示完全按照这个标准,只有两种形式规范化形式:1.f 和非规范化形式0.f .

那么,对于我们的位布局来说,选用底数为2的话,只有一个数字是非零的,那就是1.所以我们的隐含起始数字可以不用占用一个位,因为除了0就只能是1,具体的隐含规则,稍后展示. 3.表示的意义.

对应于上面的表格,每一个区域对应的值的范围所表示的浮点数的意义:

符号位s 指数位e 小数位f 所表示的意义v

0 00..00 00..00 +0

0 00..00 00..01

11..11 正的非规范实数,计算方法v=0.f × 2(-b+1)

0 00..01

11..10 XX..XX 正的规范化实数,计算方法v=1.f × 2(e-b)

0 11..11 00..00 正的无穷大

0 11..11 00..01

01..11 无意义的非数字SNAN

0 11..11 10..00

11..11 无意义的非数字QNAN

其中b=127(float)/b=1023(double),SNAN表示无效运算结果,QNAN表示不确定的运算结果,都是无意义的.

如果把符号位s改成1,那么就全部都是负数的含义,其他意义和这相同.

另外我们看到,对于无意义的数字是指数部分为全1时,也就是说这里有很多种组合都是无意义的非数字,而我们的Java中,判断一个数字是否是NAN的做法相当简单

static public boolean isNaN(double v) {

return (v != v);

}

从这里可以看出来,虚拟机对于double类型的数据比较时,肯定是先做了指数值的判定,发现不是全1时才作内存的逐位比较.当然这是我得推测,真像不知道是否如此.

再另外,我们'现在十分清楚,double类型所能表示的最小值就是它的值之间的距离,也就是我们所说的精度,数字按这种精度向整数"1阶梯式的累加时, 正好不能和1完全匹配,换句话说,1不是最小值(精度/距离)的整数倍.因此如果你设置变量double d = 0.1;而结果不会是0.1,因为无法表示0.1;

二.怎么查看double类型的存储结构?

我们很清楚Java的Double类型提供一个函数叫做doubleToLongBits函数,这个函数的其实很简单,我们知道,long类型和double类型都是64位的,他们的内存大小一样,这个函数的做法就是把double对应的内存结构复制到同样大小的long类型变量的内存结构中.返回这个long 值.因为Java不支持对double类型做位运算,因此:

1.该函数不可能用Java语言完成,所以他是JNI实现

2.我们利用对long类型的位运算可以把该内存结构打印出来查看.

/**

* 测试

public static void main(String[] args){

myTest t = new myTest();

double d = 0.1d;

long l = Double.doubleToLongBits(d);

System.out.println(t.getLongBits(l));

}

/**

* 得到常整数的bit位表示字符串

* @param a

* @return

public String getLongBits(long a){

//8个字节的字节数组,读出来

byte[] b = new byte[8];

for(int i=7;i>=0;i--){

b[i] = (byte)(a&0x000000FF);

a = a>>8;

}

return this.byte2hex(b); //调用下面一个函数

}

/**

* 字节数组转换成字符串

* @param b

* @return

public static String byte2hex(byte[] b){

StringBuffer sb=new StringBuffer();

String stmp="";

for(int n=0;n

stmp=(Integer.toHexString(b[n]&0XFF));

if(stmp.length()==1){

//不足两位的末尾补零

sb.append("0"+stmp);

} else{

sb.append(stmp);

}

if(n

//":"作为分割符

sb.append(":");

}

return sb.toString().toUpperCase();

}

0.1打印出来的内存结果是:

3F:B9:99:99:99:99:99:9A

我们恢复一下和第一节的表示意义对照表对照一下:

0 01111111011 1001 (1010)

有兴趣的话,可以那科学计算器按照第一节的规则计算一下它的值,哦,正好就是我们通过System.out.println(d)打印的结果.

好了.这就是全部,我不认为我把问题表达的很清楚,因为我的总觉得文字和我的想法还是有一点距离,大概这就是表达能力吧.如果你不至于糊涂,我将很高兴.

java学习之数值型别

(int,float,double等)

1. 代码

2.Java中数字类型的转换法则

test1中看似除数中的所有的因子都被约掉了，只剩下了1000。但实际的输出却是5，而不是我们期望的1000。究其原因，是因为MICROS_PER_DAY按int类型进行的计算，而计算的结果是86400000000，已经超出了int类型的最大值，即溢出了(因int为32位，

2^31-1=2147483647),24*60*60*1000*1000最后的结果是500654080（见程序中的print1的输出）。

在产生了错误的计算结果后，该结果被付给了long型的MICROS_PER_DAY，long型为64位，故保持了这个错误的结果，最终导致了最终结果的错误。

解决该问题的方法是，通过使用long常量来代替int常量作为每一个乘积的第一个因子，这样就可以强制表达式中所有的后续计算都使用long运算来完成，这样就不会丢失精度，即：

long MICROS_PER_DAY = 24L*60*60*1000*1000;

图中的六个实箭头表示了无信息损失的转换，而三个虚箭头表示的转换则可能丢失精度。

3.浮点类型float, double的数据不适合在不容许舍入误差的金融计算领域。

例如上面的test2，我们预期的得到的结果是0.1，但实际的输出却是0.8999999999999999。

这种误差产生的原因是因为浮点数实际上是用二进制系统表示的。而分数1/10在二进制系统中没有精确的表示，其道理就如同在十进制系统中无法精确表示1/3一样。看完下面的第4点就可以明白其中的原因了。

如果需要进行不产生舍入误差的精确数字计算，需要使用BigDecimal类。

4.既然说到了浮点型是使用二进制表示的，那么就再来复习以下这方面的内容。

1）简单介绍下IEEE754标准

Java中的float,double以及其对应的包装类Float和Double，都依据IEEE754标准。

一个实数V在IEEE 754标准中可以用V＝(－1)s×M×2E的形式表示，说明如下：

(1)符号s (sign)决定实数是正数(s＝0)还是负数(s＝1)，对数值0的符号位特殊处理。

(2)有效数字M是二进制小数，M的取值范围在1≤M＜2或0≤M＜1。

说明：尾数M用原码表示。

根据原码的规格化方法，最高数字位(整数部分)总是1，该标准将这个1缺省

存储，使得尾数表示范围比实际存储的一位。即M存储的只是小数部分。

(看到后面的例子就会明白啦)

(3)指数E是2的幂，它的作用是对浮点数加权。

说明：由于E是用移码表示，32位的float类型需要加上偏移量127，64位的double 类型要加上偏移量1023

下图即为float（32位）和double（64位）的存储格式：

2）十进制小数与二进制小数的相互转换

例1：二进制转十进制

例2：十进制数转换成二进制数，是把整数部分和小数部分分别转换，整数部分用2除，取余数，小数部分用2乘，取整数位。

如：把(13.125)10转换成二进制数

1）整数部分：13/2 商6 余1

6/2 商3 余0

3/2 商1 余1

1/2 商0 余1

故整数部分为1101

2）小数部分：

因此，

3) 下面再举几个规范化表示的例子(以float类型为例)：

a)十进制小数1.25

二进制表示为1.01

规范化二进制表示即*1.01*

符号位：0

指数部分：0+127=127

即01111111

尾数部分：01000000000000000000000

注：尾数部分只存储了小数部分的(0.01)，整数部分的1是默认存储的。这正好验证了4-1)-(2)要说明的问题。

最终结果为0 01111111 01000000000000000000000

b)十进制小数0.75

二进制表示为0.11

规范化表示即*1.1*

符号位：0

指数部分：-1+127=126

即01111110

尾数部分：10000000000000000000000

最终结果: 0 01111110 10000000000000000000000

c)十进制-2.5

二进制表示为-10.1

规范化后为*1.01*

符号位：1

指数部分：1+127=128

即10000000

尾数部分：01000000000000000000000

最终结果：1 10000000 01000000000000000000000

注：浮点数一般都存在舍入误差，很多数字无法精确表示(例如0.1)，其结果只能是接近，但不等于。一般情况下，分母不是的情况下，一般都无法精确表示（虽然这种表

述可能不太严谨）。

5.补充知识

IEEE754的四种舍入方向

向最接近的可表示的值；当有两个最接近的可表示的值时首选“偶数”值；向负无穷大（向下）；向正无穷大（向上）以及向0（截断）。

说明：舍入模式也是比较容易引起误解的地方之一。我们最熟悉的是四舍五入模式，但是，IEEE 754标准根本不支持，它的默认模式是最近舍入（Round to Nearest），它与四舍五入只有一点不同，对.5的舍入上，采用取偶数的方式。举例比较如下：

例2：

最近舍入模式：Round(0.5) = 0; Round(1.5) = 2; Round(2.5) = 2;

四舍五入模式：Round(0.5) = 1; Round(1.5) = 2; Round(2.5) = 3;

主要理由：由于字长有限，浮点数能够精确表示的数是有限的，因而也是离散的。在两个可以精确表示的相邻浮点数之间，必定存在无穷多实数是IEEE浮点数所无法精确表示的。如何用浮点数表示这些数，IEEE 754的方法是用距离该实数最近的浮点数来近似表示。但是，对于.5，它到0和1的距离是一样近，偏向谁都不合适，四舍五入模式取1，虽然银行在计算利息时，愿意多给0.5分钱，但是，它并不合理。例如：如果在求和计算中使用四舍五入，一直算下去，误差有可能越来越大。机会均等才公平，也就是向上和向下各占一半才合理，在大量计算中，从统计角度来看，高一位分别是偶数和奇数的概率正好是50% : 50%。至于为什么取偶数而不是奇数，大师Knuth有一个例子说明偶数更好，于是一锤定音。

原码、反码、补码、移码

对于正数，原码和反码，补码都是一样的，都是正数本身。对于负数，原码是符号位为1,数值部分取X绝对值的二进制。反码是符号位为1,其它位是原码取反。补码是符号位为1，其它位是原码取反，未位加1。也就是说，负数的补码是其反码未位加1。移码就是将符号位取反的补码。

在计算机中，实际上只有加法运算，减法运算也要转换为加法运算，乘法转换为加法运算，除法转换为减法运算。

在计算机中，对任意一个带有符号的二进制，都是按其补码的形式进行运算和存储的。之所以是以补码方式进行处理，而不按原码和反码方式进行处理，是因为在对带有符号位的原码和反码进行运算时，计算机处理起来有问题。(具体原因见理解原码,反码与补码) 而按补码方式，一方面使符号位能与有效值部分一起参加运算,从而简化运算规则. 另一方面使减法运算转换为加法运算,进一步简化计算机中运算器的线路设计

数的定点表示和浮点表示

计算机处理的数值数据多数带有小数，小数点在计算机常有两种表示方法，一种是约定所有数值数据的小数点隐含在某一个固定位置上，称为定点表示法，简称定点数；另一种是小数点位置可以浮动，称为浮点表示法，简称浮点数。 1. 定点数表示法(fixed-point) 所谓定点格式，即约定机器中所有数据的小数点位置是固定不变的。在计算机常采用两种简单的约定：将小数点的位置固定在数据的最高位之前，或者是固定在最低位之后。一般常称前者为定点小数，后者为定点整数。定点小数是纯小数，约定的小数点位置在符号位之后、有效数值部分最高位之前。若数据x的形式为x=x0.x1x2… xn(其中x0为符号位，x1～xn是数值的有效部分，也称为尾数，x1为最高有效位)，则在计算机中的表示形式为：一般说来，如果最末位xn= 1，前面各位都为0，则数的绝对值最小，即|x|min= 2-n。如果各位均为1，则数的绝对值最大，即|x|max=1-2-n。所以定点小数的表示围是：

2-n≤|x|≤1 -2-n 定点整数是纯整数，约定的小数点位置在有效数值部分最低位之后。若数据x的形式为x=x0x1x2…xn(其中x0为符号位，x1～xn是尾数，xn为最低有效位)，则在计算机中的表示形式为：定点整数的表示围是： 1≤|x|≤2n-1 当数据小于定点数能表示的最小值时，计算机将它们作0处理，称为下溢；大于定点数能表示的最大值时，计算机将无法表示，称为上溢，上溢和下溢统称为溢出。计算机采用定点数表示时，对于既有整数又有小数的原始数据，需要设定一个比例因子，数据按其缩小成定点小数或扩大成定点整数再参加运算，运算结果，根据比例因子，还原

单精度浮点数的转换和解析

1 单精度浮点数的转换和解析工业现场通信经常遇到浮点数解析的问题，如果需要自己模拟数据而又不懂浮点数解析的话会很麻烦！很久以前根据modbus 报文格式分析得到的，供大家参考。浮点数保存的字节格式如下：地址 +0 +1 +2 +3 内容 SEEE EEEE EMMM MMMM MMMM MMMM MMMM MMMM 这里 S 代表符号位，1是负，0是正 E 偏移127的幂，二进制阶码=(EEEEEEEE)-127。 M 24位的尾数保存在23位中，只存储23位，最高位固定为1。此方法用最较少的位数实现了较高的有效位数，提高了精度。零是一个特定值，幂是0 尾数也是0。浮点数-12.5作为一个十六进制数0xC1480000保存在存储区中，这个值如下：地址 +0 +1 +2 +3 内容0xC1 0x48 0x00 0x00 浮点数和十六进制等效保存值之间的转换相当简单。下面的例子说明上面的值-12.5如何转换。浮点保存值不是一个直接的格式，要转换为一个浮点数，位必须按上面的浮点数保存格式表所列的那样分开，例如：地址 +0 +1 +2 +3 格式 SEEE EEEE EMMM MMMM MMMM MMMM MMMM MMMM 二进制 11000001 01001000 00000000 00000000 十六进制 C1 48 00 00 从这个例子可以得到下面的信息：符号位是1 表示一个负数幂是二进制10000010或十进制130，130减去127是3，就是实际的幂。尾数是后面的二进制数10010000000000000000000

浮点数加法运算

浮点加减运算对任意一个二进制数N，总可以表示成：N=2E×M ，式中，E为数N的阶码，M称为数N的尾数，一般为绝对值小于1的规格化数（补码是允许为-1）。两浮点数X，Y进行加减运算时，必须按以下几步执行： ①对阶，使两数的小数点位置对齐，小的阶码向大的阶码看齐。 ②尾数求和，将对阶后的两尾数按定点加减运算规则求和(差)。 ③规格化，为增加有效数字的位数，提高运算精度，必须将求和(差)后的尾数规格化。 ④舍入，为提高精度，要考虑尾数右移时丢失的数值位。 ⑤判断结果，即判断结果是否溢出。规格化又分左规和右规两种（1) 左规。当尾数出现00.0××…×或11.1××…×时，需左规。左规时尾数左移一位，阶码减1，直到符合补码规格化表示式为止（2) 右规。当尾数出现01.××…×或10.××…×时，表示尾数溢出，这在定点加减运算中是不允许的，但在浮点运算中这不算溢出，可通过右规处理。右规时尾数右移一位，阶码加1. 例，两浮点数x＝2+010 ×0.110100，y=2+100 ×（-0.101010），求x+y。解：阶码取3位，尾数取6位（均不包括符号位），机器表示的形式分别为[x]补= 0010 0110100 [y]补= 0100 1010110 ①对阶：先求阶差（两阶码的补码相减） 00 010 + 11 100 （减00 100 就是加—00100的补码，即11 100） 11 110 其真值为-2，即x的阶码比y的阶码小2 [x] 补的阶码增大成0100，尾数右移两位，即[x] 补 = 0100 0001101 ②尾数相加 00.001101 + 11.010110 11.100011 相加结果为0100 1 100011 ③规格化：最高有效位与符号位相同，需要左规，所以结果应为： [x+y] 补 = 0011 1 000110 x+y = 2+011 ×（-0.111010） 4．舍入在对阶和右规的过程中，可能会将尾数的低位丢失，引起误差，影响了精度，为此可用舍入法来提高尾数的精度。常用的舍入方法有三种。（1）截去法。将多余的位截去，剩下的位不变。其最大误差接近于数据最低位上的1。

浮点数的表示和基本运算

浮点数的表示和基本运算 1 浮点数的表示通常，我们可以用下面的格式来表示浮点数 S P M 其中S是符号位，P是阶码，M是尾数对于IBM-PC而言，单精度浮点数是32位（即4字节）的，双精度浮点数是64位（即8字节）的。两者的S，P，M所占的位数以及表示方法由下表可知 S P M表示公式偏移量 1823(-1)S*2(P-127)*1.M127 11152(-1)S*2(P-1023)*1.M1023 以单精度浮点数为例，可以得到其二进制的表示格式如下 S(第31位)P(30位到 23位) M(22位到 0位) 其中S是符号位，只有0和1，分别表示正负；P是阶码，通常使用移码表示（移码和补码只有符号位相反，其余都一样。对于正数而言，原码，反码和补码都一样；对于负数而言，补码就是其绝对值的原码全部取反，然后加1.）为了简单起见，本文都只讨论单精度浮点数，双精度浮点数也是用一样的方式存储和表示的。 2 浮点数的表示约定单精度浮点数和双精度浮点数都是用IEEE754标准定义的，其中有一些特殊约定。（1）当P = 0, M = 0时，表示0。（2）当P = 255, M = 0时，表示无穷大，用符号位来确定是正无穷大还是负无穷大。

（3）当P = 255, M != 0时，表示NaN（Not a Number，不是一个数）。当我们使用.Net Framework的时候，我们通常会用到下面三个常量 Console.WriteLine(float.MaxValue); // 3.402823E+38 Console.WriteLine(float.MinValue); //-3.402823E+38 Console.WriteLine(float.Epsilon); // 1.401298E-45 //如果我们把它们转换成双精度类型，它们的值如下 Console.WriteLine(Convert.ToDouble(float.MaxValue)); // 3.40282346638529E+38 Console.WriteLine(Convert.ToDouble(float.MinValue)); //-3.40282346638529E+38 Console.WriteLine(Convert.ToDouble(float.Epsilon)); // 1.40129846432482E-45 那么这些值是如何求出来的呢？根据上面的约定，我们可以知道阶码P的最大值是11111110（这个值是254，因为255用于特殊的约定，那么对于可以精确表示的数来说，254就是最大的阶码了）。尾数的最大值是11111111111111111111111。那么这个最大值就是：0 11111110 11111111111111111111111。也就是 2(254-127) * (1.11111111111111111111111)2 = 2127 * (1+1-2-23) = 3.40282346638529E+38 从上面的双精度表示可以看出，两者是一致的。最小的数自然就是- 3.40282346638529E+38。对于最接近于0的数，根据IEEE754的约定，为了扩大对0值附近数据的表示能力，取阶码P = -126，尾数 M = (0.00000000000000000000001)2 。此时该数的二进制表示为：0 00000000 00000000000000000000001 也就是2-126 * 2-23 = 2-149 = 1.40129846432482E-45。这个数字和上面的Epsilon 是一致的。如果我们要精确表示最接近于0的数字，它应该是 0 00000001 00000000000000000000000 也就是：2-126 * (1+0) = 1.17549435082229E-38。 3 浮点数的精度问题浮点数以有限的32bit长度来反映无限的实数集合，因此大多数情况下都是一个近似值。同时，对于浮点数的运算还同时伴有误差扩散现象。特定精度下看似

32位浮点数转换为十进制

流量计计算机通过485端口以MODBUS协议把内部IEEE32位浮点数传送到DCS的数据经过研究试验，其数据格式如下数据请求依次为：十六进制从站地址：01；读命令：03；数据起始高位地址：0F；数据起始低位地址：A0；（0FA0=4000即地址44001）；数据长度高位：00；数据长度低位：28；（0028=40即40个地址）；CRC效验码：46,E2 数据应答格式：从站地址：01；读命令反馈：03；数据长度：50；第一个地址：69；C0；48；A9；第二个地址：C5；00；48；A2；以下类推，直到最后两位CRC：E8；86 第一个地址：69；C0；48；A9是如何换算为346958的呢？流量计发送的是IEEE标准的32位浮点数首先要把69；C0；48；A9进行高低16位交换变成：48；A9；69；C0 变为32位二进制数：01001000 10101001 01101001 11000000 其中最高位为0，代表是正数接下来的八位：10010001变成十进制是145，根据IEEE规范应减去127得18，这是小数点右移的位数；剩下的23位是纯二进制小数即：0.0101001 01101001 11000000 加1后得1.0101001 01101001 11000000 小数点右移18位后得10101001 01101001 110.00000 变为十进制得346958 其它地址的32位浮点数计算方法同上标题:《IEEE754 学习总结》发信人:Vegeta 时间:2004-11-11,10:32 详细信息: 一：前言二：预备知识三：将浮点格式转换成十进制数四：将十进制数转换成浮点格式（real*4）附：IEEE754 Converte 1.0介绍一：前言

IEEE浮点数表示法

IEEE浮点数表示法 ------------------------------------------------- float 共计32位(4字节) 由最高到最低位分别是第31、30、29、 0 31位是符号位，1表示该数为负，0反之 30~23位，一共8位是指数位(-128~127) 22~ 0位，一共23位是尾数位每8位分为一组，分成4组，分别是A组、B组、C组、D组每一组是一个字节，在内存中逆序存储，即: DCBA 31 30 23 22 0 |-|--------|-----------------------| | | || |-|--------|-----------------------| 注: 尾数的存储位为23位，由于没有存储最高位的1，所以实际有效位为24位。如果其中20位都用来表示小数部分，能表示的最大值为0.999999 我们先不考虑逆序存储的问题，因为那样会把读者彻底搞晕，所以我先按照顺序的来讲，最后再把他们翻过来就行了。

纯整数的表示方法 ------------------------------------------------- 现在让我们按照IEEE浮点数表示法，一步步的将float型浮点数123456.0f转换为十六进制代码。在处理这种不带小数的浮点数时，直接将整数部转化为二进制表示: 1 11100010 01000000 也可以这样表示: 1 11100010 01000000.0 然后将小数点向左移，一直移到离最高位只有1位: 1.11100010 01000000 一共移动了16位，在布耳运算中小数点每向左移一位就等于在以2为底的科学计算法表示中指数+1，所以原数就等于这样 1 11100010 01000000 = 1.11100010 01000000 * (2^16) 现在我们要的尾数和指数都出来了。显而易见，最高位永远是1，因为你不可能把买了16个鸡蛋说成是买了0016个鸡蛋吧?(呵呵，可别拿你买的臭鸡蛋甩我)，所以这个1我们还有必要保留他吗?(众：没有!)好的，我们删掉他。这样尾数的二进制就变成了: 11100010

浮点转定点方法总结

浮点转定点方法总结 —孔德琦

目录定点运算方法................................................ 错误!未定义书签。数的定标 ............................................... 错误!未定义书签。 C语言：从浮点到定点 ................................. 错误!未定义书签。加法.................................................... 错误!未定义书签。乘法..................................................... 错误!未定义书签。除法..................................................... 错误!未定义书签。三角函数运算............................................ 错误!未定义书签。开方运算................................................ 错误!未定义书签。附录...................................................... 错误!未定义书签。附录1：定点函数库...................................... 错误!未定义书签。附录2：正弦和余弦表..................................... 错误!未定义书签。

浮点数的表示和运算(范围计算)

浮点数的表示和运算浮点数的表示和基本运算 1 浮点数的表示通常，我们可以用下面的格式来表示浮点数其中S是符号位，P是阶码，M是尾数对于IBM-PC而言，单精度浮点数是32位（即4字节）的，双精度浮点数是64位（即8字节）的。两者的S，P，M所占的位数以及表示方法由下表可知以单精度浮点数为例，可以得到其二进制的表示格式如下其中S是符号位，只有0和1，分别表示正负；P是阶码，通常使用移码表示（移码和补码只有符号位相反，其余都一样。对于正数而言，原码，反码和补码都一样；对于负数而言，补码就是其绝对值的原码全部取反，然后加1.）为了简单起见，本文都只讨论单精度浮点数，双精度浮点数也是用一样的方式存储和表示的。 2 浮点数的表示约定单精度浮点数和双精度浮点数都是用IEEE754标准定义的，其中有一些特殊约定。（1）当P = 0, M = 0时，表示0。（2）当P = 255, M = 0时，表示无穷大，用符号位来确定是正无穷大还是负无穷大。（3）当P = 255, M != 0时，表示NaN（Not a Number，不是一个数）。当我们使用.Net Framework的时候，我们通常会用到下面三个常量 Console.WriteLine(float.MaxValue); // 3.402823E+38 Console.WriteLine(float.MinValue); //-3.402823E+38 Console.WriteLine(float.Epsilon); // 1.401298E-45 //如果我们把它们转换成双精度类型，它们的值如下 Console.WriteLine(Convert.ToDouble(float.MaxValue)); // 3.40282346638529E+38 Console.WriteLine(Convert.ToDouble(float.MinValue)); //-3.40282346638529E+38 Console.WriteLine(Convert.ToDouble(float.Epsilon)); // 1.40129846432482E-45 那么这些值是如何求出来的呢？

浮点数表示方法与运算

在计算机系统的发展过程中，曾经提出过多种方法表达实数，典型的比如定点数。在定点数表达方式中，小数点位置固定，而计算机字长有限，所以定点数无法表达很大和很小的实数。最终，计算机科学发展出了表达范围更大的表达方式——浮点数，浮点数也是对实数的一种近似表达。 1.浮点数表达方式我们知道任何一个R 进制数N 均可用下面的形式表示：N R =±S ×R ±e 其中，S—尾数，代表N 的有效数字； R—基值，通常取2、8、16；e—阶码，代表N 的小数点的实际位置(相当于数学中的指数)。比如一个十进制数的浮点表达1.2345×102，其中1.2345为尾数，10为基数，2为阶码。一个二进制数的浮点表达0.001001×25，0.001001为尾数，2为基数，5为阶码；同时0.001001×25也可以表示成0.100100×23，0.100100为尾数，2为基数，3为阶码。浮点数就是利用阶码e 的变化达到浮动小数点的效果，从而灵活地表达更大范围的实数。 2.浮点数的规格化一个数用浮点表示时，存在两个问题：一是如何尽可能多得保留有效数字；二是如何保证浮点表示的唯一。对于数0.001001×25，可以表示成0.100100×23、0.00001001×27等等，所以对于同一个数，浮点有多种表示(也就是不能唯一表示)。另外，如果规定尾数的位数为6位，则0.00001001×27会丢掉有效数字，变成0.000010×27。因此在计算机中，浮点数通常采用规格化表示方法。当浮点数的基数R 为2，即采用二进制数时，规格化尾数的定义为：1/2<=|S|<1。若尾数采用原码(1位符号位+n 位数值)表示，[S]原=S f S 1S 2S 3…S n (S f 为符号位的数符)，则满足S 1=1的数称为规格化数。即当尾数的最高有效位S 1=1，[S]原=S f 1S 2S 3…S n ,表示该浮点数为规格化数。对0.001001×25进行规格化后，表示为0.100100×23。 3.浮点数的表示范围求浮点数的表示范围，实质是求浮点数所能表示的最小负数、最大负数、最小正数和最大正数。

浮点数和定点数的区别

cloudseawang 定点数与浮点数区别最近做HDR时，经常要用NV提供的16位纹理，它的说明书16位能达到24位的精度，就很奇怪？一直搞不懂浮点数的精度怎么算的？今天认真看了一下IEEE float point的标准，终于明白是什么了 1. 什么是浮点数在计算机系统的发展过程中，曾经提出过多种方法表达实数。典型的比如相对于浮点数的定点数（Fixed Point Number）。在这种表达方式中，小数点固定的位于实数所有数字中间的某个位置。货币的表达就可以使用这种方式，比如99.00 或者00.99 可以用于表达具有四位精度（Precision），小数点后有两位的货币值。由于小数点位置固定，所以可以直接用四位数值来表达相应的数值。SQL 中的NUMBER 数据类型就是利用定点数来定义的。还有一种提议的表达方式为有理数表达方式，即用两个整数的比值来表达实数。定点数表达法的缺点在于其形式过于僵硬，固定的小数点位置决定了固定位数的整数部分和小数部分，不利于同时表达特别大的数或者特别小的数。最终，绝大多数现代的计算机系统采纳了所谓的浮点数表达方式。这种表达方式利用科学计数法来表达实数，即用一个尾数（Mantissa ），一个基数（Base），一个指数（Exponent）以及一个表示正负的符号来表达实数。比如123.45 用十进制科学计数法可以表达为1.2345 × 102 ，其中1.2345 为尾数，10 为基数，2 为指数。浮点数利用指数达到了浮动小数点的效果，从而可以灵活地表达更大范围的实数。提示: 尾数有时也称为有效数字（Significand）。尾数实际上是有效数字的非正式说法。同样的数值可以有多种浮点数表达方式，比如上面例子中的123.45 可以表达为12.345 ×101，0.12345 × 103 或者1.2345 × 102。因为这种多样性，有必要对其加以规范化以达到统一表达的目标。规范的（Normalized）浮点数表达方式具有如下形式： ±d.dd...d × β e , (0 ≤ d i < β) 其中 d.dd...d 即尾数，β 为基数，e 为指数。尾数中数字的个数称为精度，在本文中用p 来表示。每个数字d 介于0 和基数之间，包括0。小数点左侧的数字不为0。基于规范表达的浮点数对应的具体值可由下面的表达式计算而得： ±(d 0 + d 1β-1 + ... + d p-1β-(p-1))β e , (0 ≤ d i < β) 对于十进制的浮点数，即基数β 等于10 的浮点数而言，上面的表达式非常容易理解，也很直白。计算机内部的数值表达是基于二进制的。从上面的表达式，我们可以知道，二进制数同样可以有小数点，也同样具有类似于十进制的表达方式。只是此时β 等于2，而每个数字d 只能在0 和 1 之间取值。比如二进制数1001.101 相当于1 × 2 3 + 0 × 22 + 0 ×21 + 1 ×20 + 1 ×2-1 + 0 ×2-2 + 1 ×2-3，对应于十进制的9.625。其规范浮点数表达为1.001101 × 23。 2. IEEE 浮点数计算机中是用有限的连续字节保存浮点数的。保存这些浮点数当然必须有特定的格式，Java 平台上的浮点数类型float 和double 采纳了IEEE 754 标准中所定义的单精度32 位浮点数和双精度64 位浮点数的格式。注意: Java 平台还支持该标准定义的两种扩展格式，即float-extended-exponent 和double-extended-exponent 扩展格式。这里将不作介绍，有兴趣的读者可以参考相应的参考资料。在IEEE 标准中，浮点数是将特定长度的连续字节的所有二进制位分割为特定宽度的符号域，指数域和尾数域三个域，其中保存的值分别用于表示给定二进制浮点数中的符号，

非标准浮点数和标准的浮点数之间的转换

地址：安徽省、合肥市、肥东县、店埠镇，合肥市福来德电子科技有限公司Microchip 公司单片机所采用的浮点数格式是IEEE-754标准的变异型。 1、变异型32位浮点数格式为:：阶码E （8位），符号S （1位），尾数M （23位）变异型32位浮点数的二进制格式为:：E7，E6，E5，E4，E4，E3，E2，E1，E0，S ，M22，M21，M20，M19，M18，M17，M16，M15，M14，M13，M12，M11，M10，M9，M8，M7，M6，M5，M4，M3，M2，M1，M0共计32位值。存储模式：大端格式，高字节存放在低地址位置。 2、标准型32位浮点数格式为:：符号S （1位），阶码E （8位），尾数M （23位）标准型32位浮点数的二进制格式为:：S ，E7，E6，E5，E4，E4，E3，E2，E1，E0，M22，M21，M20，M19，M18，M17，M16，M15，M14，M13，M12，M11，M10，M9，M8，M7，M6，M5，M4，M3，M2，M1，M0共计32位值。存储模式：小端格式，高字节存放在高地址位置。 #include<18f6720.h> //#include //包含头文件string.h #include //包含头文件stdlib.h union { int8 b[4]; int32 d; //b[3]和d 的高8位值相等;b[0]和d 的低8位值相等; float f; }IEEE_FLOAT_DATA; //IEEE 标准型浮点数; union { int8 b[4]; int16 c[2]; int32 d; //b[3]和d 的高8位值相等;b[0]和d 的低8位值相等; float f; }IEEE_aberrance_FLOAT_DATA; //IEEE 变异型浮点数; //函数功能:将x 中的IEEE-754标准的浮点数转换为IEEE-754标准的变异型浮点数 //输入参数IEEE_FLOAT_DATA.d 中是标准型浮点数;IEEE_FLOAT_DATA.d=0xC148000 //输出参数:IEEE_FLOAT_DATA.f 存放为变异型浮点数据;IEEE_FLOAT_DATA.d 为变异型浮点数的16进制数据; void convert_IEEE_FLOAT_DATA_to_IEEE_aberrance_FLOAT_DATA() { //IEEE_FLOAT_DATA.d=x; int1 bit_value; int8 temp; if( bit_test(IEEE_FLOAT_DATA.b[2],7) ) bit_value=1; //获取阶码E0上的值； else bit_value=0; bit_value=shift_left(&IEEE_FLOAT_DATA.b[3],1,bit_value); //左移1位，将E0上的值移入，获取符号值S ； if(bit_value) bit_set(IEEE_FLOAT_DATA.b[2],7); //修改符号值S else bit_clear(IEEE_FLOAT_DATA.b[2],7); //修改符号值S ////////////////////////存储模式 ////////////

浮点数表示法-C语言

浮点数表示法任何数据在内存中都是以二进制（1或着0）顺序存储的，每一个1或着0被称为1位，而在x86CPU上一个字节是8位。比如一个16位（2字节）的short int型变量的值是1156，那么它的二进制表达就是：00000100 10000100。由于Intel CPU的架构是Little Endian（请参照计算机原理相关知识），所以它是按字节倒序存储的，那么就应该是这样：10000100 00000100，这就是定点数1156在内存中的结构。对于一个数0x1122 使用Little Endian方式时，低字节存储0x22，高字节存储0x11 而使用Big Endian方式时, 低字节存储0x11, 高字节存储0x22 浮点数是如何存储的呢？目前已知的所有的C/C++编译器都是按照IEEE（国际电子电器工程师协会）制定的IEEE 浮点数表示法来进行运算的。这种结构是一种科学表示法，用符号（正或负）、指数和尾数来表示，底数被确定为2，也就是说是把一个浮点数表示为尾数乘以2的指数次方再加上符号。下面来看一下具体的float的规格： float：32位，4字节由最高到最低位分别是第31、30、29、 0 31位是符号位，1表示该数为负，0反之。 30-23位，一共8位是指数位。 22-0位，一共23位是尾数位。每8位分为一组，分成4组，分别是A组、B组、C组、D组。每一组是一个字节，在内存中逆序存储，即：DCBA 我们先不考虑逆序存储的问题，所以先按照顺序的来讲，最后再把他们翻过来就行了。现在让我们按照IEEE浮点数表示法，一步步将float型浮点数123456.0f转换为十六进制代码。在处理这种不带小数的浮点数时，直接将整数部转化为二进制表示： 1 11100010 01000000也可以这样表示：11110001001000000.0然后将小数点向左移，一直移到离最高位只有1位，就是最高位的1：1.11100010010000000一共移动了16位，在布耳运算中小数点每向左移一位就等于在以2为底的科学计算法表示中指数+1，所以原数就等于这样：1.11100010010000000 * ( 2 ^ 16 )好了，现在我们要的尾数和指数都出来了。显而易见，最高位永远是1，不能把16说成是0016。所以这个1也保留，删掉。这样尾数的二进制就变成了：11100010010000000最后在尾数的后面补0，一直到补够23位：11100010010000000000000

浮点数加减运算课件

如果一个二进制浮点数的尾数的绝对值小于1并且大于等于0.5，（1＞|尾数|≥0.5），那么这个二进制浮点数就是一个规格化的浮点数。用二进制补码表示1个规格化的浮点数，并且规格化的浮点数的尾数只有一个符号位时：规格化的浮点数的尾数是正数时应该是0 . 1 X X X X X X X X X ……的形式（0表示符号位，X表示0或1中的任意一个数值）规格化的浮点数的尾数是负数时应该是1 . 0 X X X X X X X X X ……的形式（1表示符号位，X表示0或1中的任意一个数值）用二进制补码表示1个规格化的浮点数，并且规格化的浮点数的尾数只有两个符号位时：规格化的浮点数的尾数是正数时应该是00 . 1 X X X X X X X X X ……的形式（00表示符号位，X表示0或1中的任意一个数值）规格化的浮点数的尾数是负数时应该是11 . 0 X X X X X X X X X ……的形式（11表示符号位，X表示0或1中的任意一个数值）两个浮点数加减法的计算结果必须规格化，如果不是规格化的数，则要通过修改阶码并同时左移或者右移尾数，使其变为规格化的数。 [例] x＝2010×0.11011011，y=2100×-0.10101100，浮点数均以补码表示，阶码采用双符号位，尾数采用单符号位。求x+y 。答：（步骤1）转换成题目中要求的浮点数格式：浮点数x＝2010×0.11011011的阶码是+010，尾数是+0.11011011 浮点数均以补码表示，所以阶码以补码表示，并且阶码采用双符号位， [x]浮的阶码＝00010（00是两个符号位）浮点数均以补码表示，所以尾数以补码表示，并且尾数采用单符号位， [x]浮的尾数＝0.11011011（0是1个符号位）

数的定点表示和浮点表示

计算机处理的数值数据多数带有小数，小数点在计算机中通常有两种表示方法，一种是约定所有数值数据的小数点隐含在某一个固定位置上，称为定点表示法，简称定点数；另一种是小数点位置可以浮动，称为浮点表示法，简称浮点数。 1. 定点数表示法(fixed-point) 所谓定点格式，即约定机器中所有数据的小数点位置是固定不变的。在计算机中通常采用两种简单的约定：将小数点的位置固定在数据的最高位之前，或者是固定在最低位之后。一般常称前者为定点小数，后者为定点整数。定点小数是纯小数，约定的小数点位置在符号位之后、有效数值部分最高位之前。若数据x的形式为x=x0.x1x2… xn(其中x0为符号位，x1～xn是数值的有效部分，也称为尾数，x1为最高有效位)，则在计算机中的表示形式为：一般说来，如果最末位xn= 1，前面各位都为0，则数的绝对值最小，即|x|min= 2-n。如果各位均为1，则数的绝对值最大，即|x|max=1-2-n。所以定点小数的表示范围是：

2-n≤|x|≤1 -2-n 定点整数是纯整数，约定的小数点位置在有效数值部分最低位之后。若数据x的形式为x=x0x1x2…xn(其中x0为符号位，x1～xn是尾数，xn为最低有效位)，则在计算机中的表示形式为：定点整数的表示范围是： 1≤|x|≤2n-1 当数据小于定点数能表示的最小值时，计算机将它们作0处理，称为下溢；大于定点数能表示的最大值时，计算机将无法表示，称为上溢，上溢和下溢统称为溢出。计算机采用定点数表示时，对于既有整数又有小数的原始数据，需要设定一个比例因子，数据按其缩小成定点小数或扩大成定点整数再参加运算，运算结果，根据比例因子，还原

浮点数的加减乘除运算步骤

设两个浮点数X=Mx※2Ex Y=My※2Ey 实现X±Y要用如下5步完成： ①对阶操作：小阶向大阶看齐 ②进行尾数加减运算 ③规格化处理：尾数进行运算的结果必须变成规格化的浮点数，对于双符号位的补码尾数来说，就必须是001×××…×× 或110×××…××的形式, 若不符合上述形式要进行左规或右规处理。 ④舍入操作：在执行对阶或右规操作时常用“0”舍“1”入法将右移出去的尾数数值进行舍入，以确保精度。 ⑤判结果的正确性：即阶码是否溢出若阶码下溢（移码表示是00…0），要置结果为机器0；若阶码上溢（超过了阶码表示的最大值）置溢出标志。例题：假定X=0 .0110011*211，Y=0.1101101*2-10（此处的数均为二进制）?? 计算X+Y；解：[X]浮：0 1010 1100110 [Y]浮：0 0110 1101101 符号位阶码尾数第一步：求阶差：│ΔE│=|1010-0110|=0100 第二步：对阶：Y的阶码小，Y的尾数右移4位 [Y]浮变为0 1010 0000110 1101暂时保存第三步：尾数相加，采用双符号位的补码运算 00 1100110 +00 0000110 00 1101100 第四步：规格化：满足规格化要求第五步：舍入处理，采用0舍1入法处理故最终运算结果的浮点数格式为：0 1010 1101101，即X+Y=+0. 1101101*210

①阶码运算：阶码求和（乘法）或阶码求差（除法）即[Ex+Ey]移= [Ex]移+ [Ey]补 [Ex－Ey]移= [Ex]移+ [－Ey]补 ②浮点数的尾数处理：浮点数中尾数乘除法运算结果要进行舍入处理例题：X=0 .0110011*211，Y=0.1101101*2-10 求X※Y 解：[X]浮：0 1 010 ******* [Y]浮：0 0 110 1101101 第一步：阶码相加 [Ex+Ey]移=[Ex]移+[Ey]补=1 010+1 110=1 000 1 000为移码表示的0 第二步：原码尾数相乘的结果为： 0 10101101101110 第三步：规格化处理：已满足规格化要求，不需左规，尾数不变，阶码不变。第四步：舍入处理：按舍入规则，加1进行修正所以X※Y= 0.1010111※2+000

十进制数和单精度浮点数的相互转换

将十进制数转换成浮点格式（real*4） [例1]：十进制26.0转换成二进制 11010.0 规格化二进制数 1.10100*2^4 计算指数 4+127=131 符号位指数部分尾数部分 0 10000011 10100000000000000000000 以单精度（real*4）浮点格式存储该数0100 0001 1101 0000 0000 0000 0000 0000 0x41D0 0000 [例2]： 0.75 十进制0.75转换成二进制 0.11 规格化二进制数 1.1*2^-1 计算指数 -1+127=126 符号位指数部分尾数部分 0 01111110 10000000000000000000000 以单精度（real*4）浮点格式存储该数0011 1111 0100 0000 0000 0000 0000 0000 0x3F40 0000 [例3]： -2.5 十进制-2.5转换成二进制 -10.1 规格化二进制数 -1.01*2^1 计算指数 1+127=128 符号位指数部分尾数部分 1 10000000 01000000000000000000000 以单精度（real*4）浮点格式存储该数1100 0000 0010 0000 0000 0000 0000 0000 0xC020 0000

将浮点格式转换成十进制数 [例1]： 0x00280000（real*4）转换成二进制 00000000001010000000000000000000 符号位指数部分（8位）尾数部分 0 00000000 01010000000000000000000 符号位=0；因指数部分=0，则：尾数部分M为m： 0.01010000000000000000000=0.3125 该浮点数的十进制为： (-1)^0*2^(-126)*0.3125 =3.6734198463196484624023016788195e-39 [例2]： 0xC04E000000000000（real*8）转换成二进制1100000001001110000000000000000000000000000000000000000000000000 符号位指数部分（11位）尾数部分 1 10000000100 1110000000000000000000000000000000000000000000000000 符号位=1；指数=1028，因指数部分不为全'0'且不为全'1'，则：尾数部分M为1+m：1.1110000000000000000000000000000000000000000000000000=1.875 该浮点数的十进制为： (-1)^1*2^(1028-1023)*1.875 =-60

编写一个程序,将用小数表示的浮点数,转换成科学计数法的形式输出.输入的数据没有

不知道你问什么语言 Java：浮点数输出，不显示成科学计数法 BigDecimal bg=new BigDecimal("3.456785E-8"); System.out.println(bg.toPlainString()); C： public abstract class ScienceCount { public static string KXJSF(double num) { double bef = System.Math.Abs(num); int aft = 0; while (bef >= 10 || (bef < 1 && bef != 0)) { if (bef >= 10) { bef=bef/10; aft++; } else { bef=bef*10; aft--; } } Return string.Concat(num >=0 ?"" :"-",ReturnBef(bef),"E",ReturnAft(aft)); } ///

/// 有效数字的处理 ///

/// 有效数字 /// 三位有效数字，不足则补零 public static string ReturnBef(double bef) {

if (bef.ToString() != null) { char[] arr = bef.ToString().ToCharArray(); switch (arr.Length) { case 1: case 2: return string.Concat(arr[0], ".", "00"); break; case 3: return string.Concat(arr[0] + "." + arr[2] + "0"); break; default: return string.Concat(arr[0] + "." + arr[2] + arr[3]); break; } } else { return "000"; } } ///

/// 幂的处理 ///

/// 幂数 /// 三位幂数部分，不足则补零 public static string ReturnAft(int aft) { if (aft.ToString() != null) { string end; char[] arr = System.Math.Abs(aft).ToString().ToCharArray(); switch (arr.Length) { case 1: end = "00" + arr[0];

IEEE_745浮点数标准

标题: 解读IEEE标准754：浮点数表示一、背景在IEEE标准754之前，业界并没有一个统一的浮点数标准，相反，很多计算机制造商都设计自己的浮点数规则，以及运算细节。那时，实现的速度和简易性比数字的精确性更受重视。直到1985年Intel打算为其的8086微处理器引进一种浮点数协处理器的时候，聪明地意识到，作为设计芯片者的电子工程师和固体物理学家们，也许并不能通过数值分析来选择最合理的浮点数二进制格式。于是Intel在请加州大学伯克利分校的 William Kahan教授──最优秀的数值分析家之一来为8087 FPU设计浮点数格式; 而这个家伙又找来两个专家来协助他，于是就有了KCS组合（Kahn, Coonan, and Stone）。他们共同完成了Intel的浮点数格式设计，而且完成地如此出色，以致于IEEE组织决定采用一个非常接近KCS的方案作为IEEE的标准浮点格式。目前，几乎所有计算机都支持该标准，大大改善了科学应用程序的可移植性。二、表示形式从表面上看，浮点数也是一串0和1构成的位序列(bit sequence)，并不是三头六臂的怪物，更不会咬人。然而IEEE标准从逻辑上用三元组{S,E,M}表示一个数N,如下图所示： N的实际值n由下列式子表示：

其中： ★ n,s,e,m分别为N,S,E,M对应的实际数值,而N,S,E,M仅仅是一串二进制位。 ★ S(sign)表示N的符号位。对应值s满足：n>0时，s=0; n<0时，s=1。 ★ E(exponent)表示N的指数位，位于S和M之间的若干位。对应值e值也可正可负。 ★ M(mantissa)表示N的尾数位，恰好，它位于N末尾。M也叫有效数字位（sinificand）、系数位（coefficient）, 甚至被称作“小数”。三、浮点数格式 IEEE标准754规定了三种浮点数格式：单精度、双精度、扩展精度。前两者正好对应C语言里头的float、double或者FORTRAN里头的real、double精度类型。限于篇幅，本文仅介绍单精度、双精度浮点格式。 ★ 单精度:N共32位，其中S占1位，E占8位，M占23位。 ★ 双精度:N共64位，其中S占1位，E占11位，M占52位。值得注意的是，M虽然是23位或者52位，但它们只是表示小数点之后的二进制位数，也就是说，假定 M为“010110011...”, 在二进制数值上其实是“.010110011...”。而事实上，标准规定小数点左边还有一个隐含位，这个隐含位通常，哦不，应该说绝大多数情况下是1，那什么情况下是0呢？答案是N