float與double的範圍和精度

float與double的範圍和精度

原文：http://blog.csdn.net/wuna66320/article/details/1691734

1 範圍

float和double的範圍是由指數的位數來決定的。

float的指數位有8位，而double的指數位有11位，分佈如下：

float：

1bit（符號位）

8bits（指數位）

23bits（尾數位）

double：

1bit（符號位）

11bits（指數位）

52bits（尾數位）

在數學中，特別是在計算機相關的數字（浮點數）問題的表述中，有一個基本表達法^[1]：

　value of floating-point = significand x base ^ exponent , with sign --- F.1

　　譯爲中文表達即爲：

　（浮點）數值 = 尾數 × 底數 ^ 指數，（附加正負號）---------------- F.2

於是，float的指數範圍爲-127~128，而double的指數範圍爲-1023~1024，並且指數位是按補碼的形式來劃分的。其中負指數決定了浮點數所能表達的絕對值最小的數；而正指數決定了浮點數所能表達的絕對值最大的數，也即決定了浮點數的取值範圍。

float的範圍爲-2^128 ~ +2^128，也即-3.40E+38 ~ +3.40E+38；double的範圍爲-2^1024 ~ +2^1024，也即-1.79E+308 ~ +1.79E+308。

2 精度

float和double的精度是由尾數的位數來決定的。浮點數在內存中是按科學計數法來存儲的，其整數部分始終是一個隱含着的“1”，由於它是不變的，故不能對精度造成影響。

float：2^23 = 8388608，一共七位，這意味着最多能有7位有效數字，但絕對能保證的爲6位，也即float的精度爲6~7位有效數字；

double：2^52 = 4503599627370496，一共16位，同理，double的精度爲15~16位。

單精度類型（float）和雙精度類型(double)存儲

2009-11-24 13:57

C 語言和C#語言中，對於浮點類型的數據採用單精度類型（float）和雙精度類型(double)來存儲，float數據佔用32bit, double數據佔用64bit,我們在聲明一個變量float f= 2.25f的時候，是如何分配內存的呢？如果胡亂分配，那世界豈不是亂套了麼，其實不論是float還是double在存儲方式上都是遵從IEEE的規範的，float遵從的是IEEE R32.24 ,而double 遵從的是R64.53。

無論是單精度還是雙精度在存儲中都分爲三個部分：

符號位(Sign) : 0代表正，1代表爲負
指數位（Exponent）:用於存儲科學計數法中的指數數據，並且採用移位存儲
尾數部分（Mantissa）：尾數部分

其中float的存儲方式如下圖所示：

而雙精度的存儲方式爲:

R32.24和R64.53的存儲方式都是用科學計數法來存儲數據的，比如8.25用十進制的科學計數法表示就爲:8.25*10⁰,而120.5可以表示爲:1.205*10², 這些小學的知識就不用多說了吧。而我們傻蛋計算機根本不認識十進制的數據，他只認識0，1，所以在計算機存儲中，首先要將上面的數更改爲二進制的科學計數法表示，8.25用二進制表示可表示爲1000.01,我靠，不會連這都不會轉換吧?那我估計要沒轍了。120.5用二進制表示爲：1110110.1用二進制的科學計數法表示1000.01可以表示爲1.0001*2³,1110110.1可以表示爲1.1101101*2⁶,任何一個數都的科學計數法表示都爲1.xxx*2ⁿ, 尾數部分就可以表示爲xxxx,第一位都是1嘛，幹嘛還要表示呀？可以將小數點前面的1省略，所以23bit的尾數部分，可以表示的精度卻變成了 24bit，道理就是在這裏，那24bit能精確到小數點後幾位呢，我們知道9的二進制表示爲1001，所以4bit能精確十進制中的1位小數點， 24bit就能使float能精確到小數點後6位，而對於指數部分，因爲指數可正可負，8位的指數位能表示的指數範圍就應該爲:-127-128了，所以指數部分的存儲採用移位存儲，存儲的數據爲元數據+127，下面就看看8.25和120.5在內存中真正的存儲方式。

首先看下8.25，用二進制的科學計數法表示爲:1.0001*2³

按照上面的存儲方式，符號位爲:0，表示爲正，指數位爲:3+127=130 ,位數部分爲,故8.25的存儲方式如下圖所示:

而單精度浮點數120.5的存儲方式如下圖所示:

那麼如果給出內存中一段數據，並且告訴你是單精度存儲的話，你如何知道該數據的十進制數值呢？其實就是對上面的反推過程，比如給出如下內存數據：0100001011101101000000000000，首先我們現將該數據分段，0 10000 0101 110 1101 0000 0000 0000 0000，在內存中的存儲就爲下圖所示：

根據我們的計算方式，可以計算出，這樣一組數據表示爲:1.1101101*2⁶=120.5

而雙精度浮點數的存儲和單精度的存儲大同小異，不同的是指數部分和尾數部分的位數。所以這裏不再詳細的介紹雙精度的存儲方式了，只將120.5的最後存儲方式圖給出，大家可以仔細想想爲何是這樣子的

下面我就這個基礎知識點來解決一個我們的一個疑惑，請看下面一段程序，注意觀察輸出結果

float f = 2.2f;

double d = (double)f;

Console.WriteLine(d.ToString("0.0000000000000"));

f = 2.25f;

d = (double)f;

Console.WriteLine(d.ToString("0.0000000000000"));

可能輸出的結果讓大家疑惑不解，單精度的2.2轉換爲雙精度後，精確到小數點後13位後變爲了2.2000000476837，而單精度的 2.25轉換爲雙精度後，變爲了2.2500000000000，爲何2.2在轉換後的數值更改了而2.25卻沒有更改呢？很奇怪吧？其實通過上面關於兩種存儲結果的介紹，我們已經大概能找到答案。首先我們看看2.25的單精度存儲方式，很簡單 0 1000 0001 001 0000 0000 0000 0000 0000,而2.25的雙精度表示爲:0 100 0000 0001 0010 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000,這樣2.25在進行強制轉換的時候，數值是不會變的，而我們再看看2.2呢，2.2用科學計數法表示應該爲：將十進制的小數轉換爲二進制的小數的方法爲將小數*2，取整數部分，所以0.282=0.4，所以二進制小數第一位爲0.4的整數部分0，0.4×2=0.8，第二位爲0,0.8*2= 1.6,第三位爲1，0.6×2 = 1.2，第四位爲1，0.2*2=0.4，第五位爲0，這樣永遠也不可能乘到=1.0，得到的二進制是一個無限循環的排列 00110011001100110011... ,對於單精度數據來說，尾數只能表示24bit的精度，所以2.2的float存儲爲:

但是這樣存儲方式，換算成十進制的值，卻不會是2.2的，應爲十進制在轉換爲二進制的時候可能會不準確，如2.2，而double類型的數據也存在同樣的問題，所以在浮點數表示中會產生些許的誤差，在單精度轉換爲雙精度的時候，也會存在誤差的問題，對於能夠用二進制表示的十進制數據，如 2.25，這個誤差就會不存在，所以會出現上面比較奇怪的輸出結果。

float與double的範圍和精度

1 範圍

2 精度

JAVA刪除文件夾和文件

域網絡與工作組網絡

小知識更新集合

js、jquery相關

C語言動態分配二維數組

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結