首页  > 02年世界杯巴西

浮点数运算

為了方便呈現,容易閱讀,以下的例子會用十進制,有效位數7位數的浮點數,也就是IEEE 754 decimal32格式,其原理不會隨進制或是有效位數而變。此處的s表示尾數(有效數字),而e表示指數。

加減法

编辑

處理浮點數加法的簡單作法是將二個浮點數調整到有相同的指數。在以下例子中,第二個數的小數點左移了三位,使二者的指數相同,之後即可進行一般的加法運算:

123456.7 = 1.234567 × 10^5

101.7654 = 1.017654 × 10^2 = 0.001017654 × 10^5

因此

123456.7 + 101.7654 = (1.234567 × 10^5) + (1.017654 × 10^2)

= (1.234567 × 10^5) + (0.001017654 × 10^5)

= (1.234567 + 0.001017654) × 10^5

= 1.235584654 × 10^5

若用e和s來表示

e=5; s=1.234567 (123456.7)

+ e=2; s=1.017654 (101.7654)

e=5; s=1.234567

+ e=5; s=0.001017654 (移位後)

--------------------

e=5; s=1.235584654 (實際的和:123558.4654)

這是真實的結果,二個數字真正的和,之後會再四捨五入到七位有效位數,若有需要的話,會再進行正規化,其結果為

e=5; s=1.235585 (最後答案:123558.5)

加數的最低三位數(654)沒有出現在結果中,這稱為捨入誤差。在一些極端的例子中,二個浮點數的和可能和其中的被加數或是加數相等:

e=5; s=1.234567

+ e=−3; s=9.876543

e=5; s=1.234567

+ e=5; s=0.00000009876543 (移位後)

----------------------

e=5; s=1.23456709876543 (真正的和)

e=5; s=1.234567 (四捨五入及正規化後)

在上述的例子中,為了要有正確的四捨五入結果,在二數指數差距很大時,要增加許多位數才有正確的結果。不過,在二位制的加減法中,利用一個guard位元、一個rounding位元以及一個額外的sticky位元,就可以有正確的結果[1][2]:218–220。

另一個失去有效數字的情形出現在二個幾乎相等的數字相減時。在以下的例子中,e = 5; s = 1.234571和e = 5; s = 1.234567是有理數123457.1467和123456.659的近似值。

e=5; s=1.234571

− e=5; s=1.234567

----------------

e=5; s=0.000004

e=−1; s=4.000000 (四捨五入及正規化後)

浮點數的差可以精確的計算,如同Sterbenz引理(英语:Sterbenz lemma)所說明的,就算是因為漸進式下溢位(英语:gradual underflow)而出現下溢位也是一樣。不過,原來二個數的差是e = −1; s = 4.877000,和浮點數計算結果e = −1; s = 4.000000之間差了超過20%。在極端的例子中,甚至所有的有效數字都會不見[1][3]。上述的灾难性抵消說明了,假設計算結果的每一位數都有意義,這個想法很危險。這類誤差的處理及修正是數值分析中的主題之一。

乘除法

编辑

若要進行乘法,將有效數字相乘,指數相加,再進行四捨五入及正規化即可。

e=3; s=4.734612

× e=5; s=5.417242

-----------------------

e=8; s=25.648538980104 (真實乘積)

e=8; s=25.64854 (四捨五入後)

e=9; s=2.564854 (正規化)

而除法會將被除數和除數的有效數字相除,二者的指數相減,再進行四捨五入及正規化。

乘除法不會有抵消或是某一數字被吸收的問題,不過仍會出現一些小誤差,若連續運算,誤差會變大[1]。實務上,要進行上述運算的數位邏輯可能會相當的複雜(像是布斯乘法算法以及除法器)。