IEEE 754

I datalogi er IEEE 754 en standard for flydende aritmetik udviklet af Institute of Electrical and Electronics Engineers . Det er i øjeblikket den mest anvendte standard til beregning af flydende nummer med CPU'er og FPU'er . Standarden definerer formaterne til repræsentation af flydende nummer ( tegn , mantissa , eksponent , denormaliserede tal ) og specielle værdier ( uendelig og NaN) sammen med et sæt flydende punktoperationer. Den beskriver også fem afrundingstilstande og fem undtagelser (inklusive de betingelser, hvorunder en undtagelse opstår, og hvad der sker i så fald).

Historie

Den originale version af IEEE 754, der stammer fra 1985, definerede fire formater til at repræsentere base 2 flydende nummer:

enkelt præcision (32 bits: 1 tegnbit, 8 eksponentbits (−126 til 127), 24 mantissabits, inklusive en implicit 1 bit);
udvidet enkelt præcision (≥ 43 bits, forældet, implementeret i praksis med dobbelt præcision);
dobbelt præcision (64 bits: 1 tegnbit, 11 eksponentbits (-1022 til 1023), 53 mantissabits, inklusive en implicit 1 bit);
udvidet dobbelt præcision (≥ 79 bits, ofte implementeret med 80 bits: 1 tegnbit, 15 eksponentbits (−16382 til 16383), 64 mantissabit, ingen implicit 1 bit).

For eksempel i g- sproget bruger gcc- kompilatoren til 32-bit Intel-kompatible arkitekturer formatet enkel præcision til variabler af typen float , dobbelt præcision for variabler af typen dobbelt og dobbelt præcision eller udvidet dobbelt præcision (efter operativsystemet) for lange dobbeltvariabler . Men hvis SSE2-udvidelsen ikke bruges, afrundes alle beregninger til den samme præcision afhængigt af processorens dynamiske præcisionsindstilling (typisk dobbelt præcision eller udvidet dobbelt præcision, afhængigt af operativsystemet, kompileringsmuligheder og ændringer foretaget af programmer).

Standardens fulde titel var IEEE Standard for Binary Floating-Point Arithmetic (ANSI / IEEE Std 754-1985 ). Det er også kendt som IEC 60559: 1989, binær flydende aritmetik for mikroprocessorsystemer , hvilket også gør det til en (amerikansk) standard, da den er godkendt som en normativ reference i flere internationale ISO-standarder. Denne standard blev dog udvidet med en større revision i 2008 til andre grundlæggende formater (binær på 128 bit og decimal på 64 og 128 bit) samt udvekslingsformater (tilføjelse af formater, der er enten mindre præcise eller mere præcise) og udvidede formater ( generalisering af 1985-standarden med mere frihed til præcision og kodning end med udvekslingsformater); denne revision inkluderer også yderligere afrundingstilstande og strengere krav til overensstemmelse med hensyn til den forventede nøjagtighed af basale transcendentale funktionsoperationer og beregninger. Denne standard blev også revideret i 2019.

Format for et flydende nummer

Konventioner brugt i artiklen

I et ord med længden W indekseres bitene fra 0 til W - 1 inklusive. Bit 0 placeres til højre, og det repræsenterer den mindst signifikante bit (dvs. enhedsbiten, som vil medføre den mindste variation, hvis den ændres).

Generelt format

Et flydende nummer består af tre elementer: mantissaen , eksponenten og tegnet. Den mest betydningsfulde bit er tegnbiten : hvis denne bit er på 1, er tallet negativt, og hvis det er på 0, er tallet positivt. De næste e- bits repræsenterer den partiske eksponent (undtagen speciel værdi), og de næste m- bits ( m mindst signifikante bits) repræsenterer mantissen.

Skilt	Bias-eksponent	Mantissa
(1 bit)	( e bits)	( m bits)

Udstillers bias

Eksponenten kan være positiv eller negativ. Den sædvanlige repræsentation af underskrevne numre ( 2's komplement ) ville dog gøre sammenligningen mellem flydende numre lidt vanskeligere. For at løse dette problem er eksponenten "skæv" for at gemme den som et usigneret nummer.

Denne bias er 2 e −1 - 1 ( e repræsenterer antallet af bits i eksponenten); det er derfor en konstant værdi, når antallet af bits e er fast.

Fortolkningen af et tal (andet end uendeligt) er derfor: værdi = tegn × mantissa × 2 ( eksponent - bias ) med

tegn = ± 1
bias = 2 e −1 −1

Undtagelser

Den mest betydningsfulde bit af mantissen bestemmes af værdien af den partiske eksponent. Hvis den forudindtagne eksponent er forskellig fra 0 og fra , er den mest betydningsfulde bit af mantissen 1, og antallet siges at være "normaliseret". Hvis den forudindtagne eksponent er nul, er den mest betydningsfulde bit af mantissen nul, og antallet er denormaliseret . $2 ^ {e} - 1$

Der er tre specielle tilfælde:

hvis den forudindstillede eksponent og mantissa begge er nul, er tallet ± 0 (afhængigt af tegnbiten)
hvis den forudindtagede eksponent er lig med , og hvis mantissen er nul, er tallet ± uendeligt (afhængigt af tegnbiten) $2 ^ {e} - 1$
hvis den forudindtagede eksponent er lig med , men mantissen ikke er nul, er tallet NaN (ikke et tal: ikke et tal) . $2 ^ {e} - 1$

Vi kan sammenfatte det som følger:

Type	Bias-eksponent	Mantissa
Nuller	0	0
Denormaliserede tal	0	forskellig fra 0
Normaliserede tal	$1$ på $2 ^ e-2$	nogen
Uendelig	$2 ^ e-1$	0
NaNs	$2 ^ e-1$	forskellig fra 0

Format med en enkelt præcision (32-bit)

Et flydepunktsnummer med en enkelt præcision er lagret i et 32-bit ord : 1 tegnbit, 8 bit til eksponenten og 23 for mantissen.

Eksponenten er derfor forudindtaget af i dette tilfælde. Eksponenten for et normaliseret tal går derfor fra -126 til +127. Eksponenten -127 (som er forudindtaget i forhold til værdien 0) er reserveret til nul og denormaliserede tal, mens eksponenten 128 (forudindtaget til 255) er reserveret til at kode uendelige og NaN'er (se den foregående tabel). $2 ^ {8-1} - 1 = 127$

Et normaliseret flydende nummer har en værdi v givet ved følgende formel:

v = s × 2 e × m .

s = ± 1 repræsenterer tegnet (afhængigt af tegnbiten);
e er eksponenten før dens bias på 127;
m = 1+ mantissa repræsenterer den signifikante del (i binær), derfor er 1 ≤ m <2 ( mantissa er decimaldelen af den signifikante del, mellem 0 og 1)

For eksempel for 0b 0 01111100 01000000000000000000000: tegnet er positivt, eksponenten er 124 - 127 = −3, og den signifikante del er 0b 1,01 dvs. 1,25 i decimal (1 × 2 0 + 0 × 2 −1 + 1 × 2 - 2 ); antallet repræsenteret er derfor +1,25 × 2 −3 eller +0,155625.

De denormaliserede tal følger det samme princip, bortset fra at e = −126 og m = 0+ mantissa (bemærk: til beregningen vil vi passe på at tage e = −126 og ikke −127, for at garantere kontinuiteten af dette repræsentation med den normaliserede repræsentation, da m = 0+ mantissa og ikke længere m = 1+ mantissa ).

Bemærkninger:

Der er to nuller: +0 og -0 (positivt nul og negativt nul), afhængigt af værdien af tegnbiten;
Der er to uendelighed: + ∞ og −∞, afhængigt af værdien af tegnbiten;
Nuller og denormaliserede tal har en forudindtaget eksponent på -127 + 127 = 0; alle bitene i "eksponent" -feltet er derfor på 0;
NaN'er og uendelige har en forudindtaget eksponent på 128 + 127 = 255; alle bitene i "eksponent" -feltet er derfor på 1;
NaN'er kan have et tegn og en væsentlig del, men disse giver ingen mening som en faktisk værdi (undtagen signalering, som kan aktivere en undtagelse og fejlkorrektion);
Det ikke-nul denormaliserede tal nærmest nul er ± 2 −149 ≈ ± 1.401 298 5 × 10 −45 ;
Det ikke-nul normaliserede tal nærmest nul er ± 2 −126 6 ± 1.175 494 351 × 10 −38 ;
Den normaliserede tal med den største absolutte værdi ± (2-2 -23 ) × 2 127 ≈ ± 3.402 823 5 × 10 38 .

Her er en tabel, der opsummerer den foregående del med eksempler på 32-bit-tal med en præcision.

Type	Udstiller	Mantissa	Omtrentlig værdi	Afvigelse / tidligere
Nul	0000 0000	000 0000 0000 0000 0000 0000	0,0
Mindste denormaliserede antal	0000 0000	000 0000 0000 0000 0000 0001	1,4 × 10 −45	1,4 × 10 −45
Næste denormaliserede nummer	0000 0000	000 0000 0000 0000 0000 0010	2,8 × 10 −45	1,4 × 10 −45
Næste denormaliserede nummer	0000 0000	000 0000 0000 0000 0000 0011	4,2 × 10 −45	1,4 × 10 −45
Andet denormaliserede antal	0000 0000	100 0000 0000 0000 0000 0000	5,9 × 10 −39
Største denormaliserede antal	0000 0000	111 1111 1111 1111 1111 1111	1.175 494 21 × 10 −38
Mindste normaliserede antal	0000 0001	000 0000 0000 0000 0000 0000	1.175 494 35 × 10 −38	1,4 × 10 −45
Næste standardnummer	0000 0001	000 0000 0000 0000 0000 0001	1.175 494 49 × 10 −38	1,4 × 10 −45
Næsten dobbelt	0000 0001	111 1111 1111 1111 1111 1111	2.350 988 56 × 10 −38	1,4 × 10 −45
Næste standardnummer	0000 0010	000 0000 0000 0000 0000 0000	2.350 988 70 × 10 −38	1,4 × 10 −45
Næste standardnummer	0000 0010	000 0000 0000 0000 0000 0001	2.350 988 98 × 10 −38	2,8 × 10 −45
Næsten 1	0111 1110	111 1111 1111 1111 1111 1111	0,999 999 94	0,6 × 10 −7
1	0111 1111	000 0000 0000 0000 0000 0000	1.000.000 00
Næste nummer 1	0111 1111	000 0000 0000 0000 0000 0001	1.000.000 12	1,2 × 10 −7
Næsten det største antal	1111 1110	111 1111 1111 1111 1111 1110	3.402 823 26 × 10 38
Største standardnummer	1111 1110	111 1111 1111 1111 1111 1111	3.402 823 46 × 10 38	2 × 10 31
Uendelig	1111 1111	000 0000 0000 0000 0000 0000	Uendelig
Første (denormaliserede) værdi af advarsel NaN	1111 1111	000 0000 0000 0000 0000 0001	Nix
Normaliseret NaN (alarm)	1111 1111	010 0000 0000 0000 0000 0000	Nix
Sidste (denormaliserede) værdi af advarsel NaN	1111 1111	011 1111 1111 1111 1111 1111	Nix
Første (denormaliserede) værdi af stille NaN	1111 1111	100 0000 0000 0000 0000 0000	Nix
Sidste (denormaliserede) værdi af stille NaN	1111 1111	111 1111 1111 1111 1111 1111	Nix

Bemærkninger:

Den ovenfor viste NaN-mantissafeltværdi er et eksempel på NaN, men er ikke den eneste mulige værdi, der koder for en NaN-værdi. Værdierne for dette felt, der koder for NaN, er alle mulige værdier undtagen nul (som koder for uendelig);
Desuden skal du bemærke forskellen på de fleste maskiner mellem et mantissafelt, der starter med bit 1, der bruges til lydløse NaN'er, og et mantissafelt, der starter med bit 0, hvilket indikerer et NaN med advarsel. På nogle maskiner er der imidlertid foretaget det modsatte (mindre praktiske) valg , såsom dem, der er baseret på PA-RISC .

Kompleks eksempel

Lad os kode decimaltallet −118.625 ved hjælp af IEEE 754-mekanismen.

For det første har vi brug for tegnet, eksponenten og den brøkdel. Det er et negativt tal, så tegnet er "1".
Derefter skriver vi tallet (uden tegnet) i binær . Vi får 1110110.101 (med successive multiplikationer med to for decimaldelen).
Dernæst skifter vi kommaet til venstre, så vi kun efterlader en 1 til venstre: 1110110.101 (bin) = 1.110110101 (bin) × 2 6 . Det er et normaliseret flydende nummer: mantissen er delen til højre for decimaltegnet, fyldt med 0 til højre for at opnå 23 bits. Dette giver 110 1101 0100 0000 0000 0000 (vi udelader 1 før decimaltegnet, hvilket er implicit).
Eksponenten er lig med 6, og vi skal konvertere den til binær og tage højde for bias. For 32-bit IEEE 754-formatet er bias 2 8−1 −1 = 127. Så 6 + 127 = 133 (dec) = 1000 0101 (bin).

Vi har derfor −118.625 (dec) = 1100 0010 1110 1101 0100 0000 0000 0000 (bin) = C2ED4000 (hexa).

Dobbeltpræcisionsformat (64-bit)

Formatet med dobbelt præcision er det samme som enkeltpræcisionen, bortset fra at felterne er større. Faktisk har den 52 mantissabit i stedet for kun 23 og 11 eksponentbiter i stedet for kun 8.

Mantissen er meget bred, mens eksponenten ikke er særlig bred. Dette skyldes, at præcision er ifølge skaberne af standarden vigtigere end amplitude.

NaN'erne og de uendelige er repræsenteret ved at indstille alle eksponentens bits til 1 (2047), men skelnes ved at indstille alle 52 mantissas bits til 0 for de uendelige og mindst en af disse 52 bit til 1 for Nope .

For normaliserede tal er eksponentforstyrrelsen +1023. For denormaliserede tal er eksponenten −1022 (den mindste eksponent for et normaliseret tal). Det er ikke -1023, fordi normaliserede tal har 1 før decimaltegnet, og denormaliserede tal ikke har. Som før underskrives nul og uendelig.

Bemærkninger:

Det mindste positive tal bortset fra nul og det største negative tal bortset fra nul (repræsenteret af en denormaliseret værdi med alle bitene i feltet Eksponent ved 0 og den binære værdi 1 i feltet Brøk) er: ± 2 −1074 ≈ ± 4.940 656 458 412 465 4 × 10 −324
Det mindste normaliserede positive andet end nul og det største normaliserede negative andet end nul (repræsenteret af den binære værdi 1 i feltet Exp og 0 i feltet Brøk er: ± 2 −1022 ≈ ± 2.225 073 858 507 201 4 × 10 −308
Det største endelige positive tal og det mindste endelige negative tal (repræsenteret af værdien 2046 i feltet Eksp og alle 1 bit i brøkfeltet) er: ± (2 1024 - 2 971 ) ≈ ± 1.797 693 134 862 315 7 × 10 308

Sammenlign flydende tal

Det er generelt bedst at sammenligne flydende tal ved hjælp af beregningsinstruktionerne for flydende punkt. Imidlertid gør denne repræsentation sammenligninger af visse undergrupper mulige byte for byte, hvis de har den samme byte rækkefølge og det samme tegn, og NaN'erne er ekskluderet.

For to positive numre a og b for positive positive giver sammenligningen mellem a og b (>, <eller ==) de samme resultater som sammenligningen af to underskrevne (eller usignerede) tal med de samme bits som a og b. Med andre ord kan to positive flydende numre (som ikke er NaN'er) sammenlignes med en underskrevet (eller usigneret) binær sammenligning. På grund af problemet med byteordre kan denne sammenligning ikke bruges i bærbar kode.

Afrund tal med flydende punkt

IEEE-standarden specificerer 5 afrundingstilstande:

Mod minus uendelighed;
Mod mere uendelighed;
Mod nul;
På nært hold (2 varianter):
- når halvvejs til den nærmeste værdi, der har sit mindst mindst signifikante ciffer (standard afrundingstilstand for binære formater);
- når halvvejs, mod længst fra nul (opad i absolut værdi);

Standardrevisioner

I juni 2008, en større revision af IEEE 754 og IEEE 854 standarder er blevet godkendt af IEEE. Se: IEEE 754-2008 (en) .

Denne revision bringer nye base 2 og base 10 formater og specificerer repræsentationen af base 10 formater (ud over base 2).

Det normaliserer også en samlet ordrerelation for hver af de normaliserede numeriske datatyper, supplerer de sædvanlige ordrerelationer, som kun er delvise; faktisk er den normale rækkefølge kun total under forudsætning af at fjerne fra værdisættet, den negative nulværdi (normalt sammenlignet med lig med den positive nulværdi) og alle NaN-værdier (som hverken er ens, hverken overlegne eller ringere end andre, ikke engang dem selv).

På den anden side efterlader denne revision fleksibiliteten ved repræsentation og mulig skelnen mellem NaN-værdierne (placeringen og værdien af advarselsbit (erne) i mantissafeltet er ikke standardiseret, og brugen af de andre bits af mantissafeltet eller tegnet på en NaN-værdi for at kode en fejl forbliver afhængig af arkitekturen eller applikationerne).

En ny revision blev godkendt i juli 2019.

Bibliografi

IEEE, standard IEEE-754
David Goldberg, hvad enhver computerforsker burde vide om flydepunktsaritmetik , ACM Computing Surveys, vol. 23, n o 1,Marts 1991.

Noter og referencer

(i) " Open Group Base Specifications Issue 6 " .
(in) IEEE-standard for flydende aritmetik (ANSI / IEEE Std 754-2008) , ( ISBN 978-0-7381-5753-5 ) .
(in) " Re: (lang) sNaNs ikke hvad de kunne være ... " 15. oktober 2010.
(en) Revision af ANSI / IEEE Std 754-1985; 754R-udkast godkendt som IEEE-standard på www.validlab.com
(en) Revision af ANSI / IEEE Std 754-1985; 754R-udkast godkendt som IEEE-standard på 754r.ucbtest.org

eksterne links

Deterministisk aritmetik på tværs af platforme med flydende punkt : Masser af information om de forskellige implementeringer af IEEE 754 på forskellige platforme
(da) Binær konverter : Interaktiv binær konverter med enkelt og dobbelt præcision i henhold til IEEE 754-standarden
Liste over artikler på siden Standard Revision Group .

Relaterede artikler

Intel 8087 , første Intel 1980 matematik-coprocessorer og første implementering (derefter strengt kun standard for en enkelt præcisionstype).
Flydende punkt , den hyppigst anvendte repræsentation af tal på en computer.
NaN , “Ikke et tal”, på fransk “ikke et tal”; især resultat af en ugyldig aritmetisk operation.
IEEE 754-1985 (en) , standard til gengivelse af flydende tal i binær.
IEEE 754-2008 (en) , større revision af IEEE 754-1985-standarden og IEEE 754r-arbejdsgruppen.
Nul logget ind .
Videnskabelig notation