IEEE 754

standard IEEE sur l'arithmétique à virgule flottante
(Redirigé depuis Somme (algorithmique))

En informatique, l’IEEE 754 est une norme sur l'arithmétique à virgule flottante mise au point par le Institute of Electrical and Electronics Engineers. Elle est la norme la plus employée actuellement pour le calcul des nombres à virgule flottante avec les CPU et les FPU. La norme définit les formats de représentation des nombres à virgule flottante (signe, mantisse, exposant, nombres dénormalisés) et valeurs spéciales (infinis et NaN), en même temps qu’un ensemble d’opérations sur les nombres flottants. Il décrit aussi cinq modes d'arrondi et cinq exceptions (comprenant les conditions dans lesquelles une exception se produit, et ce qui se passe dans ce cas).

Histoire

modifier

La version d'origine de la norme IEEE 754, datant de 1985, définissait quatre formats pour représenter des nombres à virgule flottante en base 2 :

  • simple précision (32 bits : 1 bit de signe, 8 bits d'exposant (−126 à 127), 24 bits de mantisse, dont un bit 1 implicite) ;
  • simple précision étendue (≥ 43 bits, obsolète, mis en œuvre en pratique par la double précision) ;
  • double précision (64 bits : 1 bit de signe, 11 bits d'exposant (−1022 à 1023), 53 bits de mantisse, dont un bit 1 implicite) ;
  • double précision étendue (≥ 79 bits, souvent mis en œuvre avec 80 bits : 1 bit de signe, 15 bits d'exposant (−16382 à 16383), 64 bits de mantisse, sans bit 1 implicite).

Par exemple, dans le langage C, le compilateur gcc pour les architectures compatibles Intel 32 bits utilise le format simple précision pour les variables de type float, double précision pour les variables de type double, et la double précision ou la double précision étendue (suivant le système d'exploitation) pour les variables de type long double. Cependant, si l'extension SSE2 n'est pas utilisée, tous les calculs sont arrondis à la même précision, suivant la configuration de la précision dynamique du processeur (en général, double précision ou double précision étendue, suivant le système d'exploitation, les options de compilation, et les changements effectués par les programmes).

Le titre complet de la norme était IEEE Standard for Binary Floating-Point Arithmetic (ANSI/IEEE Std 754-1985) (norme IEEE pour l'arithmétique binaire en virgule flottante). Elle est aussi connue sous le nom IEC 60559:1989, Binary floating-point arithmetic for microprocessor systems[1], ce qui en fait aussi une norme (américaine), approuvée depuis comme référence normative dans plusieurs normes internationales de l’ISO.

Cependant cette norme a été étendue par une révision majeure en 2008 à d‘autres formats de base (binaire sur 128 bits et décimaux sur 64 et 128 bits) ainsi que des formats d'échange (ajoutant des formats soit moins précis, soit plus précis) et des formats étendus (généralisation de la norme de 1985, avec plus de liberté sur la précision et l'encodage qu'avec les formats d'échange)[2] ; cette révision inclut également des modes d'arrondis supplémentaires et des exigences de conformité plus poussées concernant la précision attendue des opérations et calculs de fonctions transcendantes de base. Cette norme a également été révisée en 2019.

Format d'un nombre en virgule flottante

modifier

Conventions utilisées dans l'article

modifier

Dans un mot de longueur W, les bits sont indexés de 0 à W−1, inclus. Le bit 0 est placé à droite, il représente le bit de poids faible (c’est-à-dire le bit des unités, qui provoque la plus petite variation quand il est modifié).

Format général

modifier

Un nombre flottant est formé de trois éléments : la mantisse, l'exposant et le signe. Le bit de poids fort est le bit de signe : si ce bit est à 1, le nombre est négatif, et s’il est à 0, le nombre est positif. Les e bits suivants représentent l'exposant biaisé (sauf valeur spéciale), et les m bits suivants (m bits de poids faible) représentent la mantisse.

 
Format général de représentation des flottants
Signe Exposant biaisé Mantisse
(1 bit) (e bits) (m bits)

Biais de l'exposant

modifier

L'exposant peut être positif ou négatif. Cependant, la représentation habituelle des nombres signés (complément à 2) rendrait la comparaison entre les nombres flottants un peu plus difficile. Pour régler ce problème, l'exposant est « biaisé », afin de le stocker sous forme d'un nombre non signé.

Ce biais est de 2e−1 − 1 (e représente le nombre de bits de l'exposant) ; il s'agit donc d'une valeur constante une fois que le nombre de bits e est fixé.

L'interprétation d'un nombre (autre qu'infini) est donc : valeur = signe × mantisse × 2(exposantbiais) avec

  • signe = ±1
  • biais = 2e−1−1

Exceptions

modifier

Le bit de poids fort de la mantisse est déterminé par la valeur de l'exposant biaisé. Si l'exposant biaisé est différent de 0 et de  , le bit de poids fort de la mantisse est 1, et le nombre est dit « normalisé ». Si l'exposant biaisé est nul, le bit de poids fort de la mantisse est nul, et le nombre est dénormalisé.

Il y a trois cas particuliers :

  • si l'exposant biaisé et la mantisse sont tous deux nuls, le nombre est ±0 (selon le bit de signe)
  • si l'exposant biaisé est égal à  , et si la mantisse est nulle, le nombre est ±infini (selon le bit de signe)
  • si l'exposant biaisé est égal à  , mais que la mantisse n'est pas nulle, le nombre est NaN (not a number : pas un nombre).

Nous pouvons le résumer ainsi :

Type Exposant biaisé Mantisse
Zéros 0 0
Nombres dénormalisés 0 différente de 0
Nombres normalisés   à   quelconque
Infinis   0
NaNs   différente de 0

Format simple précision (32 bits)

modifier
 
Format de représentation des flottants en simple précision

Un nombre flottant simple précision est stocké dans un mot de 32 bits : 1 bit de signe, 8 bits pour l'exposant et 23 pour la mantisse.

L'exposant est donc biaisé de   dans ce cas. L'exposant d'un nombre normalisé va donc de -126 à +127. L'exposant -127 (qui est biaisé vers la valeur 0) est réservé pour zéro et les nombres dénormalisés, tandis que l'exposant 128 (biaisé vers 255) est réservé pour coder les infinis et les NaN (voir le tableau précédent).

Un nombre flottant normalisé a une valeur v donnée par la formule suivante :

v = s × 2e × m.
  • s = ±1 représente le signe (selon le bit de signe) ;
  • e est l'exposant avant son biais de 127 ;
  • m = 1+mantisse représente la partie significative (en binaire), d'où 1 ≤ m < 2 (mantisse étant la partie décimale de la partie significative, comprise entre 0 et 1)

Par exemple pour 0b 0 01111100 01000000000000000000000 : le signe est positif, l'exposant est 124 − 127 = −3, et la partie significative est 0b 1,01 soit 1,25 en décimal (1 × 20 + 0× 2−1 + 1 × 2−2) ; le nombre représenté est donc +1,25 × 2−3 soit +0,15625.

Les nombres dénormalisés suivent le même principe, sauf que e = −126 et m = 0+mantisse (attention : pour le calcul, on veillera à prendre e = −126 et non −127, ceci afin de garantir la continuité de cette représentation avec la représentation normalisée, puisque m = 0+mantisse et non plus m = 1+mantisse).

Remarques :

  • Il y a deux zéros : +0 et −0 (zéro positif et zéro négatif), selon la valeur du bit de signe ;
  • Il y a deux infinis : +∞ et −∞, selon la valeur du bit de signe ;
  • Les zéros et les nombres dénormalisés ont un exposant biaisé de -127 + 127 = 0 ; tous les bits du champ « exposant » sont donc à 0 ;
  • Les NaNs et les infinis ont un exposant biaisé de 128+127=255 ; tous les bits du champ « exposant » sont donc à 1 ;
  • Les NaNs peuvent avoir un signe et une partie significative mais ceux-ci n'ont aucun sens en tant que valeur réelle (sauf pour la signalisation, qui peut activer une exception, et la correction d'erreurs) ;
  • Le nombre dénormalisé non nul le plus proche de zéro est ± 2−149 ≈ ±1,401 298 5 × 10−45 ;
  • Le nombre normalisé non nul le plus proche de zéro est ± 2−126 ≈ ±1,175 494 351 × 10−38 ;
  • Le nombre normalisé dont la valeur absolue est la plus grande est ± (2−2−23) × 2127 ≈ ± 3,402 823 5 × 1038.

Voici un tableau résumant la partie précédente, avec des exemples de nombres 32 bits simple précision.

Type Exposant Mantisse Valeur approchée Écart / préc
Zéro 0000 0000 000 0000 0000 0000 0000 0000 0,0
Plus petit nombre dénormalisé 0000 0000 000 0000 0000 0000 0000 0001 1,4 × 10−45 1,4 × 10−45
Nombre dénormalisé suivant 0000 0000 000 0000 0000 0000 0000 0010 2,8 × 10−45 1,4 × 10−45
Nombre dénormalisé suivant 0000 0000 000 0000 0000 0000 0000 0011 4,2 × 10−45 1,4 × 10−45
Autre nombre dénormalisé 0000 0000 100 0000 0000 0000 0000 0000 5,9 × 10−39
Plus grand nombre dénormalisé 0000 0000 111 1111 1111 1111 1111 1111 1,175 494 21 × 10−38
Plus petit nombre normalisé 0000 0001 000 0000 0000 0000 0000 0000 1,175 494 35 × 10−38 1,4 × 10−45
Nombre normalisé suivant 0000 0001 000 0000 0000 0000 0000 0001 1,175 494 49 × 10−38 1,4 × 10−45
Presque le double 0000 0001 111 1111 1111 1111 1111 1111 2,350 988 56 × 10−38 1,4 × 10−45
Nombre normalisé suivant 0000 0010 000 0000 0000 0000 0000 0000 2,350 988 70 × 10−38 1,4 × 10−45
Nombre normalisé suivant 0000 0010 000 0000 0000 0000 0000 0001 2,350 988 98 × 10−38 2,8 × 10−45
Presque 1 0111 1110 111 1111 1111 1111 1111 1111 0,999 999 94 0,6 × 10−7 =2−24
1 0111 1111 000 0000 0000 0000 0000 0000 1,000 000 00
Nombre suivant 1 0111 1111 000 0000 0000 0000 0000 0001 1,000 000 12 1,2 × 10−7 =2−23
Presque le plus grand nombre 1111 1110 111 1111 1111 1111 1111 1110 3,402 823 26 × 1038
Plus grand nombre normalisé 1111 1110 111 1111 1111 1111 1111 1111 3,402 823 46 × 1038 2 × 1031
Infini 1111 1111 000 0000 0000 0000 0000 0000 Infini
Première valeur (dénormalisée) de NaN avertisseur 1111 1111 000 0000 0000 0000 0000 0001 NaN
NaN normalisé (avertisseur) 1111 1111 010 0000 0000 0000 0000 0000 NaN
Dernière valeur (dénormalisée) de NaN avertisseur 1111 1111 011 1111 1111 1111 1111 1111 NaN
Première valeur (dénormalisée) de NaN silencieux 1111 1111 100 0000 0000 0000 0000 0000 NaN
Dernière valeur (dénormalisée) de NaN silencieux 1111 1111 111 1111 1111 1111 1111 1111 NaN

Notes :

  • La valeur du champ mantisse de NaN présentée ci-dessus est un exemple de NaN, mais n'est pas la seule valeur possible pour coder une valeur NaN. Les valeurs de ce champ codant NaN sont toutes les valeurs possibles, sauf zero (qui code l'infini) ;
  • De plus, il est à noter la différence, sur la plupart des machines, entre un champ mantisse commençant par le bit 1, utilisé pour les NaN silencieux, et un champ mantisse commençant par le bit 0, indiquant un NaN avec avertissement. Sur certaines machines cependant, comme celles à base de PA-RISC, le choix inverse (moins pratique) a été fait[3].

Exemple complexe

modifier

Codons le nombre décimal −118,625 en utilisant le mécanisme IEEE 754.

  1. Premièrement, nous avons besoin du signe, de l'exposant et de la partie fractionnaire. C'est un nombre négatif, le signe est donc « 1 ».
  2. Puis nous écrivons le nombre (sans le signe) en binaire. Nous obtenons 1110110,101 (avec multiplications par deux successives pour la partie décimale).
  3. Ensuite, nous décalons la virgule vers la gauche, de façon à ne laisser qu'un 1 sur sa gauche : 1110110,101 (bin) = 1,110110101 (bin) × 26. C'est un nombre flottant normalisé : la mantisse est la partie à droite de la virgule, complétée de 0 vers la droite pour obtenir 23 bits. Cela donne 110 1101 0100 0000 0000 0000 (on omet le 1 avant la virgule, qui est implicite).
  4. L'exposant est égal à 6, et nous devons le convertir en binaire et tenir compte du biais. Pour le format 32-bit IEEE 754, le biais est 28−1−1 = 127. Donc 6 + 127 = 133 (dec) = 1000 0101 (bin).

On a donc −118,625 (dec) = 1100 0010 1110 1101 0100 0000 0000 0000 (bin) = C2ED4000 (hexa).


Format double précision (64 bits)

modifier
 
Format de représentation des flottants en double précision

Le format double précision est similaire au simple précision, mis à part le fait que les champs sont plus grands. En effet, il possède 52 bits de mantisse au lieu de seulement 23, et 11 bits d'exposant au lieu de seulement 8.

La mantisse est très élargie, alors que l'exposant est peu élargi. Ceci est dû au fait que, selon les créateurs de la norme, la précision est plus importante que l'amplitude.

Les NaN et les infinis sont représentés en mettant tous les bits de l'exposant à 1 (2047), mais distingués en mettant la totalité des 52 bits de la mantisse à 0 pour les infinis et au moins un de ces 52 bits à 1 pour les NaN.

Pour les nombres normalisés, le biais de l'exposant est +1023. Pour les nombres dénormalisés, l'exposant est −1022 (l'exposant minimum pour un nombre normalisé). Ce n'est pas −1023 car les nombres normalisés ont un 1 avant la virgule, et les nombres dénormalisés n'en ont pas. Comme précédemment, zéro et l'infini sont signés.

Remarques :

  • Le plus petit nombre positif différent de zéro, et le plus grand nombre négatif différent de zéro (représentés par une valeur dénormalisée avec tous les bits du champ Exposant à 0 et la valeur binaire 1 dans le champ Mantisse) sont :
    ±2−1074 ≈ ±4,940 656 458 412 465 4 × 10−324
  • Le plus petit nombre positif normalisé différent de zéro, et le plus grand nombre négatif normalisé différent de zéro (représentés par la valeur binaire 1 dans le champ Exposant, et 0 dans le champ Mantisse) sont :
    ±2−1022 ≈ ±2,225 073 858 507 201 4 × 10−308
  • Le plus grand nombre positif fini, et le plus petit nombre négatif fini (représenté par la valeur 2046 dans le champ Exposant et tous les bits à 1 dans le champ Mantisse) sont :
    ±(21024 − 2971) ≈ ±1,797 693 134 862 315 7 × 10308

Comparer des nombres flottants

modifier

Il est généralement préférable de comparer des nombres flottants en utilisant les instructions de calcul flottant. Cependant, cette représentation rend les comparaisons de certains sous-ensembles possible octet par octet, s’ils ont le même ordre d'octets et le même signe, et que les NaNs sont exclus.

Par exemple, pour deux nombres flottants positifs a et b, la comparaison entre a et b (>, <, ou ==) donne les mêmes résultats que la comparaison de deux nombres signés (ou non signés) avec les mêmes bits que a et b. En d'autres mots, deux nombres flottants positifs (qui ne sont pas des NaN) peuvent être comparés avec une comparaison binaire signée (ou non signée). Cependant selon les processeurs et à cause de leur convention d'ordre des octets, les comparaisons (> ou <) ne doivent pas être utilisées dans du code portable.

Arrondir les nombres flottants

modifier

La norme IEEE spécifie 5 modes d'arrondi :

  • Vers moins l'infini ;
  • Vers plus l'infini ;
  • Vers zéro ;
  • Au plus près (2 variantes) :
    • lorsqu'à mi-chemin, vers la valeur la plus proche ayant son chiffre de poids faible pair (mode d'arrondi par défaut pour les formats binaires) ;
    • lorsqu'à mi-chemin, vers le plus loin de zéro (vers le haut en valeur absolue) ;

Révisions de la norme

modifier

En , une révision majeure des normes IEEE 754 et IEEE 854 a été approuvée par l'IEEE. Voir : IEEE 754-2008 (en)[4],[5].

Cette révision apporte de nouveaux formats en base 2 et en base 10, et spécifie la représentation des formats en base 10 (en plus de la base 2). Plus précisément, elle définit cinq formats de base qui sont nommés d'après leur base (binaire ou décimale) et le nombre total de bits utilisés dans leur codage. Il y a trois formats de base binaires en virgule flottante (codés sur 32, 64 ou 128 bits) et deux formats de base décimaux en virgule flottante (codés sur 64 ou 128 bits). Les formats binary32 et binary64 sont les formats simple et double précision de la norme IEEE 754-1985. Elle définit également des formats d'échange, qui généralisent ces formats de base. Pour les formats binaires, la convention sur le bit de poids fort est nécessaire. Le tableau ci-dessous résume les caractéristiques des formats de base et des plus petits formats d'échange.

Nom Nom usuel Base Nb. chiffres de la mantisse[note 1] Nb. chiffres décimaux[note 2] Nb. bits exposant log10 MAX Exposant biaisé[6] E min E max Type
binary16 Demi-précision 2 11 3.31 5 4.816 24−1 = 15 −14 +15 Échange
binary32 Simple précision 2 24 7.22 8 38.532 27−1 = 127 −126 +127 Binaire basique
binary64 Double précision 2 53 15.95 11 308.255 210−1 = 1023 −1022 +1023 Binaire basique
binary128 (en) Quadruple précision 2 113 34.02 15 4932.075 214−1 = 16383 −16382 +16383 Binaire basique
binary256 (en) Octuple précision 2 237 71.34 19 78913.207 218−1 = 262143 −262142 +262143 Échange
decimal32 (en) 10 7 7 7.58 97.000 101 −95 +96 Échange
decimal64 (en) 10 16 16 9.58 385.000 398 −383 +384 Décimal basique
decimal128 (en) 10 34 34 13.58 6145.000 6176 −6143 +6144 Décimal basique

Elle normalise également une relation d’ordre total pour chacun des types de données numériques normalisés, en complétant les relations d’ordre habituelles qui ne sont que partielles ; en effet la relation d'ordre normale n’est totale qu'à condition de supprimer de l’ensemble de valeurs, la valeur zéro négative (normalement comparée comme égale à la valeur zéro positive) et toutes les valeurs NaN (qui ne sont ni égales, ni supérieures, ni inférieures à aucune autre, pas même elles-mêmes).

En revanche, cette révision laisse la flexibilité de représentation et de distinction éventuelle des valeurs NaN (la position et la valeur du ou des bits d’avertissement dans le champ mantisse ne sont pas normalisées, et l’utilisation des autres bits du champ mantisse ou de signe d’une valeur NaN pour codifier une erreur reste dépendante de l’architecture ou des applications).

Une nouvelle révision a été approuvée en .

Bibliographie

modifier

Notes et références

modifier

Références

modifier
  1. Nombre de chiffres dans la base utilisé, incluant tout chiffre implicite, mais sans compter le bit de signe.
  2. Nombre correspondant de chiffres décimaux, nombre équivalent dans le cas des nombres binaires et nombre de chiffres de la mantisse dans le cas des nombres décimaux.

Voir aussi

modifier

Liens externes

modifier

Articles connexes

modifier