Règle 68-95-99,7

technique d'estimation de la normalité d'une valeur

En statistique, la règle 68-95-99,7 (ou règle des trois sigmas[réf. nécessaire] ou règle empirique[réf. nécessaire]) indique, pour une loi normale, la proportion des valeurs se trouvant dans des intervalles centrés autour de la moyenne. Plus précisément, 68 %, 95 % et 99,7 % des valeurs se situent respectivement à moins d'un, de deux et de trois écarts types de la moyenne.

Illustration de la règle 68-95-99.7 (à partir d'une expérience réelle, ce qui explique l'asymétrie par rapport à la loi normale).

En notation mathématique, ces faits peuvent être exprimés comme suit. On note la mesure de probabilité, X une variable aléatoire qui suit une loi normale, μ est la moyenne de la distribution, et σ est son écart-type :


La règle des trois sigmas exprime une heuristique fréquemment utilisée : la plupart des valeurs se situent à moins de trois fois l'écart-type de la moyenne. Pour de nombreuses applications pratiques, ce pourcentage de 99,7 % peut être considéré comme une quasi-certitude. L'usage de cette heuristique dépend cependant du domaine : ainsi en sciences sociales, un résultat est considéré comme significatif si son intervalle de confiance est au moins de 95 %, soit de l'ordre de deux sigmas, alors qu'en physique des particules, le seuil de significativité se situe autour de cinq sigmas (soit un intervalle de confiance à 99,999 94 %).

Il existe des règles similaires à celles des trois sigmas pour d'autres distributions que la loi normale. En effet, l'inégalité de Bienaymé-Tchebychev permet d'affirmer que pour toute variable aléatoire, au moins 88,8 % des réalisations se situent dans un intervalle de trois sigmas.

Ces valeurs numériques (68 %, 95 % et 99,7 %) proviennent de la fonction de répartition de la loi normale.

Test de normalité

modifier

La règle 68-95-99,7 est souvent utilisée comme approximation de la probabilité d'un phénomène à partir de l'écart-type, sous l’hypothèse que la variable aléatoire sous-jacente suit une loi normale. On peut également l'utiliser pour éliminer des données aberrantes (sous l’hypothèse de normalité) ou inversement comme test de normalité si l'on suspecte que la variable aléatoire ne suit pas la loi normale.

Pour une réalisation donnée, on calcule la différence par rapport à l'espérance si elle est connue, ou bien par rapport à une estimation de celle-ci, puis on divise par l'écart-type (ou un de ses estimateurs). Sur un échantillon, on peut ainsi calculer la distance de chaque valeur par rapport à la moyenne en nombre de sigmas. Les valeurs éloignées de plus de trois sigmas sont vraisemblablement aberrantes (sauf si l'échantillon est suffisamment grand pour que les chances d'obtenir de telles valeurs deviennent significatives ). À l'inverse, un grand nombre de valeurs éloignées de plus de trois sigmas laissent à penser que la distribution des valeurs ne suit pas une loi normale.

Par exemple, une réalisation à six sigmas de la moyenne correspond à environ une chance sur 500 millions. En d'autres termes, sur un événement à fréquence journalière, on s'attend en moyenne à une telle réalisation tous les 1,4 million d'années. En conséquence, si l'on constate une telle valeur en moins d'un million d'années, soit cette valeur est aberrante, soit la distribution sous-jacente n'est pas une distribution normale.

Valeurs numériques

modifier

Étant donné la décroissance exponentielle des queues de la distribution normale, les chances des déviations élevées décroissent très rapidement. Ces valeurs sont données pour une distribution normale, avec les fréquences moyennes des événements hors intervalle données pour un événement aléatoire à réalisation journalière.

Intervalle Proportion de la population dans l'intervalle Probabilité approximative d'apparition d'un événement hors de l'intervalle Fréquence approximative pour une réalisation journalière
μ ± 0,5 σ 0,382924922548026 2 sur 3 Environ quatre fois par semaine
μ ± σ 0,682689492137086 1 sur 3 Deux fois par semaine
μ ± 1,5 σ 0,866385597462284 1 sur 7 Une fois par semaine
μ ± 2 σ 0,954499736103642 1 sur 22 Une fois toutes les trois semaines
μ ± 2,5 σ 0,987580669348448 1 sur 81 Une fois par trimestre
μ ± 3 σ 0,997300203936740 1 sur 370 Une fois par an
μ ± 3,5 σ 0,999534741841929 1 sur 2149 Une fois tous les six ans
μ ± 4 σ 0,999936657516334 1 sur 15 787 Une fois tous les 43 ans (une à deux occurrences dans une vie)
μ ± 4,5 σ 0,999993204653751 1 sur 147 160 Une fois tous les 403 ans (une occurrence durant l'époque moderne)
μ ± 5 σ 0,999999426696856 1 sur 1 744 278 Une fois tous les 4776 ans (une occurrence depuis l'invention de l'écriture)
μ ± 5,5 σ 0,999999962020875 1 sur 26 330 254 Une fois tous les 72 090 ans (quatre occurrences depuis l'apparition d'Homo sapiens)
μ ± 6 σ 0,999999998026825 1 sur 506 797 346 Une fois tous les 1,38 million d'années (deux occurrences depuis Lucy)
μ ± 6,5 σ 0,999999999919680 1 sur 12 450 197 393 Une fois tous les 34 millions d'années (deux occurrences depuis la disparition des dinosaures)
μ ± 7 σ 0,999999999997440 1 sur 390 682 215 445 Une fois tous les 1,07 milliard d'années (quatre occurrences depuis la formation du Système solaire)
μ ±   σ   1 sur   Une fois tous les   jours

Références

modifier