Loi de Bernoulli

distribution discrète de probabilité

En mathématiques et plus précisément en théorie des probabilités, la loi de Bernoulli, du nom du mathématicien suisse Jacques Bernoulli, désigne la loi de probabilité d'une variable aléatoire discrète qui prend la valeur 1 avec la probabilité p et 0 avec la probabilité q = 1 – p.

Loi de Bernoulli
Image illustrative de l’article Loi de Bernoulli
Fonction de masse
Image illustrative de l’article Loi de Bernoulli
Fonction de répartition

Paramètres
Support
Fonction de masse
Fonction de répartition
Espérance
Médiane
Mode
Variance
Asymétrie
Kurtosis normalisé
Entropie
Fonction génératrice des moments
Fonction caractéristique
Fonction génératrice des probabilités

Exemple

modifier
 

Par exemple, dans pile ou face, le lancer d'une pièce de monnaie bien équilibrée tombe sur pile avec une probabilité 1/2 et sur face avec une probabilité 1/2. Une pièce peut ne pas être équilibrée et dans ce cas, on obtient pile avec une probabilité p ≠ 1/2 et face avec une probabilité q = 1 – p ≠ 1/2. En désignant pile par 1 et face par 0, on obtient une distribution de Bernoulli.

De manière générale, la loi de Bernoulli est la loi de la variable aléatoire qui code le résultat d'une épreuve qui n'admet que deux issues (épreuve de Bernoulli) : 1 pour « succès », 0 pour « échec », ou quel que soit le nom qu'on donne aux deux issues d'une telle expérience aléatoire.

Définition

modifier

Une variable aléatoire suivant la loi de Bernoulli est appelée variable de Bernoulli. Plus formellement, une variable aléatoire X suit la loi de Bernoulli de probabilité p si

 

ou, de manière équivalente,

 

Propriétés

modifier

L'espérance mathématique d'une variable aléatoire de Bernoulli vaut p et la variance vaut p(1 – p).

Le kurtosis tend vers l'infini pour des valeurs hautes et basses de p, mais pour p = 1/2 la distribution de Bernoulli a un kurtosis plus bas que toute autre distribution, c’est-à-dire 1.

Plus généralement, toute application mesurable à valeur dans {0,1} est une variable de Bernoulli. Autrement dit, toute fonction indicatrice d'un évènement suit une loi de Bernoulli.

Réciproquement, pour toute variable de Bernoulli X définie sur (Ω, A, P), on peut trouver un ensemble mesurable B tel que X et la fonction indicatrice de B soient presque sûrement égales : toute variable de Bernoulli est presque sûrement égale à une fonction indicatrice.

Distributions liées

modifier

Si X1, X2, … , Xn sont des variables aléatoires de Bernoulli de paramètre p, indépendantes et identiquement distribuées, alors leur somme N est une variable aléatoire, qui suit la loi binomiale :

 

En particulier, une variable aléatoire de Bernoulli de paramètre p suit une loi binomiale  

La loi de probabilité de   est :

 


Son espérance est :

 

Sa variance est :

 

Soit X1, n, X2, n, … , Xan, n un tableau de variables aléatoires de Bernoulli indépendantes, avec paramètres respectifs pk, n. On note

 


Inégalité de Le Cam[1] — Pour tout ensemble A d'entiers naturels,

 

En particulier, si les deux conditions suivantes sont réunies :

  •  
  •  

alors Sn converge en loi vers la loi de Poisson de paramètre λ.

Les deux conditions ci-dessus entrainent que

  •  
  •  

Conséquence : paradigme de Poisson —  La somme Sn d'un grand nombre de variables de Bernoulli indépendantes de petit paramètre suit approximativement la loi de Poisson de paramètre  

La loi de Poisson intervient souvent lorsqu'on compte des événements rares comme les suicides d'enfants, les arrivées de bateaux dans un port ou les accidents dus aux coups de pied de cheval dans les armées (étude de Ladislaus Bortkiewicz). Le décompte des événements rares se fait souvent au travers d'une somme de variables de Bernoulli, et la rareté des événements se traduit par le fait que les paramètres de ces variables de Bernoulli sont petits (ainsi, la probabilité que chaque événement survienne est faible).

Remarques :
  • Un cas particulier célèbre du paradigme de Poisson est la convergence de la loi binomiale de paramètres n et λ/n vers la loi de Poisson de paramètre λ, qui correspond, dans l'inégalité de Le Cam, aux choix an = n, pk,n = λ/n, λn = λ.
  • Ce paradigme reste pertinent, dans certaines conditions, si l'on relaxe l'hypothèse d'indépendance[2].
  • Le cas particulier an = n, pk,n = λ/n, λn = λ de l'inégalité de Le Cam précise la rapidité de convergence de la loi binomiale de paramètres n et λ/n vers la loi de Poisson de paramètre λ : l'inégalité de Le Cam fournit alors une majoration de l'erreur par λ2/n.

Applications au comptage

modifier

Écrire une variable aléatoire N, comptant un nombre d'événements dans une situation donnée, comme la somme d'une famille de variables de Bernoulli, permet souvent de calculer simplement l'espérance de N, comme étant la somme des paramètres de ces variables de Bernoulli :

 

On utilise le fait que, pour une variable de Bernoulli, le paramètre p est à la fois l'espérance et la probabilité de la valeur 1 :

 

Cette méthode simplifie aussi le calcul de la variance de N, dans certains cas :

 

et, lorsque I est ordonné, grâce à la propriété de symétrie de la covariance,

 

On trouvera ci-dessous quelques exemples, parmi les plus représentatifs, de cette méthode de comptage très répandue.

Sondage

modifier

On compte là, par exemple, le nombre N de réponses « oui » dans un échantillon de population, lors d'un sondage, afin d'en déduire la proportion de « oui ». On effectue une série de n tirages au hasard dans une population. On pose la même question à chacun des n individus tirés au hasard. Le but est d'estimer la proportion p d'individus de la population totale qui auraient répondu « oui » (si on leur avait posé la question) à l'aide du nombre N d'individus qui ont effectivement répondu « oui » parmi les n individus interrogés. On remarque que N peut s'écrire

 

X1 , X2 , ..., Xn sont définies par

 

i.e. Xk vaut 1 ou 0 selon que la réponse du k-ième individu est « oui » ou « non ». Étant une fonction indicatrice, Xk est donc une variable de Bernoulli. Son paramètre est « la probabilité de répondre « oui » », à savoir la proportion de « oui » dans la population totale, c'est-à-dire p. On a donc

 

D'où l'idée, proposée par Bernoulli dans son ouvrage fondateur Ars Conjectandi, d'estimer cette proportion p a priori inconnue à l'aide de la proportion N/n de « oui » dans l'échantillon, qui est, elle, connue. Dans le but de déterminer la précision de cette estimation, Bernoulli a proposé dans le même ouvrage les premières inégalités de concentration (pour la loi binomiale)[3]. Une approche plus simple (mais produisant des inégalités de concentration plus grossières) que celle de Bernoulli, serait de calculer la variance de N, dans l'idée d'appliquer l'inégalité de Bienaymé-Tchebychev. À ce stade, il est nécessaire de préciser

  • si les tirages ont eu lieu avec remise (i.e. il est possible que la même personne soit interrogée plusieurs fois), ce qui implique l'indépendance des Xk, et donne
 
Dans le cas « avec remise », N suit la loi binomiale.
  • si les tirages ont eu lieu sans remise (i.e. en évitant d'interroger 2 fois la même personne), auquel cas les Xk ne sont pas indépendants. Alors
 
En ce cas N suit la loi hypergéométrique, et les calculs requièrent de connaître la taille totale de la population, qu'on notera T dans la suite. On a
 
En effet la variable Z = XiXj vaut 0 ou 1, et est donc une variable de Bernoulli. Pour i < j, on a alors
 
puis, à l'aide des propriétés de la variance,
 

Dans les deux cas considérés ci-dessus, la loi de N est connue explicitement. Cependant, le calcul de l'espérance de N utilisant la décomposition de N en somme de variables de Bernoulli, présenté ci-dessus, est plus simple que le calcul de l'espérance de N utilisant le théorème de transfert :

 

La même remarque vaut pour le calcul de la variance.

On compte là le nombre N d'éléments inférieurs au nombre réel x dans un échantillon de nombres aléatoires, afin d'en déduire la proportion de tels nombres, qui est appelée fonction de répartition empirique. En statistiques, la fonction de répartition empirique associée à un n-échantillon est la fonction de répartition de la loi de probabilité qui attribue la probabilité 1/n à chacun des n nombres de cet échantillon.

Soit   un échantillon de variables i.i.d. à valeurs dans   ayant pour fonction de répartition commune F(x) : la fonction de répartition empirique   associée à l'échantillon   est une fonction en escalier définie par

 

Pour un x fixé, la variable   est une variable de Bernoulli, de paramètre p = F(x). Par conséquent, la variable   est distribuée selon une loi binomiale, avec pour moyenne nF(x) et pour variance nF(x)(1 − F(x)).

Pour divers sens du mot « convergence », la fonction de répartition empirique converge vers la fonction de répartition F des   lorsque la taille de l'échantillon augmente[4]. Par exemple, en vertu du calcul de la variance de Fn (x), on a, pour tout x réel,

 

ce qui démontre la convergence de Fn (x) vers F(x), dans L2 .

Le temps de séjour (ou nombre de passages) d'une chaîne de Markov   en un état   est une variable aléatoire   à valeurs dans  , définie par

 

L'état   est dit transitoire ou récurrent, suivant que   vaut 0 ou 1, ou encore suivant que le temps de séjour moyen en i, partant de i,  , est fini ou infini. Comme   est une somme (infinie) de variables de Bernoulli, discuter ce dernier point revient à discuter la convergence de la série

 ,

  est le paramètre de la variable de Bernoulli concernée, i.e.

 ,

lequel paramètre   étant par ailleurs un terme diagonal de la puissance k-ième de la matrice de transition de la chaîne de Markov considérée.

Problèmes d'allocation : boîtes et boules

modifier

On compte ici le nombre N de boîtes vides, dans une expérience aléatoire faisant intervenir boîtes et boules, avec de nombreuses interprétations. On jette m boules au hasard dans n boîtes, expérience probabiliste dont un événement élémentaire ω est une application de   dans   : ω(k) est le numéro de la boîte dans laquelle est rangée la boule numéro k. Ainsi les ω(k) sont des variables aléatoires indépendantes et uniformes sur A. L'application N, qui à une distribution ω de m boules dans n boîtes associe le nombre N(ω) de boîtes vides à la fin de cette distribution ω, peut être vue comme une somme de variables aléatoires de Bernoulli : en effet,

 

X1, X2,…, Xn sont définies par

 

i.e. Xk vaut 1 ou 0 selon que la k-ième boîte est vide ou pas à la fin de la distribution ω. Étant une fonction indicatrice d'événement, Xk est donc une variable de Bernoulli. Son paramètre est « la probabilité d'être vide », i.e. la probabilité que chacune des m boules ait évité la boîte no k. Chacune des m boules ayant une probabilité 1/n de tomber dans la boîte n°k, et les allocations des m boules étant indépendantes, on obtient

 

puis

 

Grâce à cette décomposition en somme de variables de Bernoulli, on peut obtenir une inégalité de concentration précise pour N, en appliquant l'inégalité d'Azuma[5]. Cette inégalité de concentration permet de justifier une méthode statistique de comptage approximatif[6] basée sur la statistique N, et pouvant servir, par exemple, à déceler une attaque de virus informatique.

Remarque : La loi de probabilité de N s'exprime explicitement en termes des nombres de Stirling de seconde espèce, mais les expressions obtenues sont peu propices au calcul numérique, d'où la nécessité d'une approximation via l'inégalité d'Azuma.

Points fixes d'une permutation tirée au hasard

modifier

On jette n boules numérotées au hasard dans n boites numérotées, chacune de ces boites contenant au plus une boule, expérience probabiliste dont un événement élémentaire   est une permutation des éléments de   :   est, là encore, le numéro de la boite dans laquelle est rangée la boule numéro k. On suppose que les différentes distributions (permutations) possibles sont équiprobables. L'application N, qui à une distribution   de n boules dans n boites associe le nombre   de boules portant le même numéro que la boite dans laquelle elles sont rangées à la fin de cette distribution   peut être vue comme une somme de variables de Bernoulli : en effet,

 ,

X1, X2, … , Xn sont définies par

 ,

c.-à-d. Xk vaut 1 ou 0 selon que la k-ième boite contient la k-ième boule ou pas. Étant une fonction indicatrice d'événement, Xk est donc une variable de Bernoulli. Son paramètre est 1/n. On obtient que

 .

En suivant une démarche analogue à celle suivie pour un sondage (cas sans remise), on trouve que

 .

Le principe d'inclusion-exclusion permet de calculer exactement la loi de N, et de constater que cette loi converge, lorsque n tend vers l'infini, vers la loi de Poisson de paramètre 1 (qui, incidemment, a 1 pour espérance, et a aussi 1 pour variance). Cet exemple est représentatif : en général, la loi de Poisson de paramètre   est une bonne approximation de la loi de la somme N d'un grand nombre de variables de Bernoulli de petit paramètre et peu corrélées[2]. Là encore, un avantage de l'écriture de N comme somme de variables de Bernoulli est de permettre un calcul de l'espérance et de la variance de N plus rapide qu'à partir de l'expression explicite de la loi de N.

Nombre d'occurrences d'un mot dans un texte (paradoxe du singe dactylographe)

modifier

On considère un texte ω = ω1ω2ω3ωm constitué de m caractères d'imprimerie, notés ωi, 1 ≤ i ≤ m, lesquels caractères d'imprimerie sont tous tirés au hasard, avec remise, d'un sac contenant exactement une fois chaque caractère d'imprimerie. On note   l'ensemble des caractères d'imprimerie, n le cardinal de   Soit une suite a = a1a2a3ar de caractères de   par exemple un mot, comme Wikipédia (r = 9 dans ce cas particulier). L'application N, qui à un texte ω associe le nombre N(ω) d'occurrences de la suite a dans le texte ω peut être vue comme une somme de variables de Bernoulli : en effet,

 

X1, X2, … , Xm–r+1 sont définies par

 

i.e. Xk vaut 1 ou 0 suivant que la suite a apparaît dans le texte ω, juste après le (k – 1)-ième caractère de ce texte ω, ou pas. Étant une fonction indicatrice d'événement, Xk est donc une variable de Bernoulli. Son paramètre est

 

Ainsi

 

L'intuition est alors qu'il faut un texte ω de longueur au moins m = nr pour que l'événement   (autrement dit l'événement « le mot a apparaît au moins une fois dans le texte ω ») devienne probable. En effet, l'inégalité de Markov entraîne que

 

Le paradoxe du singe dactylographe, popularisé par Émile Borel[7], exploite les propriétés de N lorsque la longueur r de la séquence de caractères a est très grande. Dans l'exemple donné par Émile Borel, la séquence a est un texte classique de la littérature française, par exemple le texte intégral de La Comédie humaine. La même démarche conduit le même Émile Borel à démontrer le théorème du nombre normal.

L'analyse statistique des suites de caractères tirés au hasard indépendamment, ou tirés au hasard suivant des modèles plus sophistiqués, a de nombreuses applications, comme l'analyse des performances de différentes méthodes de compression de données, ou encore l'étude du génome, et est à l'origine de la formalisation, par Andreï Markov, de la notion de chaîne de Markov.

Nombre de records et nombre de cycles des permutations

modifier

Définition — Dans une suite u = (uk)1≤k≤n, il y a record vers le bas (resp. vers le haut) au rang k si uk est strictement plus petit (resp. strictement plus grand) que chaque terme ui tel que i < k, c'est-à-dire strictement plus petit (resp. strictement plus grand) que chacun des termes qui le précèdent.

Exemple. Les records vers le bas de la suite ω ci-dessous sont en gras et soulignés :

 

Soit B(k) (resp. H(k)) l'événement « il y a record vers le bas (resp. vers le haut) au rang k ». Autrement dit, B(k) est l'ensemble des permutations ω de   pour lesquelles la suite (ω(1), ω(2), ω(3), ..., ω(n)) présente un record vers le bas au rang k. Ainsi le nombre Nb(ω) (resp. Nh(ω)) de records vers le bas (resp. vers le haut) de la permutation ω s'écrit comme une somme de variables de Bernoulli :

 

En vertu des propriétés statistiques du code de Lehmer, ces variables de Bernoulli ont pour paramètres respectifs 1/k :

 

Ainsi

 

Hn désigne le n-ième nombre harmonique. Comme, toujours en vertu des propriétés statistiques du code de Lehmer, les variables de Bernoulli concernées sont indépendantes[8], on a également

 

Hn(2) est le nombre harmonique défini par

 

et converge vers ζ(2), i.e. vers π2/6.

La correspondance fondamentale de Foata permet de montrer que les deux applications suivantes :

  • le nombre Nb(ω) de records d'une permutation ω tirée au hasard,
  • le nombre C(ω) de cycles de la décomposition d'une permutation ω tirée au hasard,

sont deux variables aléatoires ayant même loi de probabilité. Cette loi de probabilité s'exprime en termes des nombres de Stirling de première espèce, notés   :

 

ce qui donne une formule exacte, mais peu explicite, pour   formule exacte dont il est alors difficile de déduire un calcul effectif de la probabilité en question.

En revanche, l'écriture de Nb comme somme de variables de Bernoulli permet d'appliquer à Nb le théorème central limite. Ainsi, on constate que le nombre de cycles d'une permutation tirée au hasard, comme son nombre de records, sont très concentrés autour leur espérance, qui vaut approximativement ln n. Plus précisément :

 

pour a = 3,3.

Coût moyen de l'algorithme de tri rapide

modifier

L'algorithme de tri rapide, également appelé Quicksort, est un des algorithmes les plus utilisés pour ranger, dans l'ordre croissant, une liste désordonnée x = (x1, x2, x3, … , xn) de n articles, à l'aide d'un petit nombre de comparaisons deux à deux. En effet, Quicksort est réputé à la fois simple et efficace. Quicksort se déroule de la manière suivante :

  • on compare x1 avec chacun des éléments de la liste (x2, x3, … , xn), ce qui permet de constituer 2 sous-listes, la liste des ω1 – 1 éléments plus petits (resp. des n – ω1 éléments plus grands) que x1. Cela fournit le rang ω1 que x1 occupera dans la liste une fois que celle-ci sera bien rangée.
  • on compare x2 avec chacun des éléments de sa sous-liste, ce qui permet de trouver le rang de x2 dans cette sous-liste, et finalement le rang ω2 que x2 occupera dans la liste complète une fois que celle-ci sera bien rangée. Par ailleurs cela scinde une des deux sous-listes constituées à l'étape précédente en deux, constituant ainsi 3 sous-listes, dont certaines, éventuellement, peuvent être vides (si x1 ou x2 sont des éléments extrémaux de leur (sous-)liste).
  • on compare x3, etc.

Une mise en œuvre concrète de cet algorithme abstrait est décrite par Donald Knuth dans The Art of Computer Programming[9].

La performance de Quicksort, dans le pire des cas (pire des cas qui correspond à une liste déjà bien rangée, dans l'ordre croissant ou décroissant), est de l'ordre de n2 comparaisons deux à deux. Pour cette raison, une liste constituée de concaténations de listes bien rangées (configuration fréquente en pratique) coûtera cher à ranger, en nombre de comparaisons effectuées. Le remède souvent adopté pour pallier cette faiblesse de Quicksort est de désordonner artificiellement la liste avant de la traiter : on note ω = (ω(1), ω(2), ω(3), … , ω(n)) les rangs respectifs des éléments (x1, x2, x3, … , xn) de la liste désordonnée au préalable, une fois que ces éléments sont rangés en une liste croissante (y1 < y2 < y3 < … < yn), de sorte que xi = yω(i). On suppose donc que la liste a été prétraitée de sorte que ω soit une permutation tirée au hasard avec équiprobabilité parmi les n! permutations possibles. On note N(ω) le nombre de comparaisons effectuées par l'algorithme. Alors

 

A(i,j) est l'événement « yi et yj sont comparés une fois au cours de l'algorithme ». En découle une analyse élémentaire du coût moyen de Quicksort, plus simple que la méthode classique utilisant une formule de récurrence et un calcul de fonction génératrice.

Proposition — On a[10]

 

et

 

Ainsi la randomisation de la liste fournie en entrée permet de diminuer le coût de l'algorithme, de n2 à 2n ln(n). Une analyse plus poussée permet de démontrer que N est très concentré autour de sa moyenne 2n ln(n). Plus précisément, la variance de N est asymptotiquement (7 – (2π2/3)) n2, d'où on déduit que l'écart-type de N est de l'ordre de n, c'est-à-dire négligeable devant l'espérance de N. Notons que le coût (coût moyen ou coût dans le pire des cas) de n'importe quel algorithme de tri utilisant des comparaisons 2 à 2 est minoré par ln(n!)/ln(2) qui, d'après la formule de Stirling, vaut approximativement 1,4n ln(n).

Notes et références

modifier
  1. (en) L. Le Cam, « An Approximation Theorem for the Poisson Binomial Distribution », Pacific Journal of Mathematics, vol. 10, no 4,‎ , p. 1181-1197 (lire en ligne, consulté le )
  2. a et b (en) A. D. Barbour, L. Holst et S. Janson, Poisson approximation, Oxford, The Clarendon Press Oxford University Press, coll. « Oxford Studies in Probability », , 277 p. (ISBN 0-19-852235-5).
  3. (en) Stephen M. Stigler, The History of Statistics : The Measurement of Uncertainty before 1900, Harvard, Belknap Press of Harvard University Press, , 1re éd., 432 p. (ISBN 978-0-674-40341-3, lire en ligne), chap. 2 (« Probabilists and the measurement of uncertainty »), p. 65-70.
  4. voir (en) Galen R. Shorack et Jon A. Wellner, Empirical Processes With Applications to Statistics, Society for Industrial & Applied Mathematics, , 998 p. (ISBN 978-0-89871-684-9, lire en ligne), ou bien encore le Théorème de Glivenko-Cantelli.
  5. (en) Rajeev Motwani et Prabhakar Raghavan, Randomized Algorithms, Cambridge, New York et Melbourne, Cambridge University Press, (réimpr. 1997, 2000), 1re éd., 476 p. (ISBN 978-0-521-47465-8, lire en ligne), chap. 4 (« Tail inequalities »), p. 94-95, Théorème 4.18.
  6. Cette méthode a été proposée par (en) Kyu-Young Whang et Ravi Krishnamurthy, « Query optimization in a memory-resident domain relational calculus database system », ACM Transactions on Database Systems (TODS), New York, NY, USA, ACM, vol. 15, no 1,‎ , p. 67-95 (ISSN 0362-5915, lire en ligne).
  7. Voir Émile Borel, « Mécanique Statistique et Irréversibilité », J. Phys. 5e série, vol. 3,‎ , p. 189-196.
  8. (en) Donald E. Knuth, The Art of Computer Programming, vol. 3 : Sorting and Searching, , 2e éd. [détail de l’édition], p. 13.
  9. Knuth 1998, chap. 5.2.2 (« Sorting by Exchanging »).
  10. (en) Michael Mitzenmacher et Eli Upfal, Probability and Computing : Randomized Algorithms and Probabilistic Analysis, Cambridge, Cambridge University Press, , 1re éd., 368 p. (ISBN 978-0-521-83540-4, lire en ligne), chap. 2 (« Discrete Random Variables and Expectation, Section 2.5 »), p. 34-37.

Voir aussi

modifier

Articles connexes

modifier

Lien externe

modifier

(en) Eric W. Weisstein, « Bernoulli Distribution », sur MathWorld