Théorème de Bernstein-von Mises

Le théorème de Bernstein-von Mises établit un lien important entre l'inférence bayésienne et la statistique fréquentiste (la statistique classique). Dans les modèles paramétriques, la distribution a posteriori se concentre asymptotiquement autour du paramètre à estimer en général indépendamment de la distribution a priori sous un nombre suffisamment grand d'observations (consistance de l'estimateur bayésien).

La version centrée et remise à l'échelle de la distribution a posteriori est, d'après le théorème de Bernstein-von Mises, asymptotique à une loi normale dont la matrice de covariance est l'inverse de l'information de Fisher du modèle (efficacité asymptotique de l'estimateur bayésien). Ainsi les approches fréquentistes et de Bayes aboutissent dans les modèles paramétriques à des résultats qualitativement similaires.

De plus la distribution a posteriori pour les quantités inconnues d'un problème est effectivement indépendante de la distribution a priori, dès que la quantité d'informations obtenues par l'échantillon est suffisamment grande^[1].

Historique

Le théorème est nommé d'après Richard von Mises et Sergueï Natanovitch Bernstein, bien que la première démonstration rigoureuse par Joseph Leo Doob en 1949 ait été donnée pour les variables aléatoires avec des espaces de probabilité finie^[2]. Plus tard, Lucien Le Cam, son étudiante en thèse Lorraine Schwartz, ainsi que les mathématiciens David A. Freedman et Persi Diaconis étendirent la preuve à des hypothèses plus générales.

Intuition

L'application du théorème et l'approche typique de l'inférence bayésienne peuvent être illustrées par un exemple simple : on observe une variable aléatoire $Y$ et sa réalisation sur la base d'un ensemble de données mesurées $y=\{y_{1},\cdots ,y_{n}\}$ . Ces données devraient être décrites par un modèle stochastique avec des paramètres inconnus $\theta$ , qui peuvent également être des vecteurs. Avant que les données ne soient recueillies, leurs valeurs, tout comme celles des paramètres sont inconnues et un modèle stochastique commun pour $(Y,\theta )$ a du sens. Dans cette interprétation (bayésienne), même le paramètre $\theta$ est une variable aléatoire avec une distribution a priori $p(\theta )$ . Celle-ci est évidemment encore inconnue avant les données de mesure réelles, et on doit faire une hypothèse a priori "raisonnable" à leur sujet. Après avoir observé les données, on met à jour l'opinion que l'on se fait des paramètres. Toutes les informations disponibles à propos de $\theta$ sont décrites par le biais de la distribution a posteriori $p(\theta |y)$ . Elle est donnée par le théorème de Bayes :

p(\theta |y)={\frac {p(y|\theta )\;p(\theta )}{p(y)}},

dans laquelle le terme $p(y|\theta )$ représente la vraisemblance décrivant la distribution d'un paramètre donné $Y$ sachant $\theta$ . On espère alors que la distribution a posteriori $p(\theta |y)$ nous fournisse une conclusion meilleure et plus précise sur $\theta$ que la distribution a priori (fixée au départ) naïve $p(\theta )$ . Cette dernière étape est communément appelée apprentissage bayésien et est une étape essentielle dans l'apprentissage dans les réseaux de neurones. Prenons maintenant cette dernière distribution a posteriori $p(\theta |y)$ comme nouvelle distribution a priori, prenons un nouvel échantillon et répétons la procédure ci-dessus : nous récupérons une nouvelle distribution a posteriori mise à jour par une autre étape d'apprentissage bayésien. Celle-ci inclut maintenant des informations à partir de deux ensembles de données et devrait donc nous livrer une conclusion encore meilleure et plus précise sur $\theta$ .

Le théorème de Bernstein-von Mises nous permet d'affirmer que l'application répétée de cet apprentissage bayésien nous rapproche avec succès de la distribution réelle de $\theta$ . La convergence de ce processus vers la distribution réelle de $\theta$ est presque sûre sous certaines conditions et ne dépend pas de la distribution a priori choisie.

Un énoncé du théorème

Hypothèses

Soit $(P_{\theta })_{\theta \in \Theta }$ un modèle statistique paramétrique et dominé : pour tout $\theta \in \Theta ,P_{\theta }=p_{\theta }\mu$ , avec $\mu$ une mesure sur $\mathbb {R} ^{d}$ ; $\Theta \subseteq \mathbb {R} ^{k}$ . On note $\theta _{0}$ le vrai paramètre inconnu que l'on cherche à estimer. On suppose que $p_{\theta _{0}}$ est différentiable en moyenne quadratique, c'est-à-dire qu'on suppose l'existence d'un vecteur de $k$ fonctions $l_{\theta _{0}}$ (appelé score en $\theta _{0}$ ) tel que, quand $h\to 0$ ^[3] ^{[source insuffisante]} :

\int ({\sqrt {p_{\theta _{0}+h}}}-{\sqrt {p_{\theta _{0}}}}-{\frac {1}{2}}h^{T}l_{\theta _{0}}{\sqrt {p_{\theta _{0}}}})^{2}d\mu =o(||h||^{2})

.

Le score est centré et admet une variance notée $I_{\theta _{0}}$ , l'information de Fisher. On va supposer que la matrice $I_{\theta _{0}}$ est inversible.

Puisqu'on est dans un cadre bayésien, on suppose que $\theta$ suit une loi a priori à densité que l'on notera $\pi$ et que l'on supposera continue et strictement positive en $\theta _{0}$ . Enfin, on suppose que pour tout $\varepsilon >0$ , il existe une suite de tests $\phi _{n}$ telle que $\displaystyle \lim _{n\to \infty }\mathbb {E} _{\theta _{0}}[\phi _{n}]=0$ et $\displaystyle \lim _{n\to \infty }\sup _{\theta ;||\theta -\theta _{0}||\geq \varepsilon }\mathbb {E} _{\theta }[1-\phi _{n}]=0$

Conclusion

Alors, sous les hypothèses précédentes, la loi a posteriori de ${\sqrt {n}}(\theta -\theta _{0})$ (sachant les observations $(X_{1},\cdots ,X_{n})$ ) est "asymptotiquement proche" en probabilité d'une loi normale de variance l'inverse de l'information de Fisher. On peut écrire cela mathématiquement ainsi, en notant $||.||_{VT}$ la norme en variation totale :

||{\mathcal {L}}({\sqrt {n}}(\theta -\theta _{0})|X_{1},\cdots ,X_{n})-{\mathcal {N}}(\Delta _{n}(\theta _{0}),I_{\theta _{0}}^{-1})||_{VT}=o_{P_{\theta _{0}}}(1)

où $\Delta _{n}(\theta _{0})=I_{\theta _{0}}^{-1}{\frac {1}{\sqrt {n}}}\sum _{i=1}^{n}l_{\theta _{0}}(X_{i})$ .

Remarques

L'hypothèse sur l'existence de tests appropriés n'est pas très contraignante, on peut par exemple aller voir le livre de Van der Vaart page 145^[1]
La norme en variation totale est invariante par translation et par changement d'échelle.
Ce théorème implique qu'asymptotiquement, ensemble de crédibilité et région de confiance construites à partir d'estimateurs sous de bonnes hypothèses coïncident en probabilité.

Limites

Un résultat remarquable a été trouvé par Freedman en 1965 : le théorème de Bernstein-von Mises n'est presque sûrement plus vérifié si la variable aléatoire a un espace de probabilité infini dénombrable; mais c'est en s'autorisant une très large gamme de priors possibles. Dans la pratique, les priors utilisés généralement dans la recherche ont la propriété souhaitée, même avec un espace de probabilité infini dénombrable.

Aussi, il est important d'établir une distinction entre le mode a posteriori et les autres aspects de la loi a posteriori, comme sa moyenne. Sous les exemples de Freedman, la densité a posteriori (y compris sa moyenne, par exemple) peut converger vers le mauvais résultat, mais il est à noter que le mode a posteriori est consistant et converge vers ce que l'on attend.

Citations

Le statisticien A.W.F. Edwards (en) faisait la remarque suivante :

« It is sometimes said, in defence of the Bayesian concept, that the choice of prior distribution is unimportant in practice, because it hardly influences the posterior distribution at all when there are moderate amounts of data. The less said about this 'defence' the better. »

— A.W.F. Edwards, Likelihood^[4]

« On dit parfois, dans la défense du concept bayésien, que le choix de la distribution a priori est sans importance dans la pratique, car elle influence à peine la distribution a posteriori quand il y a des quantités modérées de données. Moins on en dit sur cette «défense» et mieux c'est. »

Cette critique ne concerne pas le mode a posteriori.

Notes et références

↑ ^{a et b} (en) Aad Van der Vaart, "10.2 Bernstein–von Mises Theorem", Asymptotic Statistics. Cambridge University Press, 1998, 443 p. (ISBN 0-521-49603-9)
↑ (en) Joseph L. Doob, "Application of the theory of martingales", Colloq. Intern. du C.N.R.S(Paris), 1949, 13:23-27
↑ « Elisabeth Gassiat, Statistiques Asymptotiques-Note de cours-M2 »
↑ (en) Anthony William Fairbank Edwards, Likelihood, Baltimore: Johns Hopkins University Press, 1992, 296 p. (ISBN 0-8018-4443-6)

(de)/(en) Cet article est partiellement ou en totalité issu des articles intitulés en allemand « Satz von Bernstein-von-Mises » (voir la liste des auteurs) et en anglais « Bernstein–von Mises theorem » (voir la liste des auteurs).

Portail des probabilités et de la statistique

[:0-1] {a et b} (en) Aad Van der Vaart, "10.2 Bernstein–von Mises Theorem", Asymptotic Statistics. Cambridge University Press, 1998, 443 p. (ISBN 0-521-49603-9)

[2] (en) Joseph L. Doob, "Application of the theory of martingales", Colloq. Intern. du C.N.R.S(Paris), 1949, 13:23-27

[3] « Elisabeth Gassiat, Statistiques Asymptotiques-Note de cours-M2 »

[4] (en) Anthony William Fairbank Edwards, Likelihood, Baltimore: Johns Hopkins University Press, 1992, 296 p. (ISBN 0-8018-4443-6)

[1]

[2]

[3]

[4]