Lemme de symétrisation

Le lemme de symétrisation (ou lemme de symétrisation de Vapnik-Tchervonenkis) est un résultat en théorie de probabilités proposée par Vladimir Vapnik et Alexeï Tchervonenkis. Au lieu de comparer la mesure empirique avec la mesure théorique (qui est souvent non connue) ce lemme permet de comparer cette mesure avec une copie indépendante d'elle-même.

Énoncé

modifier

Il existe différents énoncés de ce lemme : Pollard utilise la version de la symétrisation avec des processus stochastiques[1] mais il existe des versions faisant intervenir l'erreur de généralisation d'un échantillon[2]. Soit   des processus stochastiques indépendants indexés par un ensemble  . Supposons qu'il existe des constantes   tel que

 

Alors,

 

En particulier en posant

  •    est la mesure empirique et   la loi des variables aléatoires   indépendantes et identiquement distribuées sur laquelle la mesure empirique est basée, i.e.
     
    et   avec   la fonction de répartition de Y ;
  •    est la mesure empirique basée sur une copie des variables précédentes ;
  •  ,

on obtient que

 

Démonstration

modifier

On note   un élément de   pour lequel   (i.e.  ). Puisqu'il dépend de   est indépendant de   et donc conditionnellement à   il agit comme un élément de   fixé :

 

En intégrant :

 

Références

modifier
  1. (en) David Pollard, Convergence of stochastic processes, Springer Series in Statistics, p. 14
  2. Massih-Reza Amini, Apprentissage machine de la théorie à la pratique, Eyrolles, p. 16-17