Distance en variation totale (probabilités)

distance statistique

En mathématiques et plus particulièrement en théorie des probabilités et en statistique, la distance en variation totale (ou distance de variation totale ou encore distance de la variation totale) désigne une distance statistique définie sur l'ensemble des mesures de probabilité d'un espace probabilisable.

Définition

modifier

Soit   deux mesures de probabilité sur un espace probabilisable  . La distance en variation totale entre   et   est la quantité

 .

Il arrive que le facteur 2 n'apparaisse pas chez certains auteurs.[réf. nécessaire]

Soit   et   deux variables aléatoires à valeurs dans le même espace. On peut aussi définir la distance en variation totale entre   et   comme la distance en variation totale entre la loi de   et celle de  . Autrement dit, on pose

 .

Propriétés

modifier

Propriétés basiques

modifier
  • La distance en variation totale entre deux mesures de probabilité est une distance dont la valeur est toujours incluse dans [0,2].
  • La distance en variation totale entre deux mesures de probabilité vaut 2 si et seulement si les supports des deux mesures sont disjoints.

Définitions équivalentes

modifier

On trouve parfois d'autres définitions pour la distance en variation totale.

  • La formule suivante donne une définition équivalente à la première[1]
 
où le supremum est pris sur l'ensemble des fonctions mesurables à valeurs dans [-1,1].
De cette formule, on déduit la chose suivante. Si   et   sont absolument continues par rapport à une mesure commune sigma-finie   et si on note   et   leurs dérivées de Radon-Nikodym respectives par rapport à  , alors
 .
En d'autres termes, la distance en variation totale entre   et   correspond à la distance entre   et   pour la norme  .
  • Lorsque   est dénombrable la formule suivante donne aussi une définition équivalente[2]
 .

Couplage

modifier

Pour tout couple de variables aléatoires   tel que   suit la loi   et   suit la loi  , on a l'inégalité

 .

De plus, il existe un couple   tel que   et   qui satisfait[3]

 .

Autrement dit, on a la caractérisation suivante de la distance en variation totale

 .

Si   est une famille de mesures de probabilité toutes absolument continues par rapport à une mesure commune  -finie, alors il existe des variables aléatoires   telles que pour tout  ,   et pour tout  [4]

 .

Lien avec la norme en variation totale d'une mesure signée

modifier

Pour une mesure signée   sur   on définit sa norme en variation totale comme

 

  est la décomposition de Jordan de la mesure  .

De manière générale si   alors[5]

 .

En appliquant ce résultat à   on obtient que

 .

Lien avec d'autres distances

modifier
 .
 .

Convergence en variation totale

modifier

La convergence d'une suite de mesures pour la distance en variation totale implique la convergence faible (et les limites sont les mêmes le cas échéant). De manière équivalente, si une suite de variables aléatoires converge pour la distance en variation totale, alors elle converge en loi (et les limites sont les mêmes)[8].

Notes et références

modifier
  1. (en) « Two notions of total variation norms », sur math.stackexchange.com, .
  2. (en) Djalil Chafaï, « Back to basics – Total variation distance », sur djalil.chafai.net, .
  3. (en) T Lindvall, Lectures on the coupling method, Courier Corporation, (lire en ligne), Théorème 5.2
  4. (en) O Angel et Y Spinka, « Pairwise optimal coupling of multiple random variables », .
  5. (en) « Properties of the total variation norm on space of totally finite measure (from Bogachev) », sur mathoverflow.net, .
  6. (en) Imre Csiszár et János Körner, Information Theory: Coding Theorems for Discrete Memoryless Systems, Cambridge University Press, (ISBN 9781139499989, lire en ligne), p. 44
  7. (en) Prahladh Harsha, « Lecture notes on communication complexity »(Archive.orgWikiwixArchive.isGoogleQue faire ?), .
  8. (en) « convergence in total variation implies convergence in distribution », sur math.stackexchange.com, .

Voir aussi

modifier