Indice de Calinski-Harabasz

L'indice de Calinski-Harabasz est une mesure de qualité d'une partition d'un ensemble de données en classification automatique

C'est le rapport entre la variance inter-groupes et la variance intra-groupe.

Il se rapproche beaucoup du critère utilisé pour stopper certains algorithmes de partitionnement, comme les K-means. De tels algorithmes vont donc maximiser ce score, par construction.

Une alternative à l'indice de Calinski-Harabasz est l'indice de Dunn ou encore l'indice de Davies-Bouldin.

Expression

modifier

Position du problème

modifier

Si l'on note   la matrice des données, dont chaque ligne correspond à un individu (ou observation) et chaque colonne correspond à un prédicteur (ou variable). On note   le nombre d'individus et   le nombre de prédicteurs :

 

Notons   la dissimilarité entre les individus   et   (respectivement, ligne   et  de  ). Notons   le nombre de groupes que l'on souhaite former.

Un algorithme de partitionnement donnera une fonction d'attribution   dont on cherche à évaluer la pertinence par un score. L'ensemble des points appartenant à un groupe   est alors donné par  .

Expression de l'indice de Calinski-Harabasz

modifier

Notons   le point moyen du groupe   et   le point moyen de tout le nuage. L'indice (ou score) de Calinski-Harabasz,  , se base sur la variance inter-groupes   et les variances intra-groupes  .

Il aura pour expression[1] :

 


Propriétés

modifier

Domaine de variation

modifier

L'indice de Calinski-Harabasz varie entre 0 (pire classification) et   (meilleure classification). Il dépend fortement de   (le nombre de points dans l'échantillon). Toutes choses égales par ailleurs, il croit linéairement avec  . Par conséquent, son ordre de grandeur peut varier considérablement d'un jeu de données à l'autre.

Complexité

modifier


Notes et références

modifier
  1. (en) « Clustering Indices », sur cran.r-project.org (consulté le )

Voir aussi

modifier