Détection de zones d'intérêt

En vision par ordinateur et en traitement d'images, la détection de zones d'intérêt d'une image numérique (feature detection en anglais) consiste à mettre en évidence des zones de cette image jugées « intéressantes » pour l'analyse, c'est-à-dire présentant des propriétés locales remarquables. De telles zones peuvent apparaître, selon la méthode utilisée, sous la forme de points, de courbes continues, ou encore de régions connexes rectangulaires ou non et qui constituent le résultat de la détection.

Terminologie

modifier

Nous utilisons la locution zone d'intérêt pour traduire dans ce contexte précis le terme feature omniprésent dans la littérature anglo-saxonne, mais qui n'a pas de réelle définition standard. La définition dépend plutôt de la famille de problèmes que l'on cherche à traiter. Comme expliqué plus haut, une zone d'intérêt est une zone « intéressante » d'une image, et peut être utilisée comme point de départ de nombreux algorithmes de traitement d'images. De ce fait, la qualité de l'algorithme utilisé pour détecter les zones d'intérêt conditionne souvent la qualité du résultat de la chaîne de traitement entière que l'on souhaite appliquer à une image. Aussi, la répétabilité, c'est-à-dire le fait que les mêmes zones d'intérêt (ou à peu près) puissent être détectées sur deux images (numériquement) différentes mais représentant la même scène, est une propriété importante et généralement exigée pour tous les algorithmes de détection de zones d'intérêt.

Après la détection, on applique souvent un algorithme de description qui va se concentrer sur chaque zone d'intérêt détectée pour en calculer des caractéristiques (numériques, en général), que les anglo-saxons désignent aussi sous le terme générique de features. Voir extraction de caractéristiques.

Typologie

modifier

Selon la méthode de détection utilisée, les zones peuvent être de différentes natures.

Contours

modifier

Les premières méthodes proposées historiquement se fondent sur l'analyse des contours et des arêtes, c'est-à-dire des zones où la luminance (ou la couleur) de l'image change brusquement – en d'autres termes, comporte une discontinuité. On peut utiliser pour cela les opérateurs de Canny ou de Sobel, par exemple. Ces détecteurs sont fondés sur une dérivation de l'image (au sens mathématique), c'est-à-dire sur le gradient de l'image vue comme une fonction de deux variables réelles, à valeurs dans   pour les images en niveaux de gris ou dans   pour les images en couleurs. Les points de discontinuité connexes trouvés peuvent être reliés entre eux pour former des arêtes (edges), linéaires ou non, par des post-traitements appropriés.

Voir aussi : détection de contours.

Points d'intérêt

modifier

Les algorithmes de détection de points d'intérêt se focalisent en général sur des points particuliers des contours, sélectionnés selon un critère précis.

 
Un exemple de détecteur de points d'intérêt : le détecteur de Harris.

Ainsi, les coins (corners) sont les points de l'image où le contour (de dimension 1) change brutalement de direction, comme aux quatre sommets d'un rectangle. Il s'agit de points particulièrement stables, et donc intéressants pour la répétabilité (voir plus haut). La méthode la plus répandue pour le détecter est probablement le détecteur de Harris (illustration ci-contre).

Comme celle de Harris, la plupart des autres techniques de détection de points d'intérêt sont fondées sur une analyse locale de l'image à l'ordre 2. Ce qui les différencie entre elles est l'opérateur de dérivation utilisé. Nous pouvons par exemple citer les méthodes fondées sur l'analyse des DoG (Difference of Gaussians), des LoG (Laplacian of Gaussian) ou des DoH (Difference of Hessians).

Régions d'intérêt

modifier

Il s'agit de zones d'intérêt plus générales que les points, utiles lorsque les structures recherchées dans une image ne correspondent pas à des points saillants ; par exemple, lorsque l'image a subi un lissage important ou lorsque les contours sont épais et progressifs.

Souvent, ces techniques commencent par identifier des points d'intérêt qui vont se révéler être des sortes de barycentres des régions recherchées (blobs en anglais), telles que les méthodes multi-échelles fondées sur l'étude des détecteurs de points d'intérêt cités précédemment (Harris, DoG, etc), à différentes échelles de l'image. Ceci permet d'obtenir des régions soit circulaires soit elliptiques, selon le niveau de raffinement voulu. Ces méthodes sont souvent intégrées à des algorithmes plus généraux tels que SIFT ou SURF, qui incluent un descripteur de région d'intérêt en plus d'un détecteur (voir plus bas).

Parmi les détecteurs de régions d'intérêt plus généraux existe également MSER (Maximally Stable Extremal Régions).

Plus spécifiquement enfin, la recherche d'objets particulièrement allongés fait souvent appel à des techniques dites de détection de crêtes (ridge detection) qui se prête bien à l'analyse de vues aériennes de réseaux routiers, ou à la détection de vaisseaux sanguins dans l'imagerie médicale par exemple.

Extraction de caractéristiques

modifier

On applique parfois, après la détection, un algorithme d' extraction de caractéristiques à une image. Cela consiste à calculer sur chaque zone détectée ce que l'on appelle un vecteur caractéristique, qui d'une certaine façon « résumera » le contenu de la zone en question, sous un point de vue particulier. Parmi les méthodes populaires on peut citer les dérivées partielles d'ordre N (N-jets) ou les histogrammes locaux (histogrammes de couleur, ou d'orientation des contours par exemple). D'autres algorithmes tels que SIFT comprennent à la fois une phase de détection et une phase d'extraction.

Le vecteur caractéristique contient parfois des données issues directement de la détection, telles que l'orientation de l'arête ou la magnitude du gradient au point d'intérêt.

Les vecteurs caractéristiques constituent une façon de décrire numériquement le contenu d'une image. De ce fait, ils sont souvent utilisés par des algorithmes plus globaux tels que la comparaison d'images ou la recherche d'images par le contenu.

Références

modifier