Okapi BM25

méthode de pondération utilisée en recherche d'information basée sur le modèle probabiliste de pertinence

Okapi BM25 est une méthode de pondération utilisée en recherche d'information. Elle est une application du modèle probabiliste de pertinence, proposé en 1976 par Robertson et Jones[1].

La méthode est plus simplement dénommée BM25, le terme « Okapi » faisant référence au nom du système de recherche de l'université de Londres où il a été implémenté initialement.

Fonction d'ordonnancement

modifier

BM25 est un modèle de sac de mots qui ordonne les documents en fonction de la fréquence des termes qui apparaissent dans chaque document, indépendamment des relations pouvant exister entre ces termes ou de leurs proximités relatives au sein du document. Il existe toute une famille de fonctions attribuant un score à chaque document pour une requête donnée. L'une des formes les plus connues de cette famille de fonctions est la suivante. Pour une requête Q, contenant les mots  , le score BM25 d'un document D est:

 

  est la fréquence du terme   dans le document D,   est la longueur du document D en nombre de mots, et avgdl est la longueur moyenne des documents dans la collection considérée.   et b sont des paramètres libres pouvant être optimisés selon les cas d'usage mais qui, en l'absence de toute optimisation sont usuellement fixés à   et  [2].   est la fréquence inverse de document pondérant le terme   de la requête. En général, cela est calculé par:

 

N est le nombre de documents dans la collection et   est le nombre de documents contenant  .

Voir aussi

modifier

Références

modifier
  1. (en) Stephen E. Robertson et Karen Spärck Jones, « Relevance weighting of search terms », Journal of the American Society for Information Science, vol. 27, no 3,‎ , p. 129–146 (lire en ligne)
  2. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze. An Introduction to Information Retrieval, Cambridge University Press, 2009, p. 233.