Vocabulaire contrôlé
Un vocabulaire contrôlé est un lexique dont le but est de rendre possible l'organisation des connaissances afin d'optimiser la recherche d'information. Le vocabulaire contrôlé est utilisé dans les schémas servant à l'indexation sujet, les vedettes-matières[Quoi ?], les thésaurus et les taxinomies[1],[2]. Un vocabulaire contrôlé impose l'utilisation de termes prédéfinis, qui ont été présélectionnés par le concepteur du vocabulaire. Ils s'opposent donc au langage naturel, où aucune restriction n'existe quant au choix du vocabulaire.
Fonctions des vocabulaires contrôlés
modifierLes vocabulaires contrôlés sont conçus afin d'organiser l'information et d'apporter une terminologie pour cataloguer et récupérer l'information. En plus de reconnaître les différentes variantes d'un même terme, les vocabulaires contrôlés favorisent l'uniformité dans les termes privilégiés et l'assignation de ces mêmes termes à du contenu similaire.
Les fonctions les plus importantes du vocabulaire contrôlé sont d'assembler une variante de termes et de synonymes à des concepts et de lier ensuite ces concepts soit dans un ordre logique ou selon un classement par catégories. Les liens et les relations au sein d'un vocabulaire contrôlé permettent d'assurer que ces connexions soient définies et maintenues autant pour le catalogage que pour la récupération de données[3].
Types de vocabulaires contrôlés
modifierListes de sujets d'en-tête
modifierLes sujets d'en-tête sont des mots ou des phrases destinés à être assignés à des livres, des articles ou autres documents dans le but de décrire un sujet ou un thème de textes et d'ainsi les regrouper avec d'autres textes comportant des sujets similaires.
Les sujets d'en-tête les plus utilisés dans les librairies aux États-Unis sont ceux de la Bibliothèque du Congrès (LCSH) qui forment une liste complète de termes favoris souvent de références multiples. Les Medical Subject Headings (MeSH) sont aussi un autre type d'en-tête connu, utilisé pour indexer des articles de presse et des livres sur la sciences médicale.
De manière générale, les sujets d'en-tête sont classés par ordre alphabétique avec plusieurs références entre les favoris, les non-favoris et les autres en-tête en relation. Ils peuvent combiner plusieurs concepts uniques au sein d'une même chaîne. Par exemple, l'en-tête sur un récipient en bronze de la période médiévale est associé à la fois à une période, un matériau et un type de travail dans un seul même en-tête. D'autres types d'en-têtes peuvent aussi être utilisés afin d'identifier ou de clarifier une entrée de vocabulaire d'une autre. Ce qui veut dire que l'enregistrement d'un vocabulaire représente une personne, une place ou une chose, mais qu'en plus de cela le nom est affiché avec une information en supplément du nom. Par exemple, une courte notice pourrait accompagner le nom d'un personnage[3].
Les listes contrôlées
modifierUtilisée afin de contrôler la terminologie, une liste contrôlée bien établie comprend : des termes uniques, sans chevauchement de signification entre les termes, les termes sont tous membres de la même classe, ils sont égaux en granularité (niveau d'explication est le même) ou en spécificité, ils sont aussi classés par ordre alphabétique ou selon un ordre logique afin de les manier plus facilement. De façon générale, les listes contrôlées sont construites pour répondre à une base de données ou une situations très spécifique[3].
Boucles de synonymie
modifierLes boucles de synonymie sont un ensemble de termes considérés comme équivalents, aux visées de la récupération de données. Même si cet ensemble de termes est classé comme un vocabulaire contrôlé, il est presque toujours appliqué dans la récupération de données. Ils sont utilisés pour élargir la recherche (expansion de requête). Ils peuvent ainsi contenir des synonymes de significations identiques ou apparentées plutôt que de se restreindre seulement aux termes comportant une véritable synonymie[3].
Fichiers d'autorité
modifierLes fichiers d'autorité sont un ensemble de noms ou d'en-têtes et de références multiples au formulaire favoris à partir de variantes ou de formes alternatives. Les fichiers d'autorité les plus communs sont les fichiers d'autorité de nom et les fichiers d'autorité de titre d'objets. Presque tous les types de vocabulaires contrôlés peuvent être utilisés comme fichier d'autorité à l'exception des boucles de synonymie[3].
Exemples de fichiers d'autorité:
- Autorité BNF
- IDREF, Référentiel des autorités Sudoc
- VIAF, Fichier d’autorité international virtuel
- Domain Name Système (DNS)
- Fichier d’autorité Banq
- Dictionnaire Biographique du Canada[4]
Taxonomies
modifierUne taxonomie est une classification ordonnée pour un domaine défini. Il comprend des termes de vocabulaire contrôlé (en général seulement des termes favoris) organisés selon une structure hiérarchique.
La taxonomie peut aussi se référer à toute classification ou placement de termes ou d'en-têtes au sein de catégories, en particulier un vocabulaire contrôlé utilisé à des fins de structure de navigation pour un site web[3].
En sciences de l'information
modifierEn sciences de l'information et des bibliothèques, un vocabulaire contrôlé est une liste de mots et d'expressions soigneusement choisis, utilisés pour étiqueter des documents, de manière qu'ils soient plus facilement repérables lors d'une recherche[5]. Les vocabulaires contrôlés permettent de résoudre les problèmes liés à l'homographie, la polysémie et la synonymie, par une relation bijective entre les concepts et les termes acceptés. En bref, les vocabulaires contrôlés réduisent l'ambiguïté inhérente au langage humain naturel, où différents noms peuvent être attribués à un même concept, assurant du coup une meilleure cohérence[6].
Ainsi, cela peut améliorer de manière significative les résultats de recherche, car puisque les ordinateurs sont plus efficaces avec l'assortiment de mots, de caractère par caractère, ils sont en l’occurrence moins performants pour ce qui concerne la compréhension des synonymes. Dépourvues d'un contrôle terminologique de base, des métadonnées incohérentes ou inexactes peuvent affaiblir de manière importante la qualité des résultats de recherche. Par exemple, sans l'utilisation d'un vocabulaire contrôlé, les termes « bonbon » et « sucreries » seraient référés au même concept. Les vocabulaires contrôlés peuvent aussi diminuer les possibles erreurs d'épellation[7].
Cependant, l'utilisation d'un vocabulaire contrôlé comporte plusieurs obstacles. Le principal étant le coût, son utilisation nécessite un organe administratif pour le réviser, le mettre à jour et le disperser. Par exemple, le Library of Congress Subject Headings (LCSH) et le US National Library of Medical Subject Headings (MeSH) forment des vocabulaires formels qui sont essentiels pour chercher des collections durement cataloguées. Néanmoins, ces deux vocabulaires sont contraints à un support important des deux organismes. D'autres coûts considérables sont engendrés dans l'entrainement de chercheurs et créateurs de métadonnées afin qu'ils saisissent bien, par exemple, qu'en utilisant le MeSH il est mieux d'employer « myocardial infarction » au lieu de l'expression familière « heart attack » (crise cardiaque).
La manière la plus efficace de faire usage d'un vocabulaire contrôlé est par l'intermédiaire des qualificatifs[7]. (en anglais)
Bibliothèque de l'Université Laval
modifierLe Répertoire de vedettes-matière de l'Université Laval est un exemple de vocabulaire contrôlé[8]. Les termes acceptés ― les vedettes-matières ― sont choisis parmi les différentes graphies d'un même concept ("clés" est employé pour "clefs"), les termes scientifiques et populaires ("Grande marguerite" est employé pour "Leucanthemum vulgare") ou les synonymes d'un même concept ("forêts" est employé pour "boisés").
À titre d'exemple d'application, les vedettes suivantes exécutent une recherche correspondante dans le catalogue de la Bibliothèque de l'Université Laval. Ces vedettes se retrouvent telles quelles dans le champ sujet des notices de chacune des recherches.
Bibliothèque du Congrès
modifierAux États-Unis, les sujets d'en-tête de la Bibliothèque du Congrès (LCSH), ont été mis au point comme un vocabulaire contrôlé pour l'indexation du sujet et de la forme des livres et des périodiques dans la collection de la Bibliothèque du Congrès.
Aujourd'hui, la plupart des bibliothèques aux États-Unis ont adopté le système de notice d'autorité de la Bibliothèque du Congrès. À l'origine, le LCSH a été développé pour du matériel d'impression. Mais il est aussi principalement utilisé par des bibliothèques d'art ou des bibliothécaires en ce qui concerne des images animées, des objets d'art et d'architecture.
Le système de notice d'autorité de la Bibliothèque du Congrès contient approximativement quatre cent mille enregistrements de notices d'autorité maintenus par la Bibliothèque du Congrès [3].
Bibliothèque et Archives du Canada
modifierLes ressources d'information au gouvernement du Canada utilisent aussi plusieurs vocabulaires contrôlés. Pour autant que les moteurs de recherche acceptent les métadonnées, l'emploie de différents types de vocabulaires contrôlés, au sein de la description des ressources d'information sur le Web, va permettre de trouver plus facilement et efficacement l'information recherchée[9].
La Bibliothèque et Archives Canada s'est engagée de manière active au sein du développement, de la gestion et de l’utilisation de vocabulaires contrôlés pour la description des ressources Web du gouvernement du Canada. Cet engagement se présente principalement par :
Voir Aussi
modifier- Autorité (sciences de l'information)
- Langue contrôlée
- IMS Vocabulary Definition Exchange
- Reconnaissance d'entités nommées
- Nomenclature
- Ontologie (informatique)
- Terminologie
- Thésaurus documentaire
- Universal Data Element Framework
- Vocabulary-based transformation
Références
modifier- « Controlled Vocabularies », sur FIT, QUT, (version du sur Internet Archive)
- « Agricultural Information Management Standards Web site », (version du sur Internet Archive)
- (en) Patricia Harping, Introduction to Controlled Vocabularies: Terminologies for Art, Architecture, and Other Cultural Works, Getty, (ISBN 978-1-60606-027-8), p. 22 à 23
- Arlette Boulogne, Vocabulaire de la documentation, Paris, ADBS, , 334 p. (ISBN 9782843650710)
- (en) « Lexonomy | A Taxonomy Primer », sur www.ischool.utexas.edu (consulté le )
- (en-US) Fred Leise, « What Is A Controlled Vocabulary? », boxesandarrows, (lire en ligne, consulté le )
- « Guide d'utilisation du Dublin Core », sur www.bibl.ulaval.ca (consulté le )
- « Répertoire de vedettes-matière (RVM) - Bibliothèque », sur www.bibl.ulaval.ca (consulté le )
- Gouvernement du Canada, « Vocabulaires contrôlés- Bibliothèque et Archives Canada », Site web, (lire en ligne, consulté le )