WordNet
WordNet est une base de données lexicale développée par des linguistes du laboratoire des sciences cognitives de l'université de Princeton depuis une vingtaine d'années[5]. Son but est de répertorier, classifier et mettre en relation de diverses manières le contenu sémantique et lexical de la langue anglaise. Des versions de WordNet pour d'autres langues existent, mais la version anglaise est cependant la plus complète à ce jour.[citation nécessaire]
Développé par | Christiane Fellbaum (en) |
---|---|
Première version | [1] |
Dernière version | 3.1 ()[2],[3],[4] |
Langues | Anglais |
Type | Base de données lexicale (en) |
Licence | Licence BSD |
Site web | wordnet.princeton.edu |
La base de données ainsi que des outils sont disponibles gratuitement[6]. Par rapport aux outils fournis, un développeur peut aussi accéder à la base de données à partir des interfaces disponibles pour plusieurs langages de programmation (Java, Perl, PHP, Prolog, Python...)[7].
WordNet est distribué sous une licence libre[8], permettant de l'utiliser commercialement ou à des fins de recherche.
La dernière version distribuée en est la 3.1[6]. Cette version est par ailleurs consultable en ligne[9].
Les synsets
modifierLa composante atomique sur laquelle repose le système entier est le synset (synonym set), un groupe de mots et/ou de locutions interchangeables, dénotant un sens ou un usage particulier. La version 1.7 de WordNet définit ainsi le nom commun anglais car à l'aide de cinq synsets :
- car, auto, automobile, machine, motorcar -- (4-wheeled motor vehicle; usually propelled by an internal combustion engine; he needs a car to get to work)
- car, railcar, railway car, railroad car -- (a wheeled vehicle adapted to the rails of railroad; three cars had jumped the rails)
- car, gondola -- (car suspended from an airship and carrying personnel and cargo and power plant)
- car, elevator car -- (where passengers ride up and down; the car was on the top floor)
- cable car, car -- (a conveyance for passengers or freight on a cable railway; they took a cable car to the top of the mountain)
Chaque synset dénote une acception différente du mot car, décrite par une courte définition. Une occurrence particulière de ce mot dénotant par exemple le premier sens (le plus courant), dans le contexte d'une phrase ou d'un énoncé, serait ainsi caractérisée par le fait qu'on pourrait remplacer le mot polysémique par l'un ou l'autre des mots du synset sans altérer la signification de l'ensemble.
Les ontologies et les relations sémantiques
modifierÀ l'instar d'un dictionnaire traditionnel, WordNet offre ainsi, pour chaque mot, une liste de synsets correspondant à toutes ses acceptions répertoriées. Mais les synsets ont également d'autres usages : ils peuvent représenter des concepts plus abstraits, de plus haut niveau que les mots et leurs sens, qu'on peut organiser sous forme d'ontologies. Une ontologie est un système de catégories permettant de classifier les éléments d'un univers. Le système de catégorisation correspond aux relations sémantiques. Ceci permet de regrouper de manière cohérente toutes les composantes d'un univers linguistique telles que les mots, les sens ou bien les concepts.
La relation sémantique servant de critère pour l'agrégation d'un groupe de concepts définira le type de l'ontologie. WordNet répertorie ainsi une grande variété de relations sémantiques permettant d'organiser le sens des mots (et donc par extension les mots eux-mêmes) en des systèmes de catégories qu'on peut consulter de manière cohérente et uniforme. On pourra ainsi interroger le système quant aux hyperonymes d'un mot particulier. À partir par exemple du sens le plus commun du mot car (correspondant au synset 1. car, auto...) la relation d'hyperonymie définit un arbre de concepts de plus en plus généraux :
- car, auto, automobile, machine, motorcar
- motor vehicle, automotive vehicle
- vehicle
- conveyance, transport
- instrumentality, instrumentation
- artifact, artefact
- object, physical object
- entity, something
- object, physical object
- artifact, artefact
- instrumentality, instrumentation
- conveyance, transport
- vehicle
- motor vehicle, automotive vehicle
Dans cet exemple, le dernier concept, « entité, quelque chose », est le plus général, le plus abstrait. Il pourrait ainsi être le super-concept d'une multitude de concepts plus spécialisés.
On peut également interroger le système quant à la relation inverse de l'hyperonymie, l'hyponymie. WordNet offre en fait une multitude d'autres ontologies, faisant usage de relations sémantiques plus spécialisées et restrictives. On peut ainsi interroger le système quant aux méronymes d'un mot ou d'un concept, les parties constitutives d'un objet (HAS-PART). Les méronymes associés au sens car, auto... du mot car sont :
- car, auto, automobile, machine, motorcar
- HAS PART: accelerator, accelerator pedal, gas pedal, gas, throttle, gun
- HAS PART: air bag
- HAS PART: auto accessory
- HAS PART: automobile engine
- HAS PART: automobile horn, car horn, motor horn, horn
- (...)
On peut aussi consulter le système quant à la relation inverse, l'holonymie, ou encore pour les relations de synonymie et d'antonymie.
Structure
modifierLe lexique de WordNet est séparé en quatre grandes super-catégories lexicales : les noms, les verbes, les adjectifs et les adverbes. Les noms sont ainsi classés en un système de catégories complet et précis comprenant plusieurs niveaux d'imbrication. On retrouve notamment certaines sections de cette ontologie où la profondeur dépasse 10 niveaux.
Limitations
modifierOn retrouve en revanche un système de classification beaucoup moins élaboré pour les verbes, qui sont organisés en un système hiérarchique beaucoup plus « plat » avec moins de niveaux d'imbrication, où on passe très rapidement d'un concept spécialisé (le sens operate, run du verbe running, par exemple) à un concept très général (control, command).
Si on examine par conséquent l'ontologie générée par la relation d'hyperonymie, il est notable qu'elle est la plus complète dans son embranchement nominal.[réf. nécessaire]
À ce jour[Quand ?], il n'y a aucune catégorisation hiérarchique définie pour les embranchements des adjectifs et des adverbes. Ce déséquilibre potentiellement problématique se retrouve à l'intérieur même des super-catégories, où il est beaucoup plus apparent dans la branche nominale : certains mots[Lesquels ?] sont ainsi liés à une grande chaîne de concepts finement graduée, tandis que d'autres sont très proches des concepts les plus généraux.
Les usages
modifierLes ressources WordNet (dont la ressource originale anglaise fait partie) jouissent d'une bonne popularité auprès de la communauté scientifique et des industriels du traitement de la langue. La Global Wordnet Conference (GWC)[10], organisée tous les deux ans, vise à rassembler les personnes de ces deux communautés afin de partager sur les avancées des Wordnet à travers le monde.
La richesse et la précision de Wordnet en font un outil de choix, susceptible d'être mis à profit par une multitude de techniques et de théories diverses[Lesquelles ?].
Son utilisation fait en sorte de procurer aux algorithmes et applications une importante plateforme de connaissances a priori du langage et du monde dans lequel il s'articule.
Métriques heuristiques
modifierUn exemple particulièrement représentatif et ingénieux de son utilisation est donné par les métriques heuristiques de « distance sémantique » entre les concepts d'une ontologie particulière, basées sur la distance à parcourir dans le graphe. Cette distance peut permettre de quantifier par exemple la similarité de deux concepts. Elle peut également servir à faire de la désambigüisation.
État
modifierWordNet est un système d'une étonnante ampleur : la version 2.1 répertorie plus de 200 000 mots de classes ouvertes, pour lesquelles l'ajout d'éléments lexicaux est possible, ainsi que plus de 115 000 synsets. Pourtant, son statut de projet « en développement »[citation nécessaire] implique toutefois que certaines de ses composantes sont incomplètes. À chaque nouvelle version, le lexique s'enrichit de nouveaux mots, et des relations sémantiques sont ajoutées, modifiées, ou encore rendues désuètes.[réf. souhaitée]
WordNet étant un logiciel libre, celui-ci comprend, outre les définitions des mots, l’ensemble des sources utiles pour l’accès aux données du dictionnaire.
Dans d'autres langues
modifierIl existe des projets similaires pour d'autres langues.
Langue française
modifierLe WordNet libre du français (WOLF) est une ressource linguistique généraliste libre pour le français issue d'une traduction automatique de WordNet 3 (depuis la version 0.2.5[11]). Il a été initié le [12] et est à ce jour encore en version bêta (version 1.0 bêta publiée en )[13]. Ce projet bénéficie d'une validation manuelle partielle des littéraux qu'il contient[14].
Langues européennes
modifierLe projet EuroWordnet développé entre 1996 et 1999[15] a permis la constitution de ressources « Wordnet » pour l'anglais (extension de Wordnet 1.5), le néerlandais, l'italien, l'espagnol, l'allemand, le français, le tchèque et l'estonien. Il est à noter que ces « Wordnet » ne sont pas libres et leurs licences sont payantes : l'ELDA/ELRA se charge de les commercialiser[16].
Autres langues
modifierLa Global Wordnet Association (GWA) recense au total une petite centaine de « Wordnet » dans différentes langues à travers le monde[17].
Le projet BalkaNet[18] a permis la construction de six WordNet pour le bulgare, le tchèque, le grec, le roumain, le turc et le serbe. Le projet BabelNet intègre WordNet avec d'autres ressources, telles que Wikipédia et Wiktionnaire.
Notes et références
modifier- « https://kln.lexicala.com/kln28/mccrae-rudnicka-bond-english-wordnet/ »
- « News », (consulté le )
- « http://wordnetweb.princeton.edu/perl/webwn »
- « https://lexicala.com/review/2020/mccrae-rudnicka-bond-english-wordnet/ »
- George A. Miller (1995). WordNet: A Lexical Database for English. Communications of the ACM Vol. 38, No. 11: 39-41
- (en) « Downloading WordNet and associated packages and tools | WordNet », sur wordnet.princeton.edu (consulté le )
- (en) « Related Projects | WordNet », sur wordnet.princeton.edu (consulté le )
- « wordnet.princeton.edu/wordnet/… »(Archive.org • Wikiwix • Archive.is • Google • Que faire ?).
- « WordNet Search - 3.1 », sur wordnetweb.princeton.edu
- « globalwordnet.org/gwa/gwa_conf… »(Archive.org • Wikiwix • Archive.is • Google • Que faire ?).
- https://gforge.inria.fr/frs/shownotes.php?release_id=7689
- Sagot Benoît et Fišer Darja (2008). Construction d'un wordnet libre du français à partir de ressources multilingues. In TALN 2008, Avignon, France
- « InriaForge: Wordnet Libre du Français: Project Home », sur gforge.inria.fr
- https://gforge.inria.fr/frs/shownotes.php?release_id=7690
- « EuroWordNet:Building a multilingual database with wordnets for several European languages. », sur projects.illc.uva.nl
- « elda.org/catalogue/fr/text/M00… »(Archive.org • Wikiwix • Archive.is • Google • Que faire ?).
- « Wordnets in the World – Global WordNet Association »
- « BalkaNet Project Home Page », sur www.dblab.upatras.gr
Articles connexes
modifierLiens externes
modifier- (en) Site officiel