Lexical Markup Framework

Language resource management – Lexical markup framework (LMF; ISO 24613)^[1], est le standard de l'Organisation internationale de normalisation (plus spécifiquement au sein de l'ISO/TC37) pour les lexiques du traitement automatique des langues (TAL). L'objectif est la normalisation des principes et méthodes relatifs aux ressources langagières dans le contexte de la communication multilingue et de la diversité culturelle.

Objectifs de LMF

L'objectif est de fournir un modèle commun pour la création et l'utilisation des ressources langagières, de gérer l'échange des données entre ces ressources et de permettre la fusion d'un grand nombre de ressources électroniques afin de constituer un vaste réseau de descriptions linguistiques.

Les différents types d'instanciation de LMF peuvent inclure des ressources monolingues, bilingues aussi bien que multilingues. Les mêmes spécifications valent pour les petits et grands lexiques, pour les structures simples comme complexes, pour les ressources lexicales de l'écrit comme de l'oral. Les descriptions couvrent aussi bien la morphologie, la syntaxe, la sémantique que les notations multilingues. Les langues ciblées ne se limitent pas aux langues européennes mais couvrent toutes les langues naturelles. LMF est capable de représenter la plupart des lexiques, incluant les lexiques WordNet, EDR et PAROLE.

Historique du projet LMF

Dans le passé, la standardisation a été étudiée et implémentée dans des projets comme GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE et ISLE. Puis, les délégations de l'ISO/TC37 décidèrent de travailler sur les normes pour le TAL et les représentations lexicales. Le projet LMF commença durant l'été 2003 par une proposition de nouveau travail (i.e. New Work Item Proposal) de la part de la délégation américaine sur les lexiques électroniques en général. Durant l'automne 2003, la délégation française avec l'aide de l'AFNOR, produisit une proposition technique spécifiquement destinée aux lexiques du TAL. Au début 2004, le comité ISO/TC37 décida de former un projet ISO commun avec Nicoletta Calzolari (CNR-ILC Italie) en tant qu'animatrice, Gil Francopoulo (Tagmatica France) et Monte George (ANSI USA) en tant qu'éditeurs.

La première étape a été de collecter les descriptions des dictionnaires les plus connus et ensuite, de forger une terminologie commune à ces différents lexiques. L'étape suivante a été de concevoir un modèle capable de représenter ces dictionnaires en détail. Les éditeurs et un groupe de soixante experts ont contribué à cette tâche pour élaborer un modèle consensuel. Une attention spécifique a été apportée à la morphologie afin de mettre en place des dispositifs puissants pour couvrir des langues qui sont réputées difficiles. Treize versions du document de spécification ont été écrites, distribuées (aux experts nommés par les délégations Nationales), commentées et discutées. Après cinq années de travail, incluant de nombreuses réunions physiques et quantité de courriels, les éditeurs sont arrivés à un modèle UML cohérent.

En conclusion, LMF peut véritablement être considéré comme un état de l'art des lexiques du traitement automatique de la langue.

Depuis 2008

La dénomination ISO est 24613. Le document de spécification LMF a été publié officiellement le 17 novembre 2008.

LMF en tant que membre de la famille de standards du TC/37

Les standards de l'ISO/TC37 sont actuellement élaborés en tant que spécifications de haut niveau et traitent de la segmentation des mots (ISO 24614), des annotations (ISO 24611 alias MAF, ISO 24612 alias LAF, ISO 24615 alias SynAF et ISO 24617-1 alias SemAF/Time), des structures de traits (ISO 24610), des conteneurs multimédia (ISO 24616 alias MLIF) et des lexiques (ISO 24613). Ces standards sont fondés sur des spécifications de bas niveau dédiées aux constantes telles que les catégories de données (révision de l'ISO 12620), les codes des langues (ISO 639), les codes des scripts (ISO 15924), les codes des pays (ISO 3166) et Unicode (ISO/CEI 10646).

Cette organisation à deux niveaux forme une famille cohérente de standards avec les règles suivantes :

la spécification de haut niveau fournit les éléments structurels qui sont décorés par les constantes standardisées,
les spécifications de bas niveau fournissent les constantes standardisées sous forme de métadonnées.

Les standards importants utilisés par LMF

Les constantes linguistiques comme /feminine/ ou /transitive/ ne sont pas définies au sein de LMF mais sont enregistrées dans le registre de catégories de données (Data Category Registry ou DCR, en anglais) qui est géré en tant que ressource globale par l'ISO/TC37 conformément à l'ISO/IEC 11179-3:2003 hal.inria.fr . Et ces constantes sont utilisées pour décorer les éléments structurels de haut niveau.

La spécification LMF respecte les principes de modélisation du langage de modélisation unifié (LMU) tels que définis par l'Object Management Group (OMG). La structure est spécifiée au moyen de diagrammes de classe LMU. Les exemples sont présentés par des diagrammes d'instance (ou objet) LMU.

Ajoutons qu'une DTD XML figure en annexe du document LMF.

Structure du modèle

LMF comprend les composants suivants :

Le modèle noyau qui est l'épine dorsale d'une entrée lexicale,
les extensions qui décrivent des ressources lexicales spécifiques en réutilisant les composants du noyau avec éventuellement des réquisits additionnels.

Les extensions sont spécifiquement dédiées à la morphologie, aux MRD, à la syntaxe en TAL, à la sémantique en TAL, aux notations multilingues, aux patrons des paradigmes, aux patrons des expressions multimots et aux patrons d'expression des contraintes.

Un exemple simple

Dans l'exemple suivant, l'entrée lexicale est associée à un lemme clergyman et deux formes fléchies clergyman et clergymen. Le codage de la langue est effectué pour la totalité de la ressource lexicale. La valeur choisie est affectée pour la totalité du lexique comme présenté dans le diagramme d'instance UML suivant :

Les éléments Lexical Resource, Global Information, Lexicon, Lexical Entry, Lemma et Word Form definissent la structure du lexique. Ils sont spécifiés dans le document LMF. Au contraire, languageCoding, language, partOfSpeech, commonNoun, writtenForm, grammaticalNumber, singular, plural sont des catégories de données qui sont prises dans le registre des catégories de données. Ces marques décorent la structure. Les valeurs ISO 639-3, clergyman, clergymen sont des chaînes de caractères brutes. La valeur eng est prise dans la liste des langues définie par l'ISO 639-3.

Avec quelques informations additionnelles comme dtdVersion et feat, la même information peut être exprimée par le fragment XML suivant :

<LexicalResource dtdVersion="15">
    <GlobalInformation>
        <feat att="languageCoding" val="ISO 639-3"/>
    </GlobalInformation>
    <Lexicon>
        <feat att="language" val="eng"/>
        <LexicalEntry>
            <feat att="partOfSpeech" val="commonNoun"/>
            <Lemma>
                <feat att="writtenForm" val="clergyman"/>
            </Lemma>
            <WordForm>
                 <feat att="writtenForm" val="clergyman"/>
                 <feat att="grammaticalNumber" val="singular"/>
            </WordForm>
            <WordForm>
                <feat att="writtenForm" val="clergymen"/>
                <feat att="grammaticalNumber" val="plural"/>
            </WordForm>
        </LexicalEntry>
    </Lexicon>
</LexicalResource>

Cet exemple est plutôt simple. LMF est capable de représenter des descriptions linguistiques plus complexes, mais dans ce cas, le balisage XML est plus complexe.

Ouvrage dédié

Un livre, en anglais, publié en 2013, LMF Lexical Markup Framework ^[2], est entièrement consacré à LMF. Le premier chapitre traite de l'historique des modèles de dictionnaires, le deuxième est une présentation formelle du modèle et le troisième traite de la relation avec les constantes du registre de catégories de données de l'ISO. Les 14 autres chapitres traitent chacun d'un dictionnaire ou d'un système, tant dans le domaine civil que militaire, aussi bien au sein de la recherche scientifique que pour des applications industrielles. Ce sont Wordnet-LMF, Prolmf, DUELME, UBY-LMF, LG-LMF, RELISH, GlobalAtlas et Wordscape.

Articles connexes

Liens externes

Sites web

Quelques communications scientifiques récentes au sujet de LMF

La première publication au sujet des spécifications LMF telles que ratifiées par l'ISO (cet article est devenu (en 2015) le neuvième article le plus cité au sein de LREC depuis les articles LREC).

Language Resources and Evaluation LREC-2006/Genoa: Gil Francopoulo, Monte George, Nicoletta Calzolari, Monica Monachini, Nuria Bel, Mandy Pet, Claudia Soria: Lexical Markup Framework (LMF) [1]

Au sujet des représentations sémantiques :

Gesellschaft für linguistische Datenverarbeitung GLDV-2007/Tübingen: Gil Francopoulo, Nuria Bel, Monte George Nicoletta Calzolari, Monica Monachini, Mandy Pet, Claudia Soria: Lexical Markup Framework ISO standard for semantic information in NLP lexicons [2].

Au sujet des connexions multilingues :

Language Resources and Evaluation / Springer Verlag 2008 (DOI: 10.1007/s10579-008-9077-5): Multilingual resources for NLP in the lexical markup framework (LMF).

Au sujet des langues africaines :

Traitement Automatique des langues naturelles, Marseille, 2014: Mouhamadou Khoule, Mouhamad Ndiankho Thiam, El Hadj Mamadou Nguer: Toward the establishment of a LMF-based Wolof language lexicon (Vers la mise en place d'un lexique basé sur LMF pour la langue wolof) [3]

Au sujet des langues asiatiques :

Lexicography, Journal of ASIALEX, Springer 2014: Lexical Markup Framework: Gil Francopoulo, Chu-Ren Huang: An ISO Standard for Electronic Lexicons and its Implications for Asian Languages DOI 10.1007/s40607-014-0006-z

Au sujet des langues européennes :

COLING 2010: Verena Henrich, Erhard Hinrichs: Standardizing Wordnets in the ISO Standard LMF: Wordnet-LMF for GermaNet [4]
EACL 2012: Judith Eckle-Kohler, Iryna Gurevych: Subcat-LMF: Fleshing out a standardized format for subcategorization frame interoperability [5]
EACL 2012: Iryna Gurevych, Judith Eckle-Kohler, Silvana Hartmann, Michael Matuschek, Christian M Meyer, Christian Wirth: UBY - A Large-Scale Unified Lexical-Semantic Resource Based on LMF [6].

Au sujet des langues sémitiques :

Journal of Natural Language Engineering, 2016;22(6):849-879, Cambridge University Press: Aida Khemakhem, Bilel Gargouri, Abdelmajid Ben Hamadou, Gil Francopoulo: ISO Standard Modeling of a large Arabic Dictionary.
Proceeding of the seventh Global Wordnet Conference 2014: Nadia B M Karmani, Hsan Soussou, Adel M Alimi: Building a standardized Wordnet in the ISO LMF for aeb language [7].
Proceeding of the workshop: HLT & NLP within Arabic world, LREC 2008: Noureddine Loukil, Kais Haddar, Abdelmajid Ben Hamadou: Towards a syntactic lexicon of Arabic Verbs [8].
Traitement Automatique des Langues Naturelles, Toulouse 2007: A Khemakhem, B Gargouri, A Abdelwahed, G Francopoulo: Modélisation des paradigmes de flexion des verbes arabes selon la norme LMF-ISO 24613 [9].

Au sujet des noms propres :

Language Resources and Evaluation LREC-2008/Marrakech: Denis Maurel: Prolexbase. A multilingual relational lexical database of proper names^[3]. Cette ressource est librement disponible sur le site ortolang^[4].

Quelques communications connexes

Language Resources and Evaluation LREC-2006/Genoa: The relevance of standards for research infrastructures hal.inria.fr

Références

↑ En français : cadre de balisage lexical.
↑ Gil Francopoulo (sous la direction de) LMF Lexical Markup Framework, ISTE / Wiley 2013 (ISBN 978-1-84821-430-9)
↑ « Prolexbase. A multilingual relational lexical database of proper names » (consulté le 7 décembre 2024)
↑ « Prolex » (consulté le 8 décembre 2024)

[1] En français : cadre de balisage lexical.

[2] Gil Francopoulo (sous la direction de) LMF Lexical Markup Framework, ISTE / Wiley 2013 (ISBN 978-1-84821-430-9)

[3] « Prolexbase. A multilingual relational lexical database of proper names » (consulté le 7 décembre 2024)

[4] « Prolex » (consulté le 8 décembre 2024)

[1]

[2]

[3]

[4]