Automated Similarity Judgment Program (ASJP)

L'Automated Similarity Judgment Program en français le Programme de Jugement Automatique de Similarité connu sous son acronyme (ASJP) est un projet collaboratif mettant en application une approche informatisée de linguistique comparative en utilisant une base de données de mots.

Description

modifier

La base de données est ouverte à tous et se base sur une liste de quarante mots de vocabulaire de base dans plus de la moitié des langues du monde[1]. Elle est constamment mise à jour. En plus de langues dont la généalogie est déjà attestée et de langues isolées, la base de données comprend des pidgins, créoles, langues mixtes, et langues construites.

Les mots de la base de données sont transcrits dans une orthographe standard simplifiée adaptée au traitement informatique (code ASJP)[2].

La méthode a été utilisée pour estimer les périodes auxquelles les familles de langues se sont séparées et ont évolué vers de nouvelles sous-familles par le biais d'une méthode apparentée à (mais différente de) la glottochronologie[3], pour déterminer la région d'origine d'une proto-langue[4], pour faire des recherches sur le symbolisme phonétique[5], pour évaluer différentes méthodes phylogénétiques[6], et pour d'autres objectifs de recherche.

Historique

modifier

Objectifs initiaux

modifier

L'ASJP a été créé à l'origine comme moyen d'évaluation de la ressemblance entre mots de même signification dans différentes langues, avec comme objectif la classification informatique, basée sur les ressemblances lexicales observées. Dans la première publication[2] deux mots identiques sémantiquement dans une comparaison entre langues étaient jugés similaires s'ils avaient en commun deux segments phonétiques identiques. Le degré de similarité entre deux langues était calculé comme le pourcentage de mots jugés similaires par rapport à l'ensemble de l'échantillon. Cette méthode a été appliquée à une liste de 100 mots dans 250 langues des familles suivantes : austroasiatique, indo-européenne, maya, et muskogéenne.

Le Consortium ASJP

modifier

Le Consortium ASJP a été fondé en 2008. Il a pour but de faire participer vingt-cinq linguistes professionnels et autres parties intéressées, en tant que bénévoles, pour la transciption de mots ou toute autre activité contribuant au projet. La principale contribution est venue de Cecil H. Brown. Søren Wichmann est le curateur du projet et assure son fonctionnement au jour le jour. Un troisième membre important du consortium est Eric W. Holman, qui a programmé l'essentiel du logiciel du projet.

Listes de mots plus courtes

modifier

La liste de mots utilisée au départ était basée sur la version courte (100 mots) de la liste de Swadesh. Ultérieurement, il s'est avéré par recherche statistique qu'un extrait de 40 des 100 mots donne des résultats équivalents, si ce n'est meilleurs, que la liste complète[7]. Depuis, les listes de mots rassemblées dans les différentes langues ne contiennent plus que 40 mots, et même moins dans certaines langues pour lesquelles ces mots sont insuffisamment documentés.

Distance de Levenshtein

modifier

Dans ses publications depuis 2008, ASJP a utilisé un programme d'appréciation de la similarité basé sur la distance d'édition de Levenshtein. Cette approche a donné de meilleurs résultats en termes de classification des langues que l'approche initiale fondée sur l'avis d'experts. La distance d'édition est définie comme le nombre minimal d'opérations d'édition nécessaires pour convertir un mot en un autre. Une opération d'édition est soit l'insertion d'un symbole, soit la suppression d'un symbole, soit la substitution d'un symbole par un autre. Les différences entre longueurs de mot peuvent être neutralisée en normalisant par la longueur du mot le plus long, ce qui donne la distance d'édition normalisée.

Une distance d'édition normalisée et divisée entre deux langues est calculée en divisant la distance d'édition normalisée moyenne pour toutes les paires de mots ayant la même signification par la moyenne des distance d'édition normalisée de toutes les paires de mots de significations différentes. Cette seconde normalisation a pour but de corriger les résultats de similarités dues au hasard[8].

Liste de mots

modifier

ASJP utilise la liste de 40 mots suivante[9]. Elle est similaire à la liste Swadesh, dont des versions abrégées ont été utilisées par différents linguistes comme Sergei Yakhontov (en).

Partie du corps
  • œil
  • oreille
  • nez
  • langue
  • dent
  • main
  • genou
  • sang
  • os
  • sein
  • foie
  • peau
Animaux et végétaux
  • pou
  • chien
  • poisson
  • corne (d'animal)
  • arbre
  • feuille
Personnes
  • personne
  • nom
Nature
  • soleil
  • étoile
  • eau
  • feu
  • pierre
  • route
  • montagne
  • nuit (période sombre)
Verbes et adjectifs
  • boire
  • mourir
  • voir
  • entendre
  • venir
  • nouveau
  • plein
Cardinaux et pronoms
  • un
  • deux
  • je
  • tu
  • nous

Voir aussi

modifier

Références

modifier
  1. Wichmann, Søren, André Müller, Annkathrin Wett, Viveka Velupillai, Julia Bischoffberger, Cecil H. Brown, Eric W. Holman, Sebastian Sauppe, Zarina Molochieva, Pamela Brown, Harald Hammarström, Oleg Belyaev, Johann-Mattis List, Dik Bakker, Dmitry Egorov, Matthias Urban, Robert Mailhammer, Agustina Carrizo, Matthew S. Dryer, Evgenia Korovina, David Beck, Helen Geyer, Patience Epps, Anthony Grant, et Pilar Valenzuela, 2013. La base de données ASJP est disponible dans sa version 16 : http://asjp.clld.org/
  2. a et b Brown, Cecil H., Eric W. Holman, Søren Wichmann, et Viveka Velupillai, Automated classification of the world's languages: A description of the method and preliminary results, STUF – Language Typology and Universals, 2008, 61.4, p. 285-308.
  3. Holman, Eric W., Cecil H. Brown, Søren Wichmann, André Müller, Viveka Velupillai, Harald Hammarström, Sebastian Sauppe, Hagen Jung, Dik Bakker, Pamela Brown, Oleg Belyaev, Matthias Urban, Robert Mailhammer, Johann-Mattis List, et Dmitry Egorov, Automated dating of the world’s language families based on lexical similarity, Current Anthropology, 2011, 52.6, p. 841-875
  4. Wichmann, Søren, André Müller, and Viveka Velupillai, Homelands of the world’s language families: A quantitative approach, Diachronica, 2010, 27.2, p. 247-276
  5. Wichmann, Søren, Holman, Eric W., and Cecil H. Brown, Sound symbolism in basic vocabulary, Entropy, 2010, 12.4, p. 844-858
  6. Pompei, Simone, Vittorio Loreto, and Francesca Tria, On the accuracy of language trees, PLoS ONE, 2011, 6: e20109.
  7. Holman, Eric W., Søren Wichmann, Cecil H. Brown, Viveka Velupillai, André Müller, et Dik Bakker, Explorations in automated language classification, Folia Linguistica, 2008, 42.2, p. 331-354
  8. Wichmann, Søren, Eric W. Holman, Dik Bakker, and Cecil H. Brown, Evaluating linguistic distance measures, Physica A, 2010, 389, p. 3632-3639 (doi:10.1016/j.physa.2010.05.011).
  9. http://asjp.clld.org/static/Guidelines.pdf

Liens externes

modifier