CodexBot

Description de cette image, également commentée ci-après
Portrait de CodexBot
Informations
Créateur Wikimédia Antarctique
Développé par Irønie
Première version
Dernière version Wikibot 1.0 ()
Dépôt GIT
Assurance qualité frwiki, Ypirétis & Evynrhud
État du projet actif
Écrit en PHP, SQL
Environnement OVHcloud
Formats lus MARC, XML, JSON, Open Graph, JSON-LD, Dublin Core, TwitterCard et HTML
Type robot d'indexation
Complétion bibliographique
Licence MIT
Site web cette page

CodexBot est un bot informatique de complétion bibliographique, conçu à partir de 2011 par Irønie et utilisé pour l'amélioration des références dans les articles de Wikipédia en français.

CodexBot collecte des données sur des bases bibliographiques (Bibliothèque nationale de France, Google Livres, Open Library, Wikidata, Crossref…) ou directement sur les pages web mentionnés dans les références. Ensuite il complète ou insère les modèles de présentation {{ouvrage}}, {{article}} ou {{lien web}}.

Chaque jour, CodexBot convertit plus de 1500 URL http:// en jolies références {{article}} ou {{lien web}}, et il retrouve une archive web pour 200 liens morts. Chaque jour, CodexBot analyse environ 2500 références de livres ; il améliore/complète environ 1500 {{ouvrage}} et ajoute environ 60 liens vers des livres numérisés.

Présentation

modifier

Import bibliographique

modifier

En récupérant des données bibliographiques, CodexBot est capable d'ajouter des données comme les noms des auteurs, l'éditeur, le sous-titre, la date d'édition d'un ouvrage ou d'un article scientifique ou de presse, les identifiants spécialisés (ISBN, DOI, ISSN), etc. Il peut aussi ajouter un lien web vers l'ouvrage numérisé par Google Books ou Internet Archive. Le bot interroge différents serveurs (API) et convertit différents formats de données bibliographiques (MARC, XML, JSON) en données exploitables dans les modèles de présentation bibliographique de Wikipédia.

[avant] Le bruit et la fureur (ISBN 9782070361625)
[après] William Faulkner (trad. de l'anglais), Le Bruit et la Fureur [« The sound and the fury »], Paris, Gallimard, coll. « Folio », , 371 p. (ISBN 978-2-070-36162-5, lire en ligne).

Extraction de données web

modifier

CodexBot peut également extraire les métadonnées d'une page web (formats Dublin Core, JSON-LD et Open Graph). Ces données permettent de créer de jolies références pour remplacer des liens bruts (http://) ou bien de compléter/corriger les références sous forme de {{article}} ou {{lien web}}. Le bot peut également déterminer l'accessibilité d'une page (accès libre  , payant  , etc).

Exemple d'article scientifique :

[avant] https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1077160/
[après] Kurt Gödel, « The Consistency of the Axiom of Choice and of the Generalized Continuum-Hypothesis », Proceedings of the National Academy of Sciences of the United States of America, vol. 24, no 12,‎ , p. 556 (PMID 16577857, DOI 10.1073/pnas.24.12.556, lire en ligne  , consulté le ).

Exemple de site de presse :

[avant] https://www.lemonde.fr/planete/article/2020/07/22/le-contact-tracing-a-l-epreuve-de-la-realite_6046893_3244.html
[après] Chloé Hecketsweiler, « Coronavirus : des lenteurs dans le traçage des contacts de malades », Le Monde,‎ (lire en ligne  , consulté le ).

Exemple de page d'un site municipal :

[avant] https://www.ville-moulins.fr/actualite/sabatier-sur-les-cours-711.html
[après] « Sabatier sur les Cours », sur ville-moulins.fr (consulté le ).

Le bot gère la majorité des sites externes trouvés, autant la presse que les revues scientifiques ou n'importe quel site web amateur. Il essaye aussi de nettoyer les titres (typographie fantaisiste, mentions SEO). Pour wikifier joliment le champ "site=" (nom du journal), le bot utilise par défaut le "label" extrait de Wikidata. Les sites peuvent également être configurés individuellement.

Gestion de liens morts

modifier

CodexBot détecte et traite certains liens morts (404 not found, 500, absent DNS…) en les signalant comme {{lien brisé}} ou le plus souvent, en les remplaçant par un lien d'archive vers Wikiwix ou Internet Archive[1].

Exemple de lien mort sans archive (un rédacteur supprimera probablement la ref)

[avant] https://www.nytimes.com/aponline/2015/08/20/world/americas/ap-lt-brazil-corruption.html
[après] « nytimes.com/aponline/2015/08/2… »(Archive.orgWikiwixArchive.isGoogleQue faire ?).

Exemple de lien mort remplacé par une archive :

[avant] http://fr.topic-topos.com/chateau-de-la-mauviere-la-meziere
[après] « Château de La Mauvière », sur topic-topos.com via Wikiwix (consulté le )

Tâches en cours

modifier
 
03-10-2024
  • Un résumé d'édition commençant par « bot » signale une édition masquée dans les listes de suivi.
  • Le bot n'intervient pas si un humain a édité l'article dans les dernières 10 minutes. Ni sur les articles avec un bandeau {{R3R}}, {{en travaux}}, {{en cours}}
  • Le bot ne touche pas aux références qui contiennent un commentaire invisible. Par exemple : sous-titre=<!-- erreur BNF --> ou lire en ligne=<!-- GoogleBooks pas pertinent -->
  • De manière exceptionnelle, pour empêcher le bot d'intervenir sur une page entière, ajouter {{bots|deny=CodexBot}} dans l'article. Par exemple, un article Bibliographie... avec plusieurs centaines d'ISBN.
  • 🔔 Vous pouvez appeler le bot sur un article avec une notification : en ajoutant par exemple [[User:CodexBot|CodexBot]]​ dans votre commentaire d'édition. Mais la surveillance des RC rendra cette fonctionnalité bientôt inutile.
  • Le bot s'arrête en écrivant {{stop}} ou STOP sur sa page de discussion. Puis il redémarre quand le mot est retiré. No stress :)

Avancement

modifier
  • 🌐 http:// >> {lien web},{article} : █████████10 % ??
  • x [http:// Bla] >> {lien web},{article} : ██████████0 % 150k ?
  • ⚠️️️🏛️🥝 liens externes morts : ██████████1 % 2M-3M?
  • 📘 Google Books >> {{ouvrage}} : ██████████80 %
  • 📗 Correction {{ouvrage}} avec ISBN : ██████████70 % 300k
  • 📗 Correction {{ouvrage}} sans ISBN : █████████10 % 1.2M

Philosophie des modifications par le bot

modifier
 
À l'identique d'une moissonneuse-batteuse dans un champ de blé, le travail automatisé. Le champ est immense, la perte de quelques épis sans importance.

Les modifications de CodexBot sont fréquemment imparfaites aux yeux des humains, mais elles respectent le principe crucial : « La référence est mieux qu'avant. ».

Ce principe est lié à la masse de corrections en attente, qui ne pourront JAMAIS être toutes améliorées par des humains en raison de la quantité. Le « mieux » est suffisant.

De même, les erreurs du bot sont considérées par rapport à leur impact global. En raison de la complexité technique du traitement réalisé (prédiction, import de données non fiables) et des moyens restreints alloués, des erreurs sont inévitables. Le souci est de rester dans une proportion acceptable d'erreurs : si l'erreur est très rare et sans gravité pour l'article : « Tant pis ! ». On ne bloque pas en écriture un rédacteur humain qui commet parfois une faute de grammaire ;-)

Les suggestions d'améliorations sont prises en compte si elles semblent pertinentes par rapport à la masse de corrections potentielles, et au temps de développement bénévole nécessaire. Ce n'est pas une question de bonne ou mauvaise volonté, mais de rentabilité. Typiquement en dessous de 10 000 références impactées, c'est rarement rentable. La solution d'une requête ponctuelle (WP:RBOT) sera préférée.

Histoire

modifier
 
Suivi sur console de la complétion bibliographique, 2019

La première version a été lancée avec ZiziBot en août 2011[2], convertissait les modèles anglophones {{cite book}} et complétait les modèles avec les données Worldcat. Cette version a été stoppée en juin 2012, la maintenance du code et la communication avec les contributeurs humains devenant toutes deux un peu trop compliquées.

En septembre 2019, une nouvelle version a été expérimentée, avec l'aide d'une équipe de contributeurs bénévoles ayant consacré du temps au contrôle de la qualité des éditions du bot et aux suggestions d'améliorations : Ypirétis, Evynrhud et d'autres. Après de nombreuses semaines d'expérimentation, le bot est devenu pleinement opérationnel en novembre 2019. La première tâche de complétion a été prévue pour durer une pleine année, en raison de limitations techniques (quotas Google). En 2020-2021, l'ensemble des ouvrages comportant un ISBN est vérifié.

Depuis avril 2020[3], CodexBot expérimente la conversion des liens externes bruts (http://) en jolies références (modèle ouvrage, article ou lien web). Ce traitement concerne plus de 20 millions de liens et s'étalera sur plusieurs années.

Schéma à la noix

modifier
 
Le bot est composé de processus indépendants (workers)

Dernières éditions des bots

modifier

CodexBot:

27 décembre 2024

24 décembre 2024

23 décembre 2024

22 décembre 2024

21 décembre 2024

20 décembre 2024

19 décembre 2024

18 décembre 2024

17 décembre 2024

16 décembre 2024

15 décembre 2024

14 décembre 2024

13 décembre 2024

11 décembre 2024

10 décembre 2024

8 décembre 2024

CodexBot2:

28 décembre 2024

27 décembre 2024

Fonctionnalités en projet

modifier

Ton cerveau humain serait utile pour corriger les erreurs que j'ai détecté.

1 pages à traiter

Les expérimentations sont souvent réalisées avec le bot ZiziBot.

Liens web et articles :

  • augmentation de la cadence, augmentation du taux de complètement. Actuellement 1500 liens modifiés par jour (50k/mois), c'est trop peu. Une estimation de 500 liens/{{lien web}} ajoutés chaque jour par les rédacteurs.
  •   Surveillance des RC
  •   {{lien web}} : vérification, complètement, récupération d'archive…
  •   Conversion refs "[http:// bla] {{p.|33}} patati" => {{lien web}}/{{article}}
  •   Complètement archive avec Archive.today
  •   Extraction des dates d'édition/ajout d'un lien brisé
  •   Conversion des {{lien brisé}} => {{lien web}} avec archive
  •   Gestion/nettoyage des URL signalées comme spam ou usurpé
  •   Concaténation des refs identiques (+page) sur même article
  •   Création de nouveaux modèles pour lien d'archive

Ouvrages :

  •   Surveillance des RC
  •   Conversion des refs d'ouvrage manuscrites en modèle (exemple)
  •   Complètement des {{ouvrage}} sans ISBN
  •   Export des citations biblio vers Wikidata + conversion {{Bibliographie}}

Contributeurs

modifier

De nombreux contributeurs ont aidé à la conception du bot, notamment Evynrhud et Ypirétis. Avec les idées, signalements de bugs, avis de sondage de : Pierre cb, Frédéric-FR, Hégésippe, Okhjon, Herr Satz, Arroser, Dfeldmann, RSVartanian, Éduarel, TwoWings, HB, Sijysuis, Cheep, NicoV, Kokonino, Ça va sans l'dire, Le Silure, TED, VegaPic-Sou, Daehan, Cortomaltais, Verbex, Ideawipik, (:Julien:), Vers75, Kokonino, Msbbb, Epok, 103.251.44.162, Eru, Thibaut120094, Kikuyu3, Paul.schrepfer, SyntaxTerror, Orlodrim, Litlok, Croquemort Nestor.

Pensée pour les wikignomes qui corrigent suite aux signalements du bot, notamment Paul S..

Le saviez-vous ?

modifier

En 2021, plus de 12 000 références {{ouvrage}} étaient ajoutées chaque mois (soit 400/jour). Peut-être 9 000 {{article}} chaque mois. Pour un total de plus de 1 million de références {{ouvrage}} début 2021.

Si le nombre d'articles de la Wikipédia en français a doublé entre 2010 et 2019, le nombre de citations bibliographiques a peut-être été multiplié par 20 ! Par exemple, le nombre de modèle {{ouvrage}} est passé de 45 000 vers 2011 à 930 000 fin 2019.

Le mathématicien russe Vladimir Levenshtein (1939-2017) a conçu en 1965 un calcul de distance entre des chaînes de caractères, qui est utilisé par le bot pour corriger les fautes de typo dans le nom des paramètres.

Les articles avec le plus grand nombre de modèles {{ouvrage}} sont Aventures et Passions (973) et Bibliographie sur l'Union européenne (789).

Partenaires

modifier

Notifications +

modifier

Dernières notifications du bot :

Autres liens

modifier

  CodexBot (edits, edits2) + ZiziBot (edits)DiscussionsFAQSondagesMonitoring • Configuration : sites externesdomain banISBNvilles

 
Humain tu donner ! 1 merci => 1000 edits sinon pas travail

Références et notes

modifier