Utilisateur:PAC2/Wikipédia et les grands modèles de langage

Cet essai reprend largement une tribune publiée dans RAW en février 2023.

Contexte

modifier

En avril 2022, Angela Fan, chercheuse chez Meta AI, communique sur un algorithme capable de générer des biographies de femmes pour combler le fossé de genre[1],[2].

En juillet 2022, Fabio Petroni, également chercheur chez Meta AI, publie Cite, un système qui trouve automatiquement une référence pour les passages non sourcés sur la Wikipédia en anglais[3].

Le 15 novembre 2022, Meta AI et Papers with code publient Galactica, un modèle de langage entraîné sur 48 millions d'articles scientifiques. Les auteurs mettent en avant le fait que le modèle pourrait générer des articles Wikipédia automatiquement. Des utilisateurs ont d'emblée remarqué que Galactica était capable d'écrire des articles Wikipédia absurde comme cet article sur les ours vivants dans l'espace[4],[5].

Fin novembre, OpenAI publie ChatGPT, un modèle de langage qui séduit de nombreux utilisateurs. Des utilisateurs ont évidemment testé la possibilité d'utiliser ChatGPT pour générer des articles. Par exemple, l'article Artwork title de la Wikipédia anglophone a été rédigé dans sa première version par ChatGPT et publié par l'utilisateur Pharos[6],[7].

Toutes ces initiatives reposent sur l'idée que l'on pourrait améliorer Wikipédia en utilisant des outils de traduction automatique ou de génération automatique.

Peut-on réduire ou combler un biais de l'encyclopédie grâce à la rédaction automatique ?

modifier

Angela Fan se donne pour objectif de réduire le biais de genre sur Wikipédia en utilisant des méthodes de rédaction automatique. Derrière l'intention qui est louable, on peut se demander si c'est vraiment ce qu'on veut. Le biais de genre comporte deux aspects essentiels, le fossé de la participation (surreprésentation des hommes parmi les contributeur·rices) et le biais dans le contenu (surreprésentation des hommes dans les articles biographiques). On n'aura rien gagné si on réduit la seconde dimension sans réduire la première. Augmenter automatiquement le nombre de biographies consacré à des femmes ne réduirait qu'artificiellement le biais de genre. Ce qu'on veut vraiment c'est diversifier la communauté des contributeur·rices, avoir des points de vues diversifiés, des centres d'intérêt diversifiés, des références diversifiées, etc. Est-ce que ç'a vraiment du sens de réduire le biais de genre avec des bots ou des outils de rédaction automatisée ?

Qui prendra soin des articles créés automatiquement ?

modifier

Le projet de créer massivement et automatiquement des articles laisse de côté la question de l'entretien des articles. Écrire un article, ça n'est pas seulement le créer à une date donnée. C'est aussi y revenir de temps en temps, l'améliorer, le relier à d'autres articles, etc. Pour un article créé automatiquement au milieu de centaines d'autres, personne n'aura dans un coin de sa tête d'y revenir de temps en temps pour voir ce qu'il est devenu. On risque de se retrouver avec un grand nombre d'articles en jachère. Est-ce qu'in fine une création massive d'articles avec des outils de création automatique ne risque pas de dégrader la qualité de l'encyclopédie ?

Est-ce qu'on veut déléguer aux bots des tâches de mise en forme ou est-ce que les bots vont nous déléguer les basses besognes de mise en forme ?

modifier

Dans son ouvrage En attendant les robots, le sociologue Antonio Casilli pose la question suivante : « Les humains vont-ils remplacer les robots ? ». Il montre que derrière les intelligences artificielles, il y a souvent (ou toujours) du travail humain de tâcheron pour labelliser les données, corriger ou superviser les sorties de l'algorithme. En bref, ce qu'il appelle du travail du clic ou du digital labor. Alors que l'intelligence artificielle est sensée nous délivrer les tâches subalternes pour nous permettre de nous concentrer sur l'essentiel, c'est bien souvent le contraire qui se produit puisque une armée de travailleurs invisibles sont employés à produire les données labellisées.

On retrouve cette même question avec la création automatique d'articles. Par exemple, dans le Projet Les Mille Pages, on délègue au bot le travail créatif de rédaction et aux humains le travail rébarbatif de relecture et de mise en forme. On va peut-être plus vite mais est-ce qu'on y prend plus de plaisir ? Est-ce que les contributeurs et contributrices ont envie sur leur temps libre et par plaisir de faire un travail riche et créatif de rédaction ou un travail rébarbatif de mise en forme et de relecture ?

Les bots ont-ils une faculté de jugement ?

modifier

La tentation d'utiliser des modèles de langage comme BERT, GPT-3, Galactica ou ChatGPT pour rédiger Wikipédia risque de devenir de plus en plus grande. Dans un article célèbre, les chercheuses Emily Bender, Timnit Gebru, Angelina McMillan-Major et Margaret Mitchell ont avec justesse défini ces modèles de langage comme des perroquets stochastiques[8]. Comme l'explique Emily Bender, ChatGPT est un modèle de langage, pas un modèle de connaissance. Il produit des énoncés vraisemblables mais sans que l'on n'ait aucun moyen de savoir si l'énoncé est vrai ou non[9]. Comme le dit Olivier Ertzscheid, le problème c'est qu'il faut être soi-même expert du domaine pour savoir si la réponse de ChatGPT est pertinente. On risque de dépenser plus d'énergie à vérifier ou réfuter ce que dit ChatGPT qu'autre chose[10]. Iris van Rooij va plus loin et propose d'entrer en résistance contre ChatGPT. Pour elle, les textes générés par ChatGPT relèvent du plagiat[11].

« Je ne vois pas l'intérêt d'écrire des dissertations en produisant la forme d'une dissertation. »[12]

— Emily Bender, citée par Iris van Rooij

On pourrait reprendre la citation d'Emily Bender et l'adapter à Wikipédia : Au-delà de la hype actuelle, quel est l'intérêt d'écrire des articles de Wikipédia en reproduisant simplement la forme d'un article de Wikipédia ?

Bien sûr, ChatGPT permet de générer facilement du texte qui ressemble à un article de Wikipédia mais ChatGPT ne sait pas distinguer le vrai du faux, n'a aucune faculté de jugement et ne cite jamais ses sources. La valeur de Wikipédia ne vient pas tant de la somme des textes rédigés que de la somme des jugements des contributeurs et contributrices qui attestent que tel ou tel énoncé est vrai ou à minima vérifiable.

Le chat(GPT) va-t-il se mordre la queue ?

modifier

Les modèles de langage sont entraînés sur des corpus de texte issus du Web. Évidemment, Wikipédia est un corpus très largement utilisé pour entraîner tous les modèles de langage. Si Wikipédia devient lui-même écrit par des générateurs automatiques de langage, on risque à l'avenir d'entraîner les futurs IA sur des corpus eux-mêmes rédigés par des IA. Cela créerait une sorte de boucle algorithmique infinie. Est-ce qu'on n'aurait pas envie de préserver certaines zones comme Wikipédia de la génération automatique de textes rien que pour garder une sorte de « zone naturelle » du langage ? Est-ce que Wikipédia ne pourrait pas être une zone à défendre numérique ?

Où allons-nous ? Où voulons-nous aller ?

modifier

Quelles que soit les règles dont se dote la communauté, il faut garder en tête de :

  • faire grandir la communauté, pas seulement le contenu ;
  • prendre soin des articles et les faire grandir au-delà de leur création ;
  • laisser aux humains le travail créatif plutôt que le travail rébarbatif ;
  • c'est la somme des jugements humains qui fait la qualité de Wikipédia et que l'usage de telle ou telle solution automatisée ne pourra jamais se substituer au jugement humain.

Notes et références

modifier
  1. https://www.ictjournal.ch/articles/2022-04-20/feminiser-wikipedia-avec-des-biographies-generees-automatiquement
  2. https://about.fb.com/news/2022/03/generating-biographies-of-marginalized-groups/
  3. https://tech.facebook.com/artificial-intelligence/2022/07/how-ai-could-help-make-wikipedia-entries-more-accurate/
  4. https://www.technologyreview.com/2022/11/18/1063487/meta-large-language-model-ai-only-survived-three-days-gpt-3-science/
  5. https://mobile.twitter.com/meaningness/status/1592634519269822464
  6. (en) Stephen Harrison, « Should ChatGPT Be Used to Write Wikipedia Articles? », Slate,‎ (lire en ligne).
  7. Voir aussi Bistro/5 janvier 2023
  8. (en) Emily Bender, Timnit Gebru, Angelina McMillan-Major et Shmargaret Shmitchell, « On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜 », FAccT '21: Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency,‎ , p. 610–623 (DOI 10.1145/3442188.3445922)
  9. https://mastodon.social/@emilymbender@dair-community.social/109456744841315414
  10. Olivier Ertzscheid, « GPT-3 : c’est toi le Chat. », Affordance,‎ (lire en ligne).
  11. https://irisvanrooijcogsci.com/2023/01/14/stop-feeding-the-hype-and-start-resisting/
  12. Citation originale: « I don’t see the point of writing essays as producing the form of an essay. » - (en) Iris van Rooij, « Against automated plagiarism », Blog d'Iris van Rooij,‎ (lire en ligne).

Voir aussi

modifier