Bibliométrie

analyse statistique de l'activité et des publications scientifiques

La bibliométrie est une méta-science qui prend la science pour objet d'étude. Elle concerne trois éléments de l'activité scientifique : ses intrants, ses extrants et ses impacts[1].

La bibliométrie peut être définie comme « l’application des mathématiques et des méthodes statistiques aux livres, articles et autres moyens de communication (Beauvens, 1969[2]). » Ses méthodes sont fréquemment employées au sein des bibliothèques et dans les sciences de l’information. La bibliométrie est étroitement associée à la scientométrie, qui consiste à analyser des métriques et des indicateurs scientifiques, au point que les deux concepts sont fortement imbriqués.

Les premières études bibliométriques apparaissent à la fin du XIXe siècle. Elles connaissent un développement important après la Seconde Guerre mondiale, mues par un contexte de « crise des périodiques » et par les nouvelles possibilités techniques offertes par l’informatique. Au début des années 1960, le Science Citation Index d’Eugene Garfield et l’analyse des réseaux de citations de Derek John de Solla Price ont jeté les bases d’un programme de recherche structuré sur la bibliométrie. Avec la diversification des supports de communication au début des années 1990 plusieurs termes plus englobants ou spécialisés ont été proposés sans être largement adoptés : scientométrie, webométrie, infométrie[3].

L’analyse des citations est une méthode bibliométrique courante qui repose sur la construction d’un graphe de citations[4], à savoir une représentation graphique ou en réseau des citations partagées entre documents. De nombreux domaines de recherche utilisent des méthodes bibliométriques pour étudier plusieurs types d’impacts : celui de leur domaine, celui d’un ensemble de chercheurs, celui d’un article particulier ou pour identifier les articles ayant un impact spécifique dans un domaine précis. Les outils bibliométriques sont amplement utilisés en linguistique descriptive, pour développer des thésaurus et pour évaluer l’usage par les lecteurs. Au-delà de l’utilisation scientifique spécialisée, les moteurs de recherche populaires sur le Web, comme l’algorithme PageRank de Google, s’inspirent très fortement des principes et méthodes bibliométriques.

Les courants sociologiques les plus contrastés, du fonctionnalisme de R. K. Merton aux courants radicaux de la sociologie des années 1980 dans leur application aux « acteurs » de recherche (programme fort, science studies, sociologie de la traduction devenue théorie de l'acteur-réseau, ANT), s'accordent sur une chose, le rôle central de la publication dans la vie scientifique. C'est l'hypothèse fondatrice de la scientométrie que de reconnaître dans les traces bibliométriques (publications, citations) et les réseaux associés un miroir de l'activité scientifique. Au-delà de ce fonds commun, une grande diversité de pratiques de publication et de citation se manifeste selon les disciplines ou les types de recherche.

L’émergence du Web et du mouvement de la science ouverte a progressivement transformé la définition et l’objet de la bibliométrie. Dans les années 2010, les infrastructures historiques de gestion des données de citations telles que Web of Science ou Scopus commencèrent à subir la concurrence de nouvelles initiatives plus ouvertes. Le Manifeste de Leyde pour la mesure de la recherche (2015) a ouvert un vaste débat sur l’usage et la transparence des métriques.

Définition

modifier
 
Définitions des principaux champs de recherche associés à la bibliométrie

La première utilisation du terme bibliométrie est attribuée à Paul Otlet en 1934[5]. Il est défini comme « la mesure de tous les aspects liés à la publication et à la lecture de livres et de documents ».[6]. » La version anglicisée bibliometrics fut initialement employée par Alan Pritchard dans un article publié en 1969 intitulé Statistical Bibliography or Bibliometrics?[7], avec la définition suivante : « l’application des mathématiques et des méthodes statistiques aux livres et aux autres moyens de communication. » Le terme bibliométrie est conçu pour remplacer l’expression bibliographie statistique, principale appellation jusqu’alors employée dans les publications spécialisées : pour Alan Pritchard, « bibliographie statistique » est trop « ambigu » et ne précise pas clairement l’objet principal de l’étude[8].

Le concept de bibliométrie « souligne l’aspect matériel de l’entreprise : compter les livres, les articles, les publications, les citations[9]. » En théorie, la bibliométrie est un domaine distinct de la scientométrie (du russe naukometriya)[10] qui repose sur l’analyse d’indicateurs non bibliographiques de l’activité scientifique. En pratique, les études bibliométriques et scientométriques utilisent généralement des sources et des méthodes similaires, car les données de citations sont devenues la principale norme d’évaluation scientifique quantitative au milieu du XXe siècle : « Dans la mesure où les techniques bibliométriques sont appliquées à la littérature scientifique et technique, les domaines de la scientométrie et de la bibliométrie se superposent considérablement[9]. » Le développement du Web et l’élargissement de l’approche bibliométrique à la production non scientifique ont entraîné l’apparition de dénominations plus larges dans les années 1990 et 2000 : infométrie, webométrie et cybermétrie[11]. L’adoption de ces termes est restée marginale, car ils recoupent partiellement des pratiques scientifiques existantes, comme la recherche d’informations.

Historique

modifier

Premières expérimentations (1880-1914)

modifier

L’analyse bibliométrique est apparue au tournant du XXe siècle[12],[13],[14],[15]. Le phénomène précède de plusieurs décennies la première mention du concept de bibliométrie. D’autres appellations étaient plus répandues : l’expression statistiques bibliographiques s’emploie couramment après 1920 et reste d’usage jusqu’à la fin des années 1960[15]. Les premières études statistiques sur les métadonnées scientifiques sont motivées par la hausse significative des productions de la recherche et le développement parallèle des services d’indexation de bases de données qui facilitaient l’accès à ces informations[16]. Une ébauche d’index des citations fut appliquée à la jurisprudence dans les années 1860, et le Shepard’s Citations de 1873 (l’exemple le plus célèbre) inspirera directement le Science Citation Index un siècle plus tard[17].

L’émergence des sciences sociales a inspiré de nouvelles recherches spéculatives sur la science de la science et la possibilité d’étudier la science elle-même en tant qu’objet scientifique : « L’idée que les activités sociales, y compris la science, peuvent être réduites à des lois quantitatives, tout comme la trajectoire d’un boulet de canon et les révolutions des corps célestes, remonte à la sociologie positiviste d’Auguste Comte, William Ogburn et Herbert Spencer[18]. » L’analyse bibliométrique n’a pas été conçue comme une étude à part entière, mais comme l’une des méthodes disponibles pour étudier quantitativement l’activité scientifique dans différents domaines de recherche : l’histoire des sciences (Histoire des sciences et des savants depuis deux siècles, d’Alphonse de Candolle en 1885, The History of Comparative Anatomy, a Statistical Analysis of the Literature, de Francis Joseph Cole et Nellie B. Eales en 1917), la bibliographie (The Theory of National and International Bibliography, de Francis Burburry Campbell en 1896) et la sociologie de la connaissance scientifique (Statistics of American Psychologists, de James McKeen Cattell en 1903).

Les premiers travaux de bibliométrie et de scientométrie n’étaient pas simplement descriptifs. Ils exprimaient des points de vue normatifs sur ce que devrait être la science et ses axes possibles de progression. Mesurer les performances des chercheurs, des institutions scientifiques ou de pays entiers était un objectif majeur.[16] L’analyse statistique de James McKeen Cattell a préparé le terrain d'une évaluation à grande échelle des chercheurs américains sur fond d’eugénisme dans American Men of Science (1906), « avec son système d’évaluation étonnamment simpliste d’astérisques rattachés à des entrées en proportion de l’éminence estimée du savant désigné[12]. »

Développement des statistiques bibliographiques (1910-1945)

modifier
 
Un exemple précoce d'analyse bibliométrie de corpus scientifique sur l'anatomie par Francis Joseph Cole et Nellie B. Eales en 1917, avec une subdivision par sujet/pays.

Après 1910, l'analyse quantitative des bibliographie commence à s'imposer comme une méthodologie de référence de pour étudier une production scientifique ou dsiciplinaire[19]. En 1917, Francis Joseph Cole et Nellie B. Eales militent pour la valeur statistique primaire des publications, car une publication « est une œuvre isolée et définie, elle est permanente, accessible et peut être jugée ; dans la plupart des cas, il n’est pas difficile de déterminer quand, où et par qui elle a été réalisée et de reporter les résultats sur du papier quadrillé[20]. » Cinq ans plus tard, Edward Wyndham Hulme approfondit l’argument en expliquant que les publications pourraient être considérées comme l’étalon de mesure de toute une civilisation : « Si la civilisation n’est que le produit de l’esprit humain opérant sur la plateforme mouvante de son environnement, nous pouvons prétendre que la bibliographie n’est pas seulement un pilier dans la structure de l’édifice, mais qu’elle peut servir à mesurer les forces variables auxquelles cette structure est continuellement soumise[21]. » Cette aspiration à prendre en compte les publications n’a qu’un impact limité sur les politiques de la recherche : jusque dans les années 1970, l’évaluation nationale et internationale des activités scientifiques « se désintéresse des indicateurs bibliométrique » jugés trop simplistes, au profit de mesures sociologiques et économiques.[22]

La nouvelle importance accordée aux publications scientifiques en tant que mesure de la connaissance et les difficultés des bibliothèques à gérer le flux croissant de périodiques académiques ont entraîné le développement des premiers index de citations[23]. En 1927, P. Gross et E. M. Gross compilent les 3 633 références citées par le Journal of the American Chemical Society au cours de l’année 1926 et classent les revues en fonction du niveau de citation. Les deux auteurs ont créé un ensemble d’outils et de méthodes encore utilisés aujourd’hui par les moteurs de recherche universitaires, notamment l’attribution d’un bonus aux citations récentes, car « la tendance actuelle plutôt que les performances passées d’une revue devrait être la première des considérations[24]. » Pourtant, l’environnement scientifique mesuré est alors sensiblement différent : l’allemand, plutôt que l’anglais, est de loin la langue principale de la chimie, avec plus de 50% du total des références[25].

Au cours de la même période, des indicateurs et des méthodes de calcul standardisés commencent à émerger, généralement pour rendre compte des inégalités structurelles de la production scientifique[26]. En 1926, Alfred Lotka présente sa loi de productivité à partir d’une analyse des publications dans Chemical Abstracts et Geschichtstafeln der Physik : le nombre d’auteurs produisant n contributions est égal au nombre 1/n^2 d’auteurs n’ayant produit qu’une seule publication[27]. En 1934, le bibliothécaire en chef du Science Museum de Londres, Samuel Bradford, développe la loi de la diffusion à partir de son expérience de l’indexation bibliographique : le rendement de la recherche de références dans les revues scientifiques est exponentiellement décroissant, car il faut consulter de plus en plus d’ouvrages pour trouver des travaux pertinents. D’après leurs contempteurs, les lois de Lotka et Bradford étaient loin d’être universelles et mettaient plutôt en évidence une relation approximative de type loi de puissance obtenue au moyen d’équations à la précision trompeuse[28].

Crise des périodiques, numérisation et index des citations (1945-1960)

modifier

Après la Seconde Guerre mondiale, les difficultés croissantes de gestion et d’accès aux publications scientifiques ont abouti à une véritable crise des périodiques : les revues ne pouvaient pas suivre l’accélération de la production scientifique stimulée par les projets de Big Science[29],[10]. La question est devenue politiquement sensible aux États-Unis après le lancement réussi de Spoutnik en 1957 : « La crise du Spoutnik a transformé le problème du contrôle bibliographique rencontré par les bibliothécaires en crise nationale de l’information[30]. » Dans un contexte de changements rapides et spectaculaires, le domaine émergent de la bibliométrie était lié à des réformes à grande échelle de l’édition universitaire et à des visions presque utopiques de l’avenir scientifique.

En 1934, Paul Otlet s’appuie sur le concept de bibliométrie (ou bibliologie) pour lancer un projet ambitieux visant à quantifier l’impact des textes sur la société. Contrairement à la définition restrictive de la bibliométrie qui s’impose après les années 1960, celle d’Otlet dépasse le cadre de l’édition scientifique, la publication n’y étant même pas fondamentale : elle consistait à « réduire les textes à des éléments atomiques, ou idées, qu’il situait dans les différents paragraphes (alinéa, verset, articulet) formant un livre[31]. » En 1939, John Desmond Bernal imagine un réseau d’archives scientifiques auquel la Royal Society s’intéressa brièvement en 1948 : « L’article scientifique envoyé à l’office central de publication, après approbation par un comité de lecture, serait microfilmé et une sorte de système d’impression à la demande serait ensuite mis en place[32]. » Sans qu’il utilise pour autant le concept de bibliométrie, l’influence de Bernal est formatrice pour des grandes figures du domaine telles que Derek John de Solla Price.

Les technologies informatiques naissantes sont immédiatement considérées comme une solution potentielle pour rendre lisibles et consultables un plus grand nombre de productions scientifiques. Au cours des années 1950 et 1960, une vague d’expériences spontanées dans les technologies d’indexation entraîna le développement rapide de concepts majeurs de la recherche informatique.[33] En 1957, Hans Peter Luhn, ingénieur chez IBM, fit autorité avec un paradigme d’analyse statistique de la fréquence des mots, selon lequel « la communication d’idées au moyen de mots repose sur une probabilité statistique[34]. » De plus, la traduction automatique de travaux scientifiques non anglophones a fortement contribué à la recherche fondamentale sur le traitement en langage naturel des références bibliographiques. En effet, à l’époque, un grand nombre de publications scientifiques n’étaient pas encore disponibles en anglais, en particulier celles provenant du bloc soviétique. Des membres influents de la Fondation nationale pour la science tels que Joshua Lederberg plaident pour la création du SCITEL, un « système d’information centralisé » partiellement inspiré des principes de John Desmond Bernal. Dans un premier temps, ce système devait coexister avec les revues imprimées avant de les remplacer progressivement du fait de son efficacité[35]. Dans le plan présenté par Joshua Lederberg à Eugene Garfield en novembre 1961, un référentiel centralisé devait indexer jusqu’à un million d’articles scientifiques par an. Au-delà de la recherche en texte intégral, l’infrastructure est également appelée à gérer les citations et d’autres métadonnées, mais aussi effectuer la traduction automatique des articles en langue étrangère[36].

Le premier prototype opérationnel de système de recherche en ligne développé en 1963 par Doug Engelhart et Charles Bourne à l’Institut de recherche de Stanford prouve la faisabilité du concept, bien que fortement limité par des problèmes de mémoire : il ne pouvait pas indexer plus de 10 000 mots d’un petit nombre de documents.[37] Les premières infrastructures informatiques scientifiques se concentrent sur certains domaines de recherche, par exemple MEDLINE pour la médecine, NASA/RECON pour l’ingénierie spatiale ou OCLC Worldcat pour les collections de bibliothèques : « Parmi les anciens systèmes de recherche en ligne, la plupart donnaient accès à une base de données bibliographiques, les autres utilisaient un fichier contenant d’autres types d’informations comme des articles d’encyclopédie, des données d’inventaire ou des composés chimiques[38]. » La focalisation exclusive sur l’analyse de texte s’est avérée restrictive à mesure de la croissance des collections numérisées : une requête pouvait donner un grand nombre de résultats, et il était difficile d’en évaluer la pertinence et l’exactitude[39].

La crise des périodiques et les limites des technologies de recherche dans les index ont motivé le développement d’outils bibliométriques et de grands index de citations comme le Science Citation Index d’Eugene Garfield. Celui-ci travaillait initialement sur l’analyse automatisée de textes. Contrairement aux investigations en cours largement axées sur les relations sémantiques internes, Garfield souligne « l’importance du métatexte dans l’analyse du discours », comme les phrases d’introduction et les références bibliographiques.[40] Les formes secondaires de production scientifique, telles que les revues de la littérature et les notes bibliographiques, sont devenues essentielles à la vision de Garfield, comme elles l’étaient déjà à la perception des archives scientifiques de John Desmond Bernal[41].

En 1953, Garfield se consacre définitivement à l’analyse des citations : dans une lettre privée à William C. Adair, le vice-président de l’éditeur de l’index Shepard’s Citations, « il propose une solution éprouvée au problème de l’indexation automatique, à savoir "shepardiser" la littérature biomédicale, afin de démêler l’écheveau de son contenu en suivant le fil des liens de citation, comme le faisait Shepard’s Citations avec les décisions de justice[42]. » En 1955, Garfield publie son article fondateur, Citation Indexes for Science, qui définit les grandes lignes du Science Citation Index et influence considérablement l’évolution de la bibliométrie[42].

L’index général des citations préfiguré par Garfield est au départ un simple composant de l’ambitieux projet de Joshua Lederberg visant à informatiser la littérature scientifique[43]. Faute de financement, ce projet n’a jamais vu le jour[44]. En 1963, Eugene Garfield crée l’ISI (Institute for Scientific Information) afin de rentabiliser les projets initialement esquissés avec Joshua Lederberg.

Réductionnisme bibliométrique, métriques et structuration du champ de recherche (1960-1990)

modifier

Le domaine de la bibliométrie s’est constitué parallèlement au développement du Science Citation Index, qui allait devenir son infrastructure fondamentale et sa source de données[45] : « Si le début du XXe siècle vit apparaître des méthodes nécessaires à l’évaluation de la recherche, le milieu de ce même siècle fut caractérisé par le développement d’institutions qui ont motivé et facilité cette évaluation[46]. » Les influences significatives de ce domaine naissant incluent John Desmond Bernal et Paul Otlet, mais aussi Robert K. Merton et sa sociologie des sciences réinterprétée de manière normative : l’effet Matthieu, c’est-à-dire l’intérêt croissant pour des chercheurs déjà connus, n’est plus considéré comme une dérive mais comme une caractéristique de la science normale[47].

Un disciple de Bernal, l’historien des sciences britannique Derek John de Solla Price contribue à fixer ce nouveau paradigme : après « la publication de Science Since Babylon (1961), Little Science, Big Science (1963) et Networks of Scientific Papers (1965) par Derek Price, la scientométrie dispose déjà d’une solide boîte à outils empirique et conceptuelle[45]. » Price est un partisan du réductionnisme bibliométrique[48]. Comme Francis Joseph Cole et Nellie B. Eales en 1917, il souteint que la publication est la meilleure norme possible pour articuler une étude quantitative de la science : elle « s’apparente à un assemblage de briques que l’habileté et l’artifice ont transformé pour l’éternité en un édifice intellectuel reposant sur des fondations primitives[49]. » Price a amplifié cette approche réductionniste en limitant à son tour le vaste ensemble de données bibliographiques existantes aux données de citations.

Comme Garfield, Price accepte le postulat d’une inégalité structurelle de la production scientifique. Selon lui, une minorité de chercheurs génère une grande partie des publications et un nombre encore plus réduit possède un impact réellement mesurable sur les recherches ultérieures (avec seulement 2 % des articles cités au moins 4 fois à l’époque)[50]. Malgré l’essor inédit de la science après-guerre, D J Price pressentait l’existence d’un collège invisible de scientifiques d’élite qui, comme au temps de Robert Boyle, se chargeait des travaux les plus importants[51]. Price avait conscience des relations de pouvoir qui permettent la domination d’une telle élite, mais il subsistait une ambiguïté fondamentale dans les études bibliométriques : elles mettaient en évidence la concentration de l’édition universitaire et du prestige, et pourtant elles créaient des outils, des modèles et des métriques normalisant les inégalités en place[51].

La position centrale du Scientific Citation Index a amplifié cet effet performatif. À la fin des années 1960, Eugene Garfield formule une loi de concentration qui, en fait, réinterpréte la loi de diffusion de Samuel Bradford, avec une différence majeure : tandis que Bradford s’exprimait dans la perspective d’un projet de recherche spécifique, Garfield généralise sa loi à l’ensemble des publications scientifiques, « toutes disciplines confondues, la littérature scientifique représente un noyau d’au plus 1000, voire 500 revues. » Cette loi justifie également la limitation pratique de l’index des citations à un sous-ensemble de revues majeures, avec l’hypothèse implicite qu’une extension à des revues de second rang affecterait quantitativement les résultats[52]. Plutôt que de simplement observer les tendances et les modèles structurels, la bibliométrie tend à les amplifier et à les stratifier davantage : « En poussant leur logique jusqu’au bout, les index de citations d'Eugen Garfield auraient dépeint une littérature scientifique stratifiée, produite par un groupuscule de revues internationales incontournables de haute qualité et détenues par un nombre toujours plus faible de multinationales dominant le marché mondial de l’information[53]. »

Sous l’impulsion de Garfield et Price, la bibliométrie est devenue à la fois un domaine de recherche et un terrain d’essai pour l’évaluation quantitative de la recherche. Ce dernier point n’est pas un objectif majeur du Science Citation Index, mais il s’est développé progressivement : le célèbre facteur d’impact est imaginé dans les années 1960 par Garfield et Irving Sher pour sélectionner le noyau dur des revues devant figurer dans Current Contents et le Science Citation Index. Il n’a été publié régulièrement qu’à partir de 1975[54]. La métrique elle-même est un rapport très simple entre le nombre total de citations de la revue pendant l’année écoulée et sa productivité lors des deux dernières années, ceci afin de pondérer la prolificité de certaines publications.[55] Par exemple, en 2017 le facteur d’impact de Nature était de 41,577[56] :

 

Il est probable que la simplicité du facteur d’impact ait considérablement favorisé son adoption par les institutions scientifiques, les revues, les bailleurs de fonds et les évaluateurs : « Aucune des versions revisitées ou des substituts du FI de l’ISI n’a dépassé le cadre d’acceptation de ses propres partisans, peut-être parce que les prétendues alternatives étaient bien plus délicates à interpréter que l’original[57]. » En plus de ces mesures simplifiées, Garfield continue à soutenir et financer la recherche fondamentale en histoire et sociologie des sciences. Sorti en 1964, l’ouvrage The Use of Citation Data in Writing the History of Science compile plusieurs études de cas expérimentales s’appuyant sur le réseau de citations du Science Citation Index, avec notamment une reconstitution quantitative de la découverte de l’ADN[58]. L’intérêt de Garfield pour ce domaine persista bien après le rachat de l’Index par Thomson Reuters : en 2001, il dévoila HistCite, un logiciel d’« historiographie algorithmique » créé en collaboration avec Alexander Pudovkin et Vladimir S. Istomin[59].

Le virage du Web (1990-…)

modifier
 
Une représentation graphique montrant les liens entre les auteurs, leurs institutions d'affiliation et les citations de sources.

Le développement du World Wide Web et la révolution numérique ont transformé la bibliométrie en profondeur. Le Web lui-même et certains de ses composants clés (comme les moteurs de recherche) sont un héritage partiel des théories de la bibliométrie. Dans sa forme originale, il dérive d’une infrastructure scientifique bibliographique nommée ENQUIRE commandée à Tim Berners-Lee par le CERN pour les besoins spécifiques de la physique des particules. La structure d’ENQUIRE était plus proche d’un réseau interne de données : elle connectait des « nœuds » qui « pouvaient se référer à une personne, un module logiciel, etc. et pouvaient être raccordés entre eux par diverses relations telles que "fait", "inclut", "décrit", etc[60]. » Le partage des données et de leur documentation était l’un des principaux objectifs de la présentation initiale du World Wide Web lorsque le projet fut dévoilé en août 1991 : « Le projet WWW fut lancé pour permettre aux physiciens des particules de partager des données, des informations et de la documentation. L’extension du Web à d’autres domaines et la mise en place de serveurs passerelles pour d’autres données nous intéressent fortement[61]. » Le Web a rapidement supplanté les autres infrastructures en ligne, même lorsqu’elles étaient plus avancées sur le plan informatique[62].

La valeur centrale de l’hyperlien dans la conception du Web semble valider les intuitions des figures fondatrices de la bibliométrie : l’apparition du World Wide Web au milieu des années 1990 a donné plus de corps au rêve d’Eugene Garfield sur l’emploi des citations. Dans le réseau mondial de l’hypertexte, non seulement la référence bibliographique est une des formes possibles de l’hyperlien dans la version électronique d’un article scientifique, mais le Web lui-même présente une structure citative, les liens entre les pages Web étant dans la forme similaires aux citations bibliographiques[63]. Ainsi, les principales technologies de communication des algorithmes de recherche de Google se sont enrichies de notions bibliométriques : « Le concept de pertinence basé sur les citations appliqué au réseau d’hyperliens entre les pages Web allait révolutionner la façon dont les moteurs de recherche permettent aux utilisateurs de trouver rapidement des documents utiles dans l’univers anarchique de l’information numérique[64]. »

Si le Web a élargi l’influence intellectuelle de la bibliométrie bien au-delà de la recherche scientifique spécialisée, il a aussi fait voler en éclats des principes essentiels du domaine. Contrairement aux visées utopiques de Bernal et Otlet qui l’ont en partie inspiré, le Science Citation Index a toujours été pensé comme une infrastructure fermée, non seulement du point de vue de ses utilisateurs, mais aussi de l’index de collection : la conclusion logique de la théorie du collège invisible de Price et de la loi de concentration de Garfield revient à se concentrer exclusivement sur un ensemble limité de revues scientifiques majeures. Avec l’expansion rapide du Web, de nombreuses formes de publications (notamment les préprints ou prépublications), d’activités scientifiques et de communautés sont soudainement devenues visibles et ont souligné par contraste les limites de la bibliométrie appliquée[65]. L’autre aspect fondamental du réductionnisme bibliométrique, à savoir la focalisation exclusive sur les citations, est de plus en plus fragilisé par la multiplication des sources de données alternatives et l’accès sans précédent aux corpus de textes intégraux ont relancé l’analyse sémantique à grande échelle dont E Garfield avait une vision avant-gardiste au début des années 1950 : « Les liens seuls, tout comme les citations bibliographiques seules, ne semblent donc pas suffire pour cerner les modèles de communication critiques sur le Web. Dans les années à venir, leur analyse statistique suivra probablement le même chemin que l’analyse des citations, s’associant avec réussite à d’autres points de vue qualitatifs et quantitatifs émergents sur le paysage du Web[66]. »

Les liens étroits entre la bibliométrie et les fournisseurs commerciaux d’indicateurs et de données de citations se sont distendus depuis les années 1990. Les principaux éditeurs scientifiques ont diversifié leurs activités au-delà de la publication et sont passés « d’une activité de fourniture de contenu à une activité d’analyse de données[67]. » En 2019, Elsevier a acquis ou construit un vaste portefeuille de plateformes, d’outils, de bases de données et d’indicateurs couvrant en totalité les aspects et les étapes de la recherche scientifique : « Le plus grand fournisseur de revues académiques est également chargé d’évaluer et de valider la qualité et l’impact de la recherche (Pure, Plum Analytics, Sci Val), d’identifier les experts universitaires pour le compte des employeurs potentiels (Expert Lookup), de gérer les plateformes collaboratives de recherche (SSRN, Hivebench, Mendeley) et les outils de localisation des financements (PlumX, Mendeley, Sci Val), mais aussi de contrôler les plateformes permettant d’analyser et de stocker les données des chercheurs (Hivebench, Mendeley)[68]. » Les métriques et les indicateurs sont des éléments clés de cette intégration verticale : « L’évolution d’Elsevier vers un service d’aide à la décision basé sur des métriques est aussi un moyen d’accroître son influence sur l’ensemble du processus de production de connaissances et de monétiser encore plus son accumulation disproportionnée de contenus[68]. » Les marchés émergents de la publication et des données scientifiques ont été comparés au modèle économique des réseaux sociaux, des moteurs de recherche et d’autres formes de capitalisme de plateforme[69],[68],[70] L’accès au contenu est certes gratuit, mais il est indirectement rémunéré par l’extraction et la surveillance des données[71]. En 2020, Rafael Ball prévoyait un avenir sombre pour les bibliomètres, dont les recherches allaient contribuer à l’instauration d’une forme très invasive d’économie de la surveillance : les scientifiques « se verraient attribuer une série de notes qui non seulement donnerait une image plus complète de leurs performances académiques, mais aussi de leur perception, de leur comportement, de leur attitude, de leur apparence et de leur crédibilité (subjective). En Chine, ce type d’analyse des données personnelles est déjà mis en œuvre et utilisé simultanément comme levier d’incitation et de sanction[72]. »

Le Manifeste de Leyde pour la mesure de la recherche (2015) a mis en évidence le fossé croissant entre les fournisseurs commerciaux de métriques scientifiques et les communautés bibliométriques. Les signataires soulignent les dommages sociaux potentiels d’une évaluation et d’une surveillance sans contrôle basées sur les métriques : « En tant que scientomètres, spécialistes des sciences sociales et administrateurs de la recherche, nous avons observé avec une inquiétude croissante le détournement généralisé des indicateurs d’évaluation des performances scientifiques[73]. » Plusieurs réformes structurelles de la recherche bibliométrique et de l’évaluation de la recherche sont proposées, notamment un recours accru à l’évaluation qualitative et l’adoption d’une approche « ouverte, transparente et simple » de la collecte de données[73]. Le Manifeste de Leyde a suscité un important débat parmi les acteurs de la bibliométrie, de la scientométrie et de l’infométrie, certaines critiques estimant que l’élaboration de métriques quantitatives ne rend pas responsable des utilisations abusives au sein des plateformes commerciales et de l’évaluation de la recherche.[74]

Fondements théoriques

modifier

Les régularités statistiques

modifier

Les premières théories bibliométriques mettent à jour différentes asymétries dans la production savante. Elles renvoient à différentes régularités statistiques qui ont été observées empiriquement entre 1926 et 1935 : la loi de Lotka, la loi de Bradford et la loi de Zipf.

  • Selon la loi de Lotka, les systèmes de production et de reconnaissance en sciences suivent une distribution de Pareto, avec 20% des chercheurs qui produisent 80% des publications. Cette loi a été développée par le statisticien Alfred J. Lotka en 1926. Elle permet de comprendre le système de la reconnaissance scientifique.
  • Selon la loi de Bradford, les références suivent une distribution de Pareto, avec 20% des revues qui publient 80% des articles les plus cités. Cette loi a été formulée par le mathématicien et bibliothécaire Samuel C. Bradford en 1934. Elle a comme implication bibliométrique la construction de jeux de données.
  • Selon la loi de Zipf, la fréquence des mots dans un texte suit une distribution de Pareto. Cette loi a été formulée par le linguiste George Kingsley Zipf en 1935. Elle a comme implication bibliométrique la construction de jeux de données et comme implication biblioéconomique, le développement de collections.

Les théories sur les avantages cumulés

modifier

Un second ensemble de théories bibliométriques rend compte des avantages cumulatifs dans la production savante: l'effet Matthieu, l'attachement préférentiel et l'effet Matilda.

  • Selon l'effet Mathieu, « la reconnaissance pour une nouvelle découverte [est] plus susceptible d'être accordée aux chercheurs déjà très reconnus qu'à ceux qui [le sont] moins[1] ». Développée par le sociologue des sciences Robert K. Merton en 1968 dans la revue Science, cette théorie a été reprise par Derek de Solla Price en 1976 pour expliquer le processus des avantages cumulatifs à l’œuvre dans le processus de citation.

Plusieurs autres études ont confirmé le rôle des avantages cumulatifs en science: les chercheurs qui sont affiliés à des établissements prestigieux sont plus susceptibles d'être cités (même lorsque l'on contrôle les autres variables sociodémographiques), les articles qui paraissent dans les revues les plus réputées sont cités davantage que ceux qui paraissent dans les revues moins cotées (en tenant compte encore une fois des autres variables), et les chercheurs (de même que les publications) les plus cités sont plus susceptibles de voir leurs citations encore augmenter de manière non linéaire que les moins cités[1].

  • Extension de l'effet Mathieu, la théorie de l'attachement préférentiel a été formulée par les physiciens Albert-Laszlo Barabasi et Réka Albert pour comprendre la croissance et la structure de l'information scientifique.
  • L'effet Matilda, théorie développée par Margaret Rossiter, renvoie à « la reconnaissance moins importante que reçoivent les femmes pour un travail équivalent[1] » dans le domaine scientifique.

Les théories bourdieusiennes

modifier

Les théories bourdieusiennes sur le capital fournissent un troisième ensemble de théories bibliométriques. Ainsi que le soulignent Larivière et Sugimoto, « les théories bourdieusiennes sont essentielles pour comprendre l'échange de biens symboliques sur le marché universitaire, où de multiples formes de capital interagissent[1] ». Au nombre de ces formes de capital:

Les théories sémiotiques

modifier

Enfin, la bibliométrie emprunte certaines théories à la sémiotique.

  • Charles Sanders Peirce, et la relation entre un objet (le signifié) et le signe qui le représente ;
  • Paul Wouters ;
  • Henry Small, et la théorie des symboles conceptuels.

Définitions et mesures

modifier

Contribution à la recherche

modifier

D'un point de vue bibliométrique, la contribution à la recherche se définit et se mesure par l'autorat. Les pratiques d'attribution du statut d'auteur (crédit, responsabilité) varient en fonction de trois facteurs: les disciplines, les spécialisations et les pays. En particulier, les différences disciplinaires s'expriment au travers sciences sociales et les arts et humanités (où la rédaction est la seule contribution qui conduit au statut d'auteur), la physique des hautes énergies (où tous les membres de l'équipe de chercheurs sont mentionnés à titre d'auteur) et les disciplines de laboratoire (où l'ordre d'apparition dans la liste d'auteurs constitue un indicateur de contribution et de statut)[1].

La taxonomie CRediT distingue quatorze formes de contribution différentes: conceptualization, data curation, formal analysis, funding acquisition, investigation, methodology, project administration, resources, software, supervision, validation, visualization, writing (original draft) et writing (review & editing). Elle a été adoptée par différents éditeurs (American Association of Petroleum Geologists, BMJ Open Science, British Psychological Society, Cell Press, Dartmouth Journal Services, De Gruyter Open, Duke University Press, eLife, Elsevier, Evidence Based Communications, F1000 Research, Geological Society of London, Health & Medical Publishing Group, International Centre of Insect Physiology and Ecology, The Journal of Bone & Joint Surgery, KAMJE Press, Lippincott Williams & Wilkins, MA Healthcare, MIT Press, Oman Medical Specialty Board, Oxford University Press, Public Library of Science (Plos), SAE International, SLACK Incorporated, Springer, Springer Publishing Company, Wiley VCH et Wolters Kluwer), une institution (University of Glasgow), quelques intégrateurs (Allen Press/ Peer Track, Aries Systems/ Editorial Manager, Coko Foundation/ xPub et River Valley/ ReView) et points de vente (Gates Open Research, HRB Open Research et Wellcome Open Research).

L'existence de pratiques non éthiques (autorat fantôme, autorat honorifique) témoigne des inégalités dans l'établissement des critères d'autorat (effet Mathieu, effet Matilda)[1].

Production en recherche

modifier

Fortement liée aux pratiques d'attribution du statut d'auteur, la production en recherche se définit et se mesure en quantité d'extrants par unités de recherche (individus, groupes, établissements, etc.)[1]. Seuls les articles originaux et les articles de synthèse sont considérés comme des éléments citables du Web of Science, ce qui constitue une limite des indicateurs de production.

Larivière et Sugimoto relèvent trois méthodes de comptage différentes, qui sont fortement corrélées sur le plan macro (en dépit de fortes différences disciplinaires)[1]:

  • le comptage unitaire, qui accorde une unité d'article à chaque entité indiquée dans l'article ;
  • le comptage fractionné, qui accorde une fraction de l'unité article à chaque entité indiquée dans l'article ;
  • le comptage harmonique, qui suppose que l'ordre d'apparition dans la liste d'auteurs est associé à l'importance de la contribution.

Collaboration en recherche

modifier

Intimement liée à la production, la collaboration en recherche se définit et se mesure à partir des relations de co-autorat (co-signatures) et ce, à différents niveaux d'agrégation. Il existe deux groupes d'indicateurs de collaboration: ceux basés sur la proportion d'articles associés à plus d'une unité, d'une part, et ceux basés sur des moyennes ou des médianes, d'autre part. Ce dernier groupe d'indicateurs permet de rendre compte de la taille des équipes (nombre moyen/médian d'auteurs pour un ensemble d'articles) ou du caractère international des équipes de recherche (nombre moyen/médian de pays par article).

D'un point de vue bibliométrique, aucune distinction n'est faite entre collaboration et coaffiliation.

Larivière et Sugimoto observent que les pratiques de collaboration sont en hausse dans tous les domaines de la science[1]. Ils associent moins cette hausse à une augmentation absolue de la collaboration qu'à un changement dans les pratiques de reconnaissance du travail scientifique et de la responsabilité associée.

Interdisciplinarité

modifier

La définition et la mesure de l'interdisciplinarité repose sur les classifications disciplinaires. Les indicateurs sont fondés sur les pratiques de collaboration entre unités disciplinaires (chaque auteur étant associé à une discipline), d'une part, et les références et citations (chaque document faisant référence à des documents publiés dans d'autres disciplines ou étant cité par des documents publiés dans d'autres disciplines), d'autre part.

L'interdisciplinarité reste un concept difficile à mesurer et les données sont relativement indisponibles, particulièrement en sciences sociales et humanités[1].

Impact de la recherche

modifier

L'impact de la recherche est défini et mesuré à partir des citations, bien que le fait pour un article d'être hautement cité dise peu de choses quant à sa qualité (actualité du sujet, utilité pour un vaste public, etc.)[1]. Cette idée se base notamment sur la sociologie structuro-fonctionnaliste de Merton, qui caractérise la science du point de vue de son universalisme, sa justice et son auto-régulation[75] . Dans ce champ et cette communauté, les scientifiques « qui ont le mieux rempli leur rôle » sont récompensés (reward system) en étant reconnus, et donc cités, par leurs pairs.

Cette vision du rôle clef des citations se retrouve aussi, avec une interprétation opposée, chez le sociologue des sciences Bruno Latour, qui met l’accent sur les stratégies rhétoriques de l’écriture scientifique et le rôle central des citations venant appuyer et confirmer le discours :

« La présence ou l’absence de références, de citations et de notes de bas de page est un signe si sûr du sérieux d’un texte que l’on peut en partie transformer un fait en fiction ou une fiction en fait simplement en retranchant ou en ajoutant des références[76]. »

Dans ces deux visions, les versions mertoniennes et latouriennes, mais aussi dans la vision communément admise de la science, celle-ci fonctionne en réseau, lequel passe par les citations et références qui permettent de relier les articles entre eux et par là, les chercheurs, les programmes, les institutions.

Ces explications viennent légitimer le constat du fondateur du Science Citation Index, Eugene Garfield :

« Presque tous les articles, notes, revues, corrections et correspondances publiés dans les journaux scientifiques contiennent des citations. Ils citent (généralement par titre, auteur, date et lieu de publication) les documents qui soutiennent, précèdent, illustrent ou élaborent ce que l’auteur a à dire[77]. »

L'analyse de citations entre revues[78] a également inspiré l’algorithme du moteur de recherche Google, le PageRank[79](basé sur les liens hypertextes reliant les pages web), lequel sert aujourd’hui aux classements d’impact des institutions de recherche sur Internet, comme le Ranking Web of World Universities.

Aujourd’hui, d’autres indicateurs d’influence se développent à partir de l’usage qui est fait des articles (nombre de consultations ou de téléchargements). Cette notion d’usage (manifestation d'intérêt) est sensiblement différente de celle d’impact ou d’influence qui est aujourd'hui au centre de l’attention. La notion de reconnaissance émerge également comme alternative[80].

Toute mesure de citation suppose des choix méthodologiques :

  • le cadre temporel de calcul : décompte par année citante, année citée, période synchrone ; fenêtre temporelle de citation : longueur de la période où l'on dénombre les citations après la parution de l'article - avec des compromis inévitables entre l'intérêt d'une fenêtre maximale, notamment pour les disciplines lentes, et les impératifs d'une mesure raisonnablement rapide.
  • le mode de comptage pour les citations aux publications en cosignatures, avec des choix analogues à ceux rencontrés pour le dénombrement des publications.
  • la normalisation (par discipline, par exemple) des indicateurs dérivés.

Larivière et Sugimoto identifient trois limites à la mesure de l'impact de la recherche à partir des citations:

  • La citation indique davantage une utilisation qu'un impact ;
  • L'interprétation des mesures de citations n'est valide qu'à grande échelle ;
  • L'interprétation des mesures de citations n'est valide que dans les disciplines dont la nature est cumulative, c'est-à-dire dans les sciences pures et appliquées.

Il existe des mesures alternatives aux citations, qui sont appelées « altmetrics ». Ces mesures prétendent quantifier l'impact social de la recherche, bien qu'elles proposent un amalgame entre impact et attention[1].

Indicateurs

modifier

Indicateurs de production

modifier

Dans la plupart des sciences biomédicales et physiques, les chercheurs communiquent les résultats de leur travail par des articles dans des revues scientifiques et certains y voient « le but essentiel de leur activité »[81]. La mesure du nombre d’articles publiés constitue donc souvent le premier indice de production. Si l'article est un moyen de communication central dans les sciences dures, d'autres disciplines privilégient d'autres modes de production : les communications en conférence (proceedings) en informatique, les ouvrages ou chapitres d'ouvrage dans plusieurs disciplines des sciences humaines et sociales. Enfin, en technologie et développement, le marqueur d'invention qu'est le brevet, à la fois titre juridique, outil stratégique et support d'information, présente de nombreuses analogies formelles avec l'article scientifique, permettant, avec prudence, la transposition des outils bibliométriques[82]. Aux niveaux meso et macro, le nombre de doctorats délivrés est également une mesure intéressante de l’activité des institutions.

Ces différents types de publications (outputs) sont toutefois plus ou moins accessibles et faciles à traiter. Si les articles publiés dans des revues scientifiques sélectionnées sont systématiquement référencés dans les bases de données Web of Science ou Scopus, le référencement des livres pose plus de difficultés. Des progrès sont en cours autant pour les ouvrages que pour les communications de conférence, sur fond de processus de numérisation des fonds académique et de concurrence entre fournisseurs de données.

De même, il est nécessaire de définir en pratique ce qui relève de la production scientifique, ce qui comporte toujours une part d’arbitraire. Contrairement aux brevets d'invention par exemple, il n'existe pas de définition formelle de ce qu'est un périodique ou un article « scientifique ». L'analyse bibliométrique est confrontée en permanence au calibrage des bases de données, aux questions de classement des revues, à la définition de périmètres de corpus satisfaisants à défaut d'être optimaux, en fonction des objectifs (recherche d'une couverture exhaustive ou comparaison internationale impliquant comparabilité et sélectivité, etc.).

Le dénombrement d'outputs pour un type de production donné et dans un périmètre donné suppose des règles pour les articles en cosignature d'une part, pour les articles ou revues en multi-assignation disciplinaire d'autre part (selon la structure des bases de données). Il existe une grande variété de modes de comptage, dont les plus usuels sont le compte de présence et le compte fractionnaire, qui peuvent conduire, en particulier à l'échelle « micro », à des différences sensibles. Il n'y a pas de « meilleure solution », le choix dépendant des propriétés recherchées et des points de vue adoptés. Il faut être attentif au choix de producteurs d'indicateurs qui présentent parfois des produits avec des systèmes de comptage peu satisfaisants, notamment la sélection d'une institution unique dans une ligne d'affiliation. D'autres éléments de sélection peuvent aussi entrer en jeu, par exemple la prise en compte de la revue par les pairs (le fait que l'article ait été relu et validé par un comité de lecture indépendant) et la question des revues prédatrices (prêtes à publier des articles de piètre qualité).

Les indicateurs classiques sont les mesures de volume, de « parts de marché » sur une référence donnée (nationale, mondiale…). Pour les acteurs institutionnels ou territoriaux, la production, mesure de puissance brute, doit être complétée par des mesures rapportées à l'article (citations par article ou impact), ou par des mesures de « productivité », rapportant la production aux entrées, les ressources humaines ou économiques. Mais la productivité scientifique est extrêmement délicate à estimer, en raison notamment des difficultés méthodologiques, à toutes les échelles, pour mesurer les entrées[83].

Pour les unités à forte diversité, par exemple les grandes institutions de recherche ou les universités, la répartition de la production entre domaines d'activité est un aspect important, mesurable par des indices classiques de spécialisation par thème ou de concentration de l'activité. Ces caractéristiques du spectre d'activité à diverses échelles permettent des analyses de comparaison spécialisation-visibilité, de complémentarité entre acteurs, etc.

Indicateurs d'impact

modifier

Le facteur d'impact

modifier

Le facteur d’impact (FI) est une mesure de l'impact moyen des articles parus dans une revue : il calcule le nombre total de citations reçues, pendant une année de référence, par les articles parus dans une revue donnée dans les deux années précédentes, puis il divise ce résultat par le nombre d'articles parus au cours de ces deux années[1]. Cet indicateur est la propriété de l'Institute for Scientific Information, qui le calcule chaque année depuis plusieurs décennies pour plus de 5 000 revues scientifiques de la base Science Citation Index. D'abord réservé aux analyses des revues seulement, « il en est venu à mesurer la valeur du chercheur plutôt que de la revue : plus le facteur d’impact du périodique est élevé, plus le capital universitaire du chercheur qui y publie s’accroit[1] ».

Larivière et Sugimoto ont soulevé quatre limites du FI :

  • Le numérateur inclut les éléments citables et non citables, tandis que le dénominateur ne retient que les éléments citables. Cette asymétrie a pour conséquence d'exagérer le FI des revues qui publient beaucoup d'éléments non citables. Le CiteScore, développé en 2016 par Elsevier, répond à cette critique ;
  • Les différences disciplinaires ;
  • L'étroitesse de la fenêtre de citation. Le Journal Citation Report fournit un FI basé sur une fenêtre de citation de cinq ans pour pallier ce problème ;
  • Le calcul de la moyenne est difficile à interpréter à l'échelle des articles.

Le facteur d'impact, jalon historique de la scientométrie, a bénéficié d'un relatif monopole dans l'usage des mesures de la science jusqu'au début des années 2000, avant qu'une prolifération d'alternatives ne soient popularisées[84].

Le CiteScore

modifier

Développé en 2016 par Elsevier, le CiteScore est un également un indicateur d'impact pour les revues.

« On obtient le résultat CiteScore d’une revue pour 2015, disons, en additionnant le nombre total de citations reçues en 2015 par tous les documents publiés dans cette revue entre 2012-2014, et en divisant ce nombre par celui de tous les documents publiés dans la revue pendant la même période[1] ».

Le score Eigenfactor

modifier

Développé par l'expert en science des données Jevin West et le biologiste Carl Bergstrom, le score Eigenfactor sert à mesurer l'importance d'une revue. Il le fait en accordant plus de poids à une citation provenant d'une source centrale qu'à une citation provenant d'une source plus périphérique[1]. Exprimé en pourcentage, « plus le score Eigenfactor est élevé, plus l’importance de la revue dans le réseau est élevée[1] ». La fenêtre de citation est de cinq ans.

Le score Eigenfactor sert aujourd'hui au classement des auteurs, des départements, des universités et des pays.

Le Source Normalized Impact per Paper (SNIP)

modifier

Mis au point par le scientomètre Henk Moed, le Source Normalized Impact per Paper (SNIP) est un indicateur de citations des revues qui adopte la perspective du document citant (et non celle du document cité)[1]. La fenêtre de citation est de trois ans. Les autocitations sont incluses.

Le SCImago Journal Rank

modifier

Le SCImago Journal Rank (SJR) mesure les liens de proximité entre les revues à partir de leurs relations de cocitations. L'indicateur a été développé par Félix de Moya-Anegon et Vicente Guerrero-Bote.

Autres indicateurs d'impact

modifier

Quelques indicateurs classiques sont :

  • les volumes et parts de citation sur un espace donné (par exemple parts mondiales)
  • les statistiques fondées sur une valeur centrale (p.ex. moyenne des citations par article)
  • les impacts relatifs (normalisés typiquement par la moyenne du champ disciplinaire)
  • la décomposition de l'impact en visibilité espérée (analogue à un facteur d'impact de l'unité considérée, reflétant la concurrence pour l'accès aux revues) et en visibilité relative par revue (ratio de citation relative) reflétant la concurrence à l'intérieur des revues
  • les mesures sur profils de citation à toutes les échelles, analysant les distributions relatives pour un acteur et une référence
  • la famille récente et prolifique des indices composites, dont le plus couru est le h-index
  • les mesures de dépendance ou d'influence scientifique

Ces indicateurs ont des propriétés très différentes, par exemple leur sensibilité aux queues de distribution ou le type de normalisation pratiqué. La diversité des disciplines ou des types de recherche oblige à rechercher, dans toute la mesure du possible, les conditions d'une comparabilité entre données de citation issues de contextes différents. La question de la normalisation/standardisation par champ ou pratique de recherche est centrale. La normalisation des impacts par champ est donc une préoccupation apparue dans le sillage des premiers indicateurs de citation, dans les années 1970, par exemple chez Murugesan et Moravcsik[85]. On distingue aujourd'hui trois types d'approche pour rendre les mesures plus comparables entre champs de recherche :

L'approche classique consiste à normaliser ex post une mesure de citation, par des méthodes cardinales (ratio à une valeur centrale comme la moyenne du champ, standardisation) ou ordinales (percentiles définis par champ). Il existe une littérature considérable sur le sujet, qu'il s'agisse du niveau revues (facteurs d'impact normalisés) ou du niveau acteurs. En général, ces mesures sont dépendantes de nomenclatures disciplinaires, par exemple les « subject categories » du Web of Science, ou de plans de classement. Les préoccupations de normalisation sont présentes dans les textes classiques de bibliométrie (Narin, 1976, Braun 1985, voir bibliographie ; Schubert et Braun 1996[86]), avec de nombreuses applications au niveau revues (un des premiers facteurs d'impact normalisés : Sen 1992[87]).

Certains types de « mesures d'influence » qui renouvellent le travail pionnier précité de Pinski et Narin, par exemple l'Eigen Factor des revues développé par Bergstrom[88], intègrent un autre type de normalisation, du côté des citations émises (référencement) et non des citations reçues. Cette normalisation est mêlée, dans ce cas, aux pondérations en chaîne des revues émettrices en fonction de leur propre visibilité.

Analysant la dépendance par rapport au niveau de généralité des ensembles pris comme référence, d'autres auteurs[89] ont suggéré l'intérêt d'une pondération côté citant, sans introduire de chaînes d'influence, ce qui a abouti au développement expérimental d'un facteur d'impact pondéré, le « facteur d'audience »[90]. Cet indicateur égalise dans une large mesure les niveaux entre spécialités ou disciplines et inclut une correction pour l'immédiateté des citations. Dans ce sillon, le SNIP (Source Normalized Impact per Paper)[91] a été implémenté par Scopus. Cette mesure, comme le facteur d'audience, est indépendante du découpage disciplinaire. Le principe de normalisation côté citant peut être étendu, comme les mesures d'influence, à l'ensemble des techniques de citation.

Indicateur composite

modifier

L'indice h

modifier

En 2005, Jorge Hirsch, un physicien, a proposé l’indice h comme indicateur composite de la productivité et de l'impact scientifique. Un chercheur aura un h-index égal à N s’il a publié au moins N articles cités au moins N fois. Cette définition donne un faible indice aux chercheurs qui publient énormément d’articles, mais ne sont presque jamais cités ainsi qu’aux chercheurs qui ont publié de manière exceptionnelle un article extrêmement cité. Par construction, l’indice h d’un chercheur ne peut jamais diminuer, même si sa production a chuté ou s’est arrêtée.

Selon Yves Gingras, l’indice h a peu d’utilité au niveau individuel, car « il est en fait fortement corrélé au nombre total d’articles et est ainsi redondant[92] ». Il note toutefois que son utilisation de plus en plus courante (il est intégré aux bases de données bibliométriques) est avant tout le fait des chercheurs eux-mêmes.

Larivière et Sugimoto soulignent trois inconvénients à cet indicateur :

  • il fait de la publication la variable dominante du calcul ;
  • il est sujet à des distorsions ;
  • il n'a pas de concept sous-jacent[1].

L'indice présente l'avantage, contrairement aux impacts moyens, d'être insensible aux articles peu cités dans la production d'un auteur. D'autres indices de la famille (g-index, e-index) conservent cette caractéristique du h-index tout en introduisant une sensibilité au score de citation des articles les plus visibles. Un inconvénient de ces mesures est leur normalisation disciplinaire délicate, aussi bien en pratique que dans le principe même, étant donné le caractère quelque peu numérologique de l'approche[réf. nécessaire].

Sources de données

modifier

Les indicateurs bibliométriques (unités quantifiables) sont construits à partir de sources de données diversifiées, divisées en deux catégories:

  • Les indicateurs d'intrants, à partir des rapports de l'Organisation de coopération et de développement économiques (OCDE) ou de grands organismes nationaux ;
  • Les indicateurs d'extrants et d'impact, à partir de bases de données bibliographiques dans lesquelles il est possible d'établir des liens entre le documents indexés (index de citations).

La bibliométrie peut compter sur l'existence de deux index de citations principaux, le Web of Science et Scopus, aux côtés de Google Scholar et des sources de données alternatives (WorldCat, Plum Analytics, Altmetric).

Web of Science

modifier

L’Institute for Scientific Information (ISI) créé en 1960 par Eugene Garfield a été acquis par Thomson Scientific & Healthcare en 1992 et a porté le nom de Thomson ISI. À la suite de la fusion avec Reuters en 2008, l'ISI a fait partie de la Thomson Reuters Corporation. Il est depuis 2016 la propriété de Clarivate.

L’ISI a développé son activité autour de sept bases de données de publications scientifiques et de leurs citations. Les trois premières recensent les articles et leurs citations : Science Citation Index (SCI), Social Sciences Citation Index (SSCI) et Arts and Humanities Citation Index (A&HCI). Ensemble, ce sont plus de 9 700 revues qui sont entièrement couverts, dont 70 % situés en sciences naturelles, et autant qui sont partiellement couverts[93]. Les citations remontent à 1900. Les critères de sélections des revues sont assez restrictifs et se basent sur le nombre de citations reçues. De par ses critères de sélection, ces bases de données ont un fort biais anglophone.

Les actes de conférences sont couverts par deux bases de données : Conference Proceedings Citation Index - Science (CPCI-S) et Conference Proceedings Citation Index - Social Sciences & Humanities (CPCI-SSH). Enfin, deux bases de données sont consacrées à la chimie : Index Chemicus (IC), Current Chemical Reactions (CCR-Expanded).

ISI a développé de nombreux produits destinés à l’exploitation de ses bases de données :

  • Web of Science : interface web qui permet d’analyser les citations d’une personne, d’un groupe, d’un article ou d’un journal,
  • Journal Citation Report : classement des journaux par facteur d'impact, différentes métriques sur les journaux,
  • Essential Science Indicators et ScienceWatch : classements d’institutions, d’auteurs, de pays ou de journaux, liste des articles les plus cités, liste des sujets les plus « chauds », etc.
  • InCites : outils de benchmarking à l’usage des institutions,
  • ResearcherID : un numéro unique par auteur, pour distinguer les travaux de personnes ayant une homonymie ou pour suivre le travail d’une personne ayant changé de nom.

L’éditeur Elsevier a lancé, en 2004, une base de données concurrente à celle d’ISI, sous le nom de Scopus. Celle-ci a rapidement rattrapé son retard et référence maintenant 16 500 revues scientifiques (y compris plus d’un millier en accès libre), 600 publications industrielles, 350 collections d’ouvrages, ainsi que plusieurs millions d'actes de conférences[94]. Les citations remontent à 1996 seulement pour la moitié des articles référencés. Par rapport à ses compétiteurs, Scopus offre une plus grande couverture des Sciences Humaines et Sociales et des revues non anglophones[95].

Elsevier a développé deux produits destinés à l’exploitation de ses bases de données :

  • Scopus.com : interface web qui permet d’analyser les citations d’une personne, d’un groupe, d’un article ou d’un journal ;
  • SciVal Spotlight : outils de benchmarking (analyse comparative) à l’usage des institutions.

Par ailleurs, en se basant sur Scopus, SCImago Journal Rank ou eigenfactor.org sont des sites web libres d’accès qui permettent de classer des journaux ou des pays.

Google Scholar

modifier

Filiale du géant Google, et basé sur le même principe, Google Scholar a été lancé en version beta à la fin de l'année 2004 et référence les articles scientifiques. D’accès libre, Google Scholar semble plus complet que ses compétiteurs mais il est actuellement impossible de savoir ce qui est inclus ou non dans cette base de données. De nombreuses erreurs ou doublons ont été relevés.

À partir de Google Scholar, l'outil bilbiométrique Publish or Perish permet de calculer quelques indicateurs bibliométriques par auteur, revue ou article. Il existe également une extension au navigateur Firefox qui a des fonctions relativement identiques : Tenurometer.

Autres bases de données bibliométriques

modifier

D’autres bases de données[96], souvent financées par de l’argent public et libre d'accès, sont souvent utilisées dans des domaines spécialisés :

  • SPIRES pour la physique,
  • MEDLINE pour les sciences de la vie et les sciences biomédicales,
  • CiteSeerX pour l’informatique et les sciences de l'information.

Applications

modifier

La bibliométrie gagne de l’importance sous l’effet de plusieurs facteurs : la disponibilité de base de données de plus en plus complètes, l’utilisation accrue des outils de management dans l’administration de la recherche, la mondialisation du « marché » de l’enseignement supérieur. Elle se répand également sous l'effet d'un accès généralisé aux données de citation, notamment via Google Scholar, et la mise à disposition d'outils bibliométriques d'apparence très simple, comme Publish or Perish, développé par Ann-Will Harzing.

Évaluation de la recherche

modifier

Elle est utilisée par les organismes finançant la recherche comme outil d’évaluation et comme aide à la décision en ce qui concerne les politiques de recherche.

Gouvernance de l'enseignement supérieur

modifier

La bibliométrie est utilisée par les universités ou les gouvernements pour déterminer leurs forces et faiblesses dans le domaine de la recherche et orienter ainsi leurs actions.

« Les liens que tissent la statistique avec la politique sont multiples. Ils vont de la compréhension des phénomènes sur lesquels on veut intervenir (théorique) à l'évaluation des actions gouvernementales (pratique), sans oublier la promotion des efforts nationaux (symbolique)[97]. »

Les classements d'universités

modifier
 
L'Université Jiao-tong de Shanghai, l'une des institutions dressant des classements universitaires

S’appuyant sur un ou plusieurs des indicateurs énoncés auparavant, les classements d’universités sont sans doute l’application la plus visible de la bibliométrie. Les deux classements internationaux les plus célèbres sont :

La sociologie des sciences

modifier

La bibliométrie est utilisée par les sociologues des sciences pour étudier l’activité des scientifiques, l’apparition et l’autonomisation de disciplines, l’importance temporelle de certains champs ou encore les liens que différentes disciplines tissent entre elles.

L'évaluation individuelle des chercheurs

modifier

La bibliométrie est parfois utilisée pour l'évaluation individuelle des chercheurs. Cet usage est très controversé (cf. ci-dessous) compte tenu de l'imperfection des indicateurs et des enjeux d'un tel exercice. L'académie des Sciences française a émis un certain nombre de recommandations à cet effet[98] :

« Recommandation n° 1 : L’utilisation des indicateurs bibliométriques pour l’évaluation individuelle n’a de valeur que si l’on respecte certaines conditions majeures : L’évaluation doit porter sur les articles et non sur les revues ; La qualité des données, la normalisation, la significativité des écarts et la robustesse des indicateurs doivent être validées ; L’évaluation bibliométrique doit ne comparer entre elles que des personnes de la même communauté disciplinaire, pendant tout leur parcours ; Les utilisateurs de la bibliométrie doivent être capables de s'en expliquer […]

Recommandation n° 2 : La bibliométrie ne peut pas se résumer à des nombres, mais doit être accompagnée d’un examen approfondi des données bibliométriques et bibliographiques, et si possible des articles eux-mêmes.

Recommandation n° 3 : Les indices bibliométriques ne peuvent pas être utilisés de la même façon selon l’objet de l’évaluation: recrutements, promotions, contrats, distinctions, etc.

Recommandation n° 4 : Il faut tenir le plus grand compte, lorsque cela est possible, de la place et de la contribution de l’auteur dans l’article considéré.

Recommandation n° 5 : L’évaluation bibliométrique doit être l’objet de recherche pour en améliorer la valeur. La France doit participer à cette réflexion. »

Critiques

modifier

Critique des indicateurs quantitatifs

modifier

Certaines des personnes qui élaborent les indicateurs décrits ci-dessus en soulignent les limites. Par exemple, les auteurs du classement de Shanghai concèdent l’existence d’un biais en faveur des pays anglophones et des institutions de grande taille, ainsi que les difficultés à définir des indicateurs adéquats pour classer les universités spécialisées dans les sciences sociales[99]. Le rapport de l’Institut national de recherche en informatique et en automatique (INRIA) sur le sujet considère que les critères bibliométriques, quantitatifs, ne sauraient remplacer l’évaluation par les pairs, qualitative, et souligne un certain nombre d’effets pervers de ces indicateurs dès lors qu’on leur accorde trop d'importance :

« Si les indicateurs peuvent donner des tendances sur un nombre réduit d’aspects de la vie scientifique, il convient d’être très circonspect dans leur usage en raison de la possibilité d’interprétations erronées, des erreurs de mesure (souvent considérables) et des biais dont ils sont affectés. Un usage abusif des indicateurs est facilité par la nature chiffrée du résultat qui introduit la possibilité d’établir dans l’urgence toutes sortes de statistiques, sans se préoccuper d’en analyser la qualité et le contenu, et en occultant l’examen d’autres éléments de la vie scientifique comme, par exemple, l’innovation et le transfert intellectuel et industriel.

Les constatations et les recommandations les plus importantes sont les suivantes :

  1. on pourra constater que les erreurs de mesure dans la recherche de citations sont très importantes (…). Nous recommandons donc fortement de multiplier les sources, de faire une analyse critique des résultats (en particulier en faisant appel à des experts des domaines) et de s’attacher, au plus, aux ordres de grandeur des indicateurs.
  2. nous recommandons d’utiliser la littérature bibliométrique pour cerner la signification réelle des indicateurs et leur biais.
  3. les indicateurs ne donnent qu’une vue partielle et biaisée de certains aspects de la vie scientifique, sans en recouvrir l’ensemble. Ils doivent donc être complétés, corrigés et commentés par des spécialistes du domaine scientifique et interprétés s’ils sont utilisés dans le cadre d’une évaluation ou d’une prise de décision.
  4. nous recommandons de ne jamais utiliser des indicateurs pour effectuer des comparaisons entre domaines scientifiques différents.
  5. le principe des indicateurs reposant sur une analyse des citations est peu favorable à la prise de risques scientifiques et à l’innovation. Une utilisation abusive (voire pire, automatisée) serait un frein majeur à l’innovation.
  6. les indicateurs chiffrés sont très facilement manipulables par les individus, les institutions et d’autres acteurs de la vie scientifique (comme les journaux). Le nombre de manipulations augmentent, ce que l’on peut corréler à l’effet croissant de l’influence des indicateurs[100]. »

Les recommandations ci-dessus sont partagées par de nombreux professionnels de la bibliométrie. Toutefois, l'absence de comparabilité entre domaines ne doit pas être exagérée, compte tenu des possibilités de normalisation, et en particulier pour les disciplines qui partagent un même mode majeur de production (par exemple l'article). Les comparaisons sont plus délicates en présence de modes de production différents, et sont naturellement conditionnées par l'accessibilité de données représentatives sur ces modes de production (problématique pour une grande partie des SHS).

Les indicateurs quantitatifs peuvent être affectés par des biais culturels, notamment dans la façon dont les chercheurs d'une culture citent des chercheurs d'une même culture[101] (scientifiques chinois qui citent les chinois etc.).

Le risque le plus grand est certainement - c'est l'envers de l'extrême adaptabilité du monde de la recherche - la pression à la conformité avec un système de mesure ou de récompense figé et inadéquat, dont la forme la plus naïve est le financement à la publication. Les défis et perspectives sont abondamment discutés dans la littérature, qu'il s'agisse de bibliométrie-scientométrie[102],[103],[104],[105], ou d'indicateurs[106].

Critique de l'évaluation individuelle des chercheurs par la bibliométrie

modifier

Cohérence des indicateurs

modifier

De plus en plus utilisés pour évaluer les chercheurs, en contradiction avec la pensée du père fondateur Derek de Solla Price qui insistait sur le caractère statistique de ces approches, les indicateurs quantitatifs se heurtent à une forte critique due à leur manque de cohérence lorsqu’ils sont appliqués au niveau individuel. Le fait qu’un même chercheur puisse recevoir des mesures d’impact différentes selon les indicateurs et les bases de données bibliographiques utilisés[107] pose de nombreux problèmes quant à leur utilisation et à la définition d’une norme de qualité.

Contributions importantes non détectées

modifier

D'autres critiques de la bibliométrie mettent parfois en avant une grande variabilité du nombre de publications chez les scientifiques réputés. Des scientifiques de premier plan comme Albert Einstein ou Louis de Broglie n’auraient, dans l’ensemble, que peu publié, malgré leur influence considérable sur la science. Ceci viendrait démontrer le peu de fiabilité des indicateurs bibliométriques. Malheureusement, ces critiques s’appuient rarement sur des chiffres pourtant vérifiables : concernant Einstein, « voici ce que dit le ISI web of knowledge : Environ 160 articles, h-index = 49, nombre de citations proche des 20 000.»[108]. La bonne pratique en scientométrie suppose la connaissance des propriétés de chaque mesure et ne s'appuie pas sur un seul indicateur, aussi composite qu'il soit.

La situation est évidemment plus compliquée dans les sciences humaines et sociales. Par exemple, selon le philosophe Olivier Boulnois, « sur les quatre tomes des Dits et Écrits de Michel Foucault, il n’y a peut-être pas cinq articles publiés dans des revues classées A… »[109]. Cette critique montre que la mesure de la science doit suivre au plus près les pratiques de recherche et publications scientifiques et évoluer avec elles (les exemples donnés ici appartiennent en effet à un contexte scientifique différent de celui d’aujourd'hui).

Dans le même ordre d'idées, il existe des articles qui sont très peu cités pendant une période de plus de 10 ans et qui deviennent très cités des années plus tard. Appelés « sleeping beauties » (beautés dormantes), ces articles sont souvent des contributions visionnaires de certains scientifiques, passés relativement inaperçus lors de leur publication parce que le champ scientifique n'était pas suffisamment mûr pour apprécier ces travaux. L'existence de ces « sleeping beauties » remet en cause l'usage des citations pour l'évaluation individuelle. Il faut toutefois relativiser leur nombre et leur impact sur les indicateurs bibliométriques puisqu'ils ne représentent qu'entre 0,01 et 0,1 % des articles publiés[110].

Opposition avec l'évaluation par les pairs

modifier

Une des critiques les plus paradoxales vient peut-être de Laurence Coutrot, qui rappelle les processus de filtrage successifs nécessaires avant la publication d’un article, processus de filtrage qui passent par l’évaluation par les pairs (comités de revues, etc.): « une fraction variable de ces manuscrits arrive à publication, un sur dix ou un sur vingt, parfois moins. Enfin, un article publié peut, par une série de processus sociaux que l’on connaît fort mal, parvenir à être cité. La citation est une mesure raisonnable de la visibilité d’un résultat scientifique. Quand bien même l’on voudrait départager les chercheurs qui travaillent de ceux qui « ne travaillent pas » (à supposer que cette expression ait un sens), le critère de citation est une mesure bien rustique. Sous des parures d’objectivité, cet indicateur réintroduit en fait ce qu’il prétendait éliminer ; c’est-à-dire, le jugement par les pairs. »[107]

En réalité, la bonne pratique en bibliométrie/scientométrie ne conteste en aucune manière le jugement par les pairs. Elle assume le rôle de miroir de la bibliométrie, qui reflète l'agrégation des micro-décisions de jugement entre pairs (celle de citer est un acte important), mais ne prétend nullement faire de cette agrégation une approche exclusive. Inversement, le jugement par les pairs au sens conventionnel, dans ses multiples formes, est influencé par les informations bibliométriques (à commencer par le facteur d'impact…) surtout à l'ère des bases bibliographiques/bibliométriques en ligne. Le jugement par les pairs n'est naturellement pas à l'abri de dérives, notamment en situation d'évaluation ou d'expertise par jurys ou commissions (biais de spécialisation, effets de groupe, conflits d'intérêts…). Il y a donc une porosité entre les deux mondes, chacun présentant des forces et des faiblesses, et une évidente complémentarité.

Les multiples facettes du métier de chercheur

modifier

Par ailleurs, la bibliométrie ne peut prétendre qu’à l’analyse d’une des facettes du métier de chercheur. Elle laisse de côté l’enseignement, la vulgarisation, les services à la cité, la valorisation ou encore les services à la communauté (participation à des jurys, à des comités de lecture, etc.). De nombreux facteurs peuvent donc expliquer un faible nombre de publications. Par exemple, un chercheur qui travaille beaucoup dans le cadre de contrats en relation avec des industriels peut avoir du mal à publier autant qu’il le souhaiterait pour des raisons de confidentialité.

Effets néfastes de l'évaluation individuelle par la bibliométrie

modifier

La bibliométrie incite les chercheurs à publier plus, selon le principe publish or perish. Le risque est ici que les chercheurs se préoccupent plus d’étoffer leur palmarès de publications (qui détermine leur carrière : possibilités de promotion, mais aussi, dans certains cas, paye ou continuité de leur emploi) que de réaliser des travaux scientifiquement intéressants.

On constate alors diverses dérives dues au désir d’augmenter le nombre de publications, par exemple :

  • le psittacisme : le chercheur publie la même idée dans plusieurs « papiers », profitant du fait que les évaluateurs des différentes publications n’ont pas lu leurs travaux précédents ;
  • le saucissonnage (salami effect) : la même idée est découpée en plusieurs tranches, chacune publiée séparément[107],[100],
  • l’auto-citation malicieuse[100],
  • le frein à la prise de risque et la pénalisation de la recherche de pointe[100],[111].

Comme toute technique de mesure, la bibliométrie devient sujette à manipulation, d’autant plus facilement que son fonctionnement est connu.

Critique du facteur d'impact

modifier

L’usage du « facteur d’impact » des revues pour l’évaluation de la qualité des articles et des chercheurs est très sujet à caution.

Si le facteur d’impact est censé mesurer l’importance d’une revue pour la communauté scientifique, il est erroné de conclure qu’un article publié dans une revue à fort facteur d’impact est forcément de meilleure qualité qu’un papier dans une revue à facteur d’impact plus faible. Étant donné la distribution très asymétrique des citations, le facteur d’impact (qui est une valeur moyenne) d’une revue est un mauvais prédicteur du nombre de citations que recevra un article publié dans cette revue.

D’autre part, le facteur d’impact, comme tout indicateur basé sur les citations, dépend énormément des habitudes de référencement. La dépendance à la taille du champ n'est pas mécanique, au moins pour la valeur moyenne de l'impact. L'immédiateté des citations joue aussi un grand rôle : la longue demi-vie des citations en mathématiques désavantage fortement les revues de cette discipline par rapport à d’autres où les citations se font beaucoup plus rapidement. Des normalisations adaptées permettent de compenser, ou de réduire, ces effets. Le facteur d'impact proprement dit est typique des revues, et n'est pas accessible pour d'autres supports. En informatique, les comptes rendus de conférence prennent une grande importance. Dans le champ des sciences humaines et sociales, les articles recensant des ouvrages font l’objet d'un plus grand nombre de citations référencées que les ouvrages eux-mêmes.

Par ailleurs, la politique éditoriale de certaines revues renommés (comme Science ou Nature) met en jeu des critères extra-scientifiques, comme le côté « sensationnel » d’une publication. L’usage du nombre de citations favorise les publications « dans l’air du temps ». D’une manière générale, une revue consacrée à des sujets originaux ou émergents mais qui ne seraient pas « à la mode » est défavorisé par la fenêtre de mesure de deux ans[111]. L'Institute for Scientific Information (ISI) met désormais à disposition une mesure sur une fenêtre plus longue.

Enfin, de nombreuses revues ont été accusées de gonfler artificiellement leur facteur d’impact, en augmentant le nombre de recensions ou encore en incitant fortement leurs auteurs à citer d’autres articles de la même revue. L'ISI repère toutefois les cas les plus flagrants de manipulation et exclut les revues concernés de sa liste[112].

Notons que l'apparition d'autres mesures de notoriété des revues (mesures d'influence, facteur d'audience/ SNIP), même lorsqu'elles demeurent assez corrélées au facteur d'impact et au facteur d'impact normalisé par champ, montre des différences suffisantes pour en relativiser le dogme. La littérature spécialisée présente des analyses approfondies des facteurs d'impact[113],[114]. Surtout, il n'est plus possible, dans une approche moderne de la bibliométrie, de se limiter aux mesures d'impact dans les applications évaluatives.

Critique du coût

modifier

Le coût d’accès aux outils payants est élevé et varie d’une institution à l’autre en fonction du nombre d’utilisateurs ou du nombre d’articles référencés. L’INRIA (Institut national de recherche en informatique et en automatique) dépenserait 7 000 euros par an pour pouvoir avoir accès au Science Citation Index Expanded (jusqu’aux articles de 1991) et au Journal of Citation Report[100]. Le rapport de l’INRIA conclut donc, à ce sujet, que « L’accès aux sources payantes est donc relativement onéreux alors que nous avons vu que le taux de couverture imparfait de ces outils devrait amener à multiplier les sources pour établir de manière raisonnable les indicateurs demandés et/ou pour contrôler les biais méthodologiques des calculs des indicateurs. De plus pour le cas particulier de l’INRIA l’étude préliminaire […] montre que les résultats obtenus via les sources payantes sont bien plus médiocres que ceux obtenus à l’aide des outils gratuits. Dans un autre domaine il serait a fortiori pernicieux que les indicateurs soient utilisés pour guider les choix des abonnements dans les centres de documentation. »[100]

Bibliométrie et science ouverte

modifier
 
Distribution géographiques d'auteurs de publications sur le SARS-CoV-2 et le COVID-19 entre janvier et mars 2020.

Le mouvement de la science ouverte a été reconnu comme la plus importante révolution vécue par la bibliométrie depuis son apparition dans les années 1960[115][116]. Le libre partage sur le Web d’un grand nombre de productions scientifiques a affecté la bibliométrie à tous les niveaux : la définition et la collecte des données, l’infrastructure et les métriques.

Avant sa cristallisation autour du Science Citation Index et des théories réductionnistes de Derek John de Solla Price, la bibliométrie avait été largement influencée par des projets utopiques d’amélioration du partage de la connaissance au-delà des communautés académiques spécialisées. Les réseaux scientifiques imaginés par Paul Otlet ou John Desmond Bernal ont connu un regain de pertinence avec le développement du Web : « L’inspiration philosophique des pionniers dans la poursuite des pistes de recherche susmentionnées s’est toutefois progressivement estompée. Alors qu’en définitive l’apport de Bernal trouverait un prolongement idéal dans le mouvement de libre accès, la machine à citations mise en branle par Garfield et Small a suscité la prolifération d’études sectorielles de nature fondamentalement empirique[117]. »

Des altmetrics aux métriques ouvertes

modifier

À ses débuts, le mouvement de la science ouverte a partiellement adopté les outils standards de la bibliométrie et de l’évaluation quantitative : « L’absence de référence aux métadonnées dans les principales déclarations sur le libre accès (Budapest, Berlin, Bethesda) a entraîné une situation paradoxale c’est par l’utilisation de Web of Science que les défenseurs du libre accès ont souhaité montrer à quel point l’accessibilité était plus avantageuse que les articles payants en matière de citations[118]. » Après 2000, une importante littérature bibliométrique a été consacrée au bénéfice des publications en libre accès pour générer des citations[119]

À la fin des années 2000, certains indicateurs comme le facteur d’impact et d’autres furent estimés de plus en plus responsables d’un verrouillage systémique de sources prestigieuses non accessibles. Des figures clés du mouvement de la science ouverte tels que Stevan Harnad appelèrent à la création d’une « scientométrie du libre accès » qui « tirerait parti de la richesse des indicateurs d’usage et d’impact résultant de la multiplication des archives numériques en ligne, en texte intégral et en libre accès[120]. » La science ouverte s’étant popularisée au-delà des cercles universitaires, de nouveaux indicateurs devraient chercher à « mesurer les impacts sociétaux à plus grande échelle de la recherche scientifique[121]. »

Le concept d’altmetrics (aussi appelé altermétriques) est introduit en 2009 par Cameron Neylon et Shirly Wu en tant qu’indicateur au niveau de l’article[122]. Contrairement aux principaux indicateurs centrés sur les revues (facteur d’impact) ou, plus récemment, sur le chercheur lui-même (indice h), les indicateurs au niveau de l’article autorisent un suivi individuel des publications en circulation : « (Un) article autrefois rangé sur une étagère se trouve désormais dans Mendeley, CiteULike ou Zotero, où il est possible de le voir et de le comptabiliser[123]. » Il est ainsi davantage compatible avec la diversité des stratégies de publication qui caractérise la science ouverte : les prépublications, les rapports et même les résultats non textuels tels que les référentiels ou les logiciels peuvent aussi disposer d’indicateurs associés[121].

Dans leur proposition de recherche initiale, Neylon et Wu favorisent l’utilisation de données provenant de logiciels de gestion de références tels que Zotero ou Mendeley[122]. Le concept d’altemtrics a évolué pour venir englober les données extraites « d’applications de médias sociaux, comme les blogs, Twitter, ResearchGate et Mendeley[121]. » Les sources des médias sociaux montrèrent davantage de fiabilité à long terme, alors que des outils universitaires spécialisés tels que Mendeley finirent par intégrer l’écosystème développé en propre par les plus grands éditeurs scientifiques. Les principales altmetrics apparues dans les années 2010 sont Altmetric.com, PlumX et ImpactStory.

Avec le glissement de sens des altmetrics, le débat sur l’impact positif des indicateurs a évolué pour les redéfinir dans le cadre d’un écosystème de science ouverte : « Les discussions sur l’usage abusif des indicateurs et leur interprétation viennent les placer au centre des pratiques de la science ouverte[124]. » Alors que les altmetrics furent initialement conçues pour les publications scientifiques ouvertes et pour faciliter leur circulation bien au-delà des cercles universitaires, leur compatibilité avec les nouvelles exigences en matière d’indicateurs ouverts a été remise en question : les données des réseaux sociaux, en particulier, sont loin d’être transparentes et facilement accessibles[125],[126]. En 2016, Ulrich Herb publie une évaluation systématique des indicateurs de publication clés selon les principes de la science ouverte. Il en a conclu que « ni les indicateurs d’impact basés sur les citations ni les altermétriques ne peuvent être qualifiés d’ouverts. Tous manquent de fondement scientifique, de transparence et de vérifiabilité[127]. »

Ulrich Herb établie un programme alternatif pour les métriques ouvertes dont le développement reste à venir[128],[129]. Les principaux critères en sont :

  • Une large sélection d’éléments de publication (articles de revues, livres, jeux de données, logiciels) correspondant aux pratiques d’écriture et de lecture des communautés scientifiques[129].
  • Des sources de données pleinement documentées[129].
  • Un processus transparent et reproductible pour le calcul des métriques et des autres indices.[129]
  • Des logiciels ouverts[129].
  • La promotion d’usages réflexifs et interprétatifs des métriques pour éviter leur utilisation abusive lors des évaluations quantitatives[129].

Cette définition a été mise en œuvre dans certains programmes de recherche, par exemple le projet ROSI (Reference Implementation For Open Scientometric Indicators)[130]. En 2017, le groupe d’experts de la Commission européenne sur les altmetrics a élargi le programme de métriques ouvertes d’Ulrich Herb dans le cadre d’un nouveau concept, les Métriques de nouvelle génération. Ces métriques devraient être gérées par des « infrastructures de données ouvertes, transparentes et liées[131]. » Le groupe d’experts souligne que tout n’est pas à mesurer et que toutes les métriques ne sont pas pertinentes : « Mesurons ce qui compte : la prochaine génération de métriques devrait commencer par les qualités et les impacts que les sociétés européennes valorisent le plus et pour lesquels elles ont le plus besoin d’indices, plutôt que par les plus faciles à collecter et à mesurer[131]. »

Infrastructures pour les données de citations ouvertes

modifier

Jusqu’aux années 2010, l’impact du mouvement de la science ouverte était fortement limité aux publications scientifiques : il « a plutôt négligé l’importance des structures sociales et des contraintes systémiques dans la conception de nouvelles formes d’infrastructures du savoir[132]. » En 1997, Robert D. Cameron appelle au développement d’une base de données de citations ouvertes qui révolutionnerait les conditions de la communication scientifique :

«  Imaginez une base universelle de données bibliographiques et de citations reliant tous les travaux scientifiques jamais écrits – quel que soit leur mode de publication – à tous les travaux qui les citent. Imaginez une telle base de données de citations librement accessible sur Internet et quotidiennement mise à jour avec tous les nouveaux travaux publiés le jour même, y compris les articles sortis dans des revues traditionnelles et électroniques, les documents de conférence, les thèses, les rapports techniques, les documents de travail et les prépublications[133].  »

Malgré le développement d’index spécifiquement dédiés aux œuvres en libre accès, comme CiteSeer, aucune grande alternative au Science Citation Index n’a vu le jour en format ouvert. La collecte des données de citations est restée dominée par de grandes structures commerciales telles que Web of Science, le descendant direct du Scientific Citation Index. L’écosystème émergent des ressources ouvertes est ainsi resté en périphérie des réseaux universitaires : « Le patrimoine commun des ressources n’est pas régi ou géré par l’initiative actuelle des communs universitaires. Il n’existe pas d’infrastructure matérielle dédiée et, malgré l’émergence d’une communauté, il n’y a pas d’adhésion formelle[134]. »

Depuis 2015, les infrastructures, plateformes et revues de science ouverte ont convergé vers la création de communs académiques numériques, de plus en plus structurés autour d’un écosystème de services partagés, et des normes ont émergé à travers les interdépendances entre les infrastructures. Ce mouvement découle d’une attitude de plus en plus critique à l’égard des principales bases de données privées. En 2012, la Déclaration de San-Francisco sur l’évaluation de la recherche (DORA) appelait à « cesser d’utiliser les facteurs d’impact des revues dans les décisions de financement, de recrutement et de promotion[135]. » Le Manifeste de Leyde pour la mesure de la recherche (2015) a encouragé le développement de collections de données « ouvertes, transparentes et simples[73]. »

La collaboration entre les acteurs universitaires et non universitaires engagés collectivement dans la création et l’administration des communs de la connaissance s’est avérée déterminante dans la mise en place d’une nouvelle infrastructure consacrée aux données de citations ouvertes. Depuis 2010, des chercheurs ont rassemblé un jeu de données de citations ouvertes, l’Open Citation Corpus, à partir de différentes sources en libre accès (dont PLOS et Pubmed)[136]. Cette collection formait la charpente de l’Initiative for Open Citations (I4OC), lancée en 2017 à la suite de problèmes d’accessibilité des données rencontrés par Wikidata, un projet Wikimédia. Une conférence de Dario Taraborelli, responsable de la recherche à la Fondation Wikimédia, a montré que seulement 1 % des articles figurant dans Crossref possédaient des métadonnées de citations librement accessibles et que les références stockées dans Wikidata ne permettaient pas d’inclure le très vaste segment des données non libres. Quand Elsevier a finalement rejoint l’initiative en janvier 2021, plus de la moitié des articles enregistrés sont devenus directement accessibles[137]

Depuis 2021, le catalogue OpenAlex constitue une infrastructure ouverte majeure pour les métadonnées scientifiques. Initialement créé pour remplacer la base de données Microsoft Academic Graph qui n'était plusmise à jour, OpenAlex indexe en 2022 209 millions de travaux universitaires provenant de 213 millions d’auteurs ainsi que la liste des institutions, lieux et concepts associés dans un graphe de connaissances intégré au Web sémantique (et à Wikidata)[138]. En raison de sa couverture étendue et de l’important volume de données récupéré dans Microsoft Academic Graph, OpenAlex « semble être au moins aussi pertinent que Microsoft Academic Graph pour l’analyse bibliométrique des années de publication antérieures à 2021[139]. » En 2023, une étude sur la couverture des revues de données dans les index scientifiques a révélé que, tout comme Dimensions, OpenAlex « jouit d’un avantage conséquent par rapport aux deux bases de données plus traditionnelles, WoS et Scopus[140]. » et qu’il est, dans l’ensemble, particulièrement performant pour indexer les publications hors revues, par exemple les livres[141] et les productions des chercheurs non occidentaux[142].

L’ouverture des données scientifiques fut un sujet de débat majeur dans la communauté de la bibliométrie et de la scientométrie, avec des conséquences sociales et intellectuelles très variées. En 2019, le comité scientifique du Journal of Infometrics a démissionné en bloc et créé une nouvelle revue en libre accès, Quantitative Science Studies. La revue était publiée par Elsevier depuis 2007, et les membres du comité étaient de plus en plus critiques vis-à-vis du manque d’avancées dans le libre partage des données de citations ouvertes : « Notre domaine dépend de métadonnées scientifiques de haute qualité. Pour que notre science soit plus robuste et reproductible, ces données doivent être aussi ouvertes que possible. C’est pourquoi notre comité éditorial a très mal vécu le refus d’Elsevier de participer à l’Initiative for Open Citations (I4OC)[143]. »

Bibliométrie sans évaluation : passage aux études scientifiques quantitatives

modifier

La disponibilité sans précédent d’un large éventail de productions scientifiques (publications, données, logiciels, conférences, évaluations, etc.) a donné un tournant plus radical au projet bibliométrique. Pour les nouveaux travaux alternatifs fidèles aux principes de la science ouverte, la bibliométrie telle que définie par Garfield et Price dans les années 1960 doit être repensée. La présélection d’un corpus limité de revues majeures ne semble ni nécessaire ni appropriée. En 2019, les promoteurs du projet Matilda « ne [veulent] pas simplement "ouvrir" l’information fermée existante, mais redonner leur juste place à tous les contenus académiques jusqu’alors exclus de ces outils en appliquant la philosophie "tous les textes naissent égaux"[144]. » Ils espérent « redéfinir les outils bibliométriques en tant que technologie » en se focalisant sur l’exploration et la cartographie du corpus scientifique[145].

Les problématiques d’inclusivité et d’approche critique des inégalités structurelles dans la science sont aujourd’hui plus présentes dans la scientométrie et la bibliométrie, en particulier la question des disparités entre les sexes[146],[147],[148]. Après 2020, l’un des débats les plus vifs dans ce domaine[149] concerne la réception d’une étude sur la parité hommes-femmes en physique fondamentale[150].

À cause de l’évolution structurelle des définitions de la bibliométrie, de la scientométrie et de l’infométrie, il a fallu trouver d’autres appellations. Le concept d’études scientifiques quantitatives fut introduit à la fin des années 2000 en vue de permettre une nouvelle évaluation critique des analyses bibliométriques traditionnelles[151]. Il a pris une importance plus marquée à la fin des années 2010. Après avoir quitté Elsevier, les rédacteurs de Journal of Infometrics ont adopté cet intitulé comme titre de leur revue (Quantitative Science Studies). Le premier éditorial abolissait toute référence aux métriques et indiquait vouloir inclure plus largement les recherches quantitative et qualitative sur la science de la science :

«  Nous espérons que les personnes qui se reconnaissent dans des appellations telles que la scientométrie, la science de la science et les métasciences se sentiront chez elles dans Quantitative Science Studies. Nous reconnaissons également la diversité des disciplines pour lesquelles la science est un objet d’étude : nous nous réjouissons d’accueillir au sein de notre revue les historiens, les philosophes et les sociologues des sciences. Et malgré notre référence aux études quantitatives, nous sommes ouverts à toutes les perspectives épistémologiques. Les études scientifiques quantitatives ne peuvent pas évoluer en vase clos : il n’y a pas de travail empirique solide sans intégration des théories et connaissances venues de toutes les métasciences[152].  »

Voir aussi

modifier

Références

modifier
  1. a b c d e f g h i j k l m n o p q r s et t Vincent Larivière et Cassidy R. Sugimoto, Mesurer la science, Montréal, Les Presses de l'Université de Montréal,
  2. Beauvens Alisma., « Statistical Bibliography or Bibliometrics », Journal of Documentation, 25, 4, p.  348-349, 1969
  3. Nicola de Bellis. Bibliometrics and Citation Analysis: From the Science Citation Index to Cybermetrics. Scarecrow Press, p. 4
  4. Hutchins et al. 2019.
  5. Otlet 1934.
  6. Rousseau 2014.
  7. Pritchard 1969.
  8. Hertzel 2003, p. 288.
  9. a et b Bellis 2009, p. 3.
  10. a et b Bellis 2009, p. 12.
  11. Bellis 2009, p. 4.
  12. a et b Bellis 2009, p. 2.
  13. Godin 2006.
  14. Danesh & Mardani-Nejad 2020.
  15. a et b Hertzel 2003, p. 292.
  16. a et b Bellis 2009, p. 6.
  17. Bellis 2009, p. 23.
  18. Bellis 2009, p. 1.
  19. Bellis 2009, p. 7.
  20. Cole & Eales 1917, p. 578.
  21. Hulme 1923, p. 43.
  22. Bellis 2009, p. 14.
  23. Bellis 2009, p. 9.
  24. Gross & Gross 1927, p. 387.
  25. Gross & Gross 1927, p. 388.
  26. Bellis 2009, p. 75.
  27. Bellis 2009, p. 92.
  28. Bellis 2009, p. 99.
  29. Wouters 1999, p. 61.
  30. Wouters 1999, p. 62.
  31. Bellis 2009, p. 10.
  32. Bellis 2009, p. 52.
  33. Bellis 2009, p. 27.
  34. Luhn 1957.
  35. Wouters 1999, p. 60.
  36. Wouters 1999, p. 64.
  37. Bourne et Hahn 2003, p. 16.
  38. Bourne et Hahn 2003, p. 12.
  39. Bellis 2009, p. 30.
  40. Bellis 2009, p. 34.
  41. Bellis 2009, p. 53.
  42. a et b Bellis 2009, p. 35.
  43. Bellis 2009, p. 36.
  44. Bellis 2009, p. 37.
  45. a et b Bellis 2009, p. 49.
  46. Sugimoto et Larivière 2018, p. 8.
  47. Bellis 2009, p. 57.
  48. Bellis 2009, p. 62.
  49. Price 1975, p. 162.
  50. Bellis 2009, p. 65.
  51. a et b Bellis 2009, p. 67.
  52. Bellis 2009, p. 103.
  53. Bellis 2009, p. 104.
  54. Bellis 2009, p. 187.
  55. Bellis 2009, p. 186.
  56. Nature. 2017.
  57. Bellis 2009, p. 194.
  58. Bellis 2009, p. 153.
  59. Bellis 2009, p. 173.
  60. Hogan 2014, p. 20.
  61. "Tim Berners-Lee, "Qualifiers on Hypertext Links", courriel envoyé le 6 août 1991 au groupe alt.hypertext."
  62. Star et Ruhleder 1996, p. 131.
  63. Bellis 2009, p. 285.
  64. Bellis 2009, p. 31.
  65. Bellis 2009, p. 289.
  66. Bellis 2009, p. 322.
  67. Aspesi et al. 2019, p. 5.
  68. a b et c Chen et al. 2019.
  69. Moore 2019, p. 156.
  70. Wainwright et Bervejillo 2021.
  71. Wainwright et Bervejillo 2021, p. 211.
  72. Ball 2020, p. 504.
  73. a b et c Hicks et al. 2015, p. 430.
  74. David et Frangopol 2015.
  75. Robert K. Merton, The Sociology of Science (1957) en anglais
  76. Bruno Latour, La Science en action, Paris : Gallimard Folio, p. 87
  77. E. Garfield, 1979 Citation Indexing - Its Theory and Application in Science,Technology, and Humanities. Publisher John Wiley & Sons, Inc. 1979. Reprinted by ISI Press, Philadelphia, USA. 1983
  78. Pinski, G., & Narin, F. (1976), Citation influence for journal aggregates of scientific publications : theory, with application to the literature of physics. Information processing and management, 12, 297-312.
  79. Cardon D. (2013). « Dans l'esprit du PageRank. Une enquête sur l'algorithme de Google », Réseaux, 177, 63-95.
  80. C. Lee Giles et Isaac G. Councill. Who gets acknowledged: Measuring scientific contributions through automatic acknowledgment indexing. In Proceedings of the National Academy of Sciences 101(51):17599–17604, 21 décembre 2004
  81. Bruno Latour et Steve Woolgar, La Vie de laboratoire. La production des faits scientifiques, Paris : La Découverte, 1996
  82. Narin F., Patent Bibliometrics, Scientometrics 30, 1, 1994
  83. Barré R. (2001), Sense and nonsense of S&T productivity indicators, Science and Public Policy 28, 4, p. 259-266
  84. Pontille D., Torny D., «La manufacture de l'évaluation scientifique : algorithmes, jeux de données, outils bibliométriques », Réseaux, 177, 25-61, 2013.
  85. Murugesan P & Moravcsik M J. (1978), Variation of the nature of citation measures with journals and scientific specialties. Journal of the American Society of Information Science 29:141-155
  86. Schubert, A, & Braun, T. (1996). Cross-field normalization of scientometric indicators, Scientometrics, 36(3), 311-324.
  87. Sen, B.K. (1992). Normalized impact factor. Journal of Documentation, 48 (3), 318-325.
  88. Bergstrom, C. T. (2007). « Eigenfactor: Measuring the value and prestige of scholarly journals ». College & Research Libraries News 68 (5).
  89. Zitt M., Ramanana-Rahary S., Bassecoulard E.. (2005). Relativity of citation performance and excellence measures: from cross-field to cross-scale effects of field-normalisation, Scientometrics, vol 63, no 2, p. 373-401.
  90. Zitt M., Small H. (2008) Modifying the Journal Impact Factor by Fractional Citation Weighting: the Audience Factor, Journal of the American Society for Information Science and Technology, vol 59, no 11, p. 1856-1860.
  91. Moed, H.F. Measuring contextual citation impact of scientific journals, à paraître dans Journal of Informetrics, 2010 arxiv.org/pdf/0911.2632
  92. Yves Gingras, La fièvre de l’évaluation de la recherche, Centre universitaire de recherche sur la science et la technologie, mai 2008.
  93. (en) Description de la base de données ISI
  94. Informations sur Scopus
  95. J. Schöpfel et H. Prost, « Le JCR facteur d’impact (IF) et le SCImago Journal Rank Indicator (SJR) des revues françaises : une étude comparative », in Psychologie française 54 (2009) 287–305
  96. Pour une liste plus complète recensant ces bases de données, consulter la catégorie Catégorie:Base de données bibliographiques.
  97. Godin B., Pour une sociologie de la statistique sur la science et l'innovation, Canadian Science and Innovation Indicators Consortium (CSIIC), Working Paper no 26, 2004.
  98. Académie des sciences, « Du bon usage de la bibliométrie pour l'évaluation individuelle des chercheurs », 2011
  99. N. C. Liu et Y. Cheng, « Academic Ranking of World Universities – Methodologies and Problems », Higher Education in Europe, 30, 2, 2005 ainsi que M. Zitt et G. Filliatreau, « Big is (made) Beautiful », Première Conférence internationale sur les universités de classe mondiale, Shanghai, juin 2005.
  100. a b c d e et f Que mesurent les indicateurs bibliométriques ?, document d'analyse de la Commission d'évaluation de l'INRIA, Préparé par A-M. Kermarrec, E. Faou, J-P. Merlet (rapporteur), P. Robert, L. Segoufin. Validé par la Commission d’Évaluation du 12 septembre 2007.
  101. « Le Classement de Shanghai est-il biaisé? », sur onomastique.hypotheses.org, (consulté le ).
  102. Leydesdorff L. (2001), The Challenge of Scientometrics: The Development, Measurement, and Self-Organization of Scientific Communications, Universal, 344 p
  103. Weingart P. (2005) Impact of bibliometrics upon the science system: inadvertent consequences? Scientometrics 62, 1, 117–31
  104. Van Raan, A (2004), Measuring science. in H Moed, W Glänzel and U Schmoch, Eds., Handbook of Quantitative Science and Technology Research, p. 19–50, Kluwer.
  105. Zitt M., Bassecoulard E. (2008) Challenges for scientometric indicators: data demining, knowledge flows measurements and diversity issues, Theme section / section thématique: The use and misuse of bibliometric indices in evaluating scholarly performance, Ethics in science and environmental politics 8, 1, 49-60 -- et nombreuses autres contributions dans ce numéro thématique.
  106. Lepori B., Barré R., Filliatreau G. (2008). New perspectives and challenges for the design and production of S&T indicators, Research Evaluation, 17 (1), 33-44.
  107. a b et c Laurence Coutrot, Sur l’usage récent des indicateurs bibliométriques comme outil d’évaluation de la recherche scientifique, Bulletin de méthodologie sociologique, octobre 2008, no 100, p. 45-50
  108. « Le h-index d'Albert Einstein », sur rachelgliese.wordpress.com.
  109. Olivier Boulnois, « L’évaluation automatisée en sciences humaines », Évaluation de la recherche en SHS,‎ (lire en ligne, consulté le ).
  110. A. Van Raan, Sleeping beauties in science, Scientometrics, Vol. 59, No. 3 (2004) 461-466
  111. a et b [PDF] Que disent les indicateurs ?, entretien avec Jean-Pierre Merlet, animateur du groupe de réflexion sur les indicateurs de la commission d’évaluation de l’INRIA, Lettre d'information de l'INRIA, no 59, mai 2007
  112. Gaming the Impact Factor Puts Journal In Time-out http://scholarlykitchen.sspnet.org/2011/10/17/gaming-the-impact-factor-puts-journal-in-time-out/
  113. Glänzel W., Moed H.F. (2002), Journal impact measures in bibliometric research, state-of-the-art report, Scientometrics 53, 2, 171-193
  114. Bordons M., Fernandez M.T., Gomez I. (2004) Advantages and limitations in the use of Impact Factor measures for the assessment of research performance, Scientometrics 53, 2, 195-206
  115. Bellis 2009, p. 288.
  116. Heck 2020.
  117. Bellis 2009, p. 336.
  118. Torny, Capelli et Danjean 2019, p. 1.
  119. Sugimoto et Larivière 2018, p. 70.
  120. Bellis 2009, p. 300.
  121. a b et c Wilsdon et al. 2017, p. 9.
  122. a et b Neylon et Wu 2009.
  123. Priem et al. 2011, p. 3.
  124. Heck 2020, p. 513.
  125. Bornmann et Haunschild 2016.
  126. Tunger & Meier 2020.
  127. Herb 2016, p. 60.
  128. Herb 2012, p. 29.
  129. a b c d e et f Herb 2016, p. 70.
  130. Hauschke et al. 2018.
  131. a et b Wilsdon et al. 2017, p. 15.
  132. Okune et al. 2018, p. 13.
  133. Cameron 1997.
  134. Bosman et al. 2018, p. 19.
  135. Wilsdon et al. 2017, p. 7.
  136. Peroni et al. 2015.
  137. Waltman, Ludo, 22 décembre 2020
  138. Priem, Piwowar et Orr 2022, p. 1-2.
  139. Scheidsteger & Haunschild 2022, p. 10.
  140. Jiao, Li et Fang 2023, p. 14.
  141. Laakso 2023, p. 166.
  142. Akbaritabar, Theile & Zagheni 2023.
  143. Waltman et al. 2020, p. 1.
  144. Torny, Capelli et Danjean 2019, p. 2.
  145. Torny, Capelli et Danjean 2019, p. 7.
  146. Larivière et al. 2013.
  147. Torny, Capelli et Danjean 2019.
  148. Chary et al. 2021.
  149. Gingras 2022.
  150. Strumia 2021.
  151. Glänzel 2008.
  152. Waltman et al. 2020.

Bibliographie

modifier

Ouvrages et thèses

modifier
  • Charles P. Bourne et Trudi Bellardo Hahn, A History of Online Information Services, 1963–1976, MIT Press, (ISBN 978-0-262-26175-3, lire en ligne)
  • Alphonse de Candolle, Histoire des sciences et des savants depuis deux siècles, Genève, M. Georg, (lire en ligne)
  • Francis Bunbury Fitzgerald Campbell et Frank Campbell, The Theory of National and International Bibliography: With Special Reference to the Introduction of System in the Record of Modern Literature, Library Bureau,
  • Edward Wyndham Hulme, Statistical bibliography in relation to the growth of modern civilization : two lectures delivered in the University of Cambridge in May, 1922, London : Hulme, (lire en ligne)
  • Paul Otlet, Traité de Documentation: Le Livre sur le Livre. Théorie et Pratique, Bruxelles, Editiones Mundaneum, (lire en ligne)
  • Derek John de Solla Price, Science Since Babylon, Yale University Press, (ISBN 978-0-300-01798-4)
  • David Nicholas et Maureen Ritchie, Literature and Bibliometrics, London, Clive Bingley,
  • Paul F. Wouters, The citation culture, Amsterdam, Netherlands, Royal Netherlands Academy of Arts and Sciences, , PDF (lire en ligne)
  • Benoît Godin, The Making of science, technology and innovation policy: conceptual frameworks as narratives, 1945–2005, Montréal, Institut national de la recherche scientifique, Centre Urbanisation Culture Société, (lire en ligne)
  • Nicola De Bellis, Bibliometrics and Citation Analysis: From the Science Citation Index to Cybermetrics, Scarecrow Press, (ISBN 978-0-8108-6714-7)
  • Blaise Cronin et Cassidy R. Sugimoto, Beyond Bibliometrics: Harnessing Multidimensional Indicators of Scholarly Impact, MIT Press, (ISBN 978-0-262-32329-1)
  • A. Hogan, Reasoning Techniques for the Web of Data, IOS Press, (ISBN 978-1-61499-383-4)
  • Yves Gingras, Bibliometrics and Research Evaluation: Uses and Abuses, MIT Press, (ISBN 978-0-262-33766-3)
  • Rafael Ball, An Introduction to Bibliometrics: New Development and Trends, Chandos Publishing, (ISBN 978-0-08-102151-4)
  • Cassidy R. Sugimoto et Vincent Larivière, Measuring Research: What Everyone Needs to Know, Oxford University Press, (ISBN 978-0-19-064011-8)
  • Samuel Moore, Common Struggles: Policy-based vs. scholar-led approaches to open access in the humanities (thesis deposit), King's College London, (lire en ligne)
  • Mario Biagioli, Gaming the metrics: misconduct and manipulation in academic research, Cambridge, Massachusetts, The MIT Press, (ISBN 978-0-262-53793-3, OCLC 1130310967)
  • Clémentine Gozlan, Les valeurs de la science: Enquête sur les réformes de l'évaluation de la recherche en France, ENS Éditions, (ISBN 979-10-362-0262-9)

Articles de revue

modifier
  • J. McKeen Cattell, « Statistics of American Psychologists », The American Journal of Psychology, vol. 14, nos 3/4,‎ , p. 310–328 (ISSN 0002-9556, DOI 10.2307/1412321, JSTOR 1412321)
  • F. J. Cole et Nellie B. Eales, « The history of comparative anatomy – A statistical analysis of the literature », Science Progress, vol. 11, no 44,‎ , p. 578–596 (ISSN 2059-495X, JSTOR 43426882)
  • Alfred J. Lotka, « The frequency distribution of scientific productivity », Journal of the Washington Academy of Sciences, vol. 16, no 12,‎ , p. 8
  • P. L. K. Gross et E. M. Gross, « College Libraries and Chemical Education », Science, vol. 66, no 1713,‎ , p. 385–389 (PMID 17782476, DOI 10.1126/science.66.1713.385, Bibcode 1927Sci....66..385G)
  • H. P. Luhn, « A Statistical Approach to Mechanized Encoding and Searching of Literary Information », IBM Journal of Research and Development, vol. 1, no 4,‎ , p. 309–317 (ISSN 0018-8646, DOI 10.1147/rd.14.0309, S2CID 15879823)
  • Alan Pritchard, « Statistical Bibliography or Bibliometrics? », Journal of Documentation, vol. 25,‎ , p. 348–349 (lire en ligne, consulté le )
  • Susan Leigh Star et Karen Ruhleder, « Steps Toward an Ecology of Infrastructure: Design and Access for Large Information Spaces », Information Systems Research, vol. 7, no 1,‎ , p. 111–134 (ISSN 1047-7047, DOI 10.1287/isre.7.1.111, S2CID 10520480, lire en ligne, consulté le )
  • Robert D. Cameron, « A Universal Citation Database », First Monday,‎ (ISSN 1396-0466, DOI 10.5210/fm.v2i4.522  , lire en ligne, consulté le )
  • Benoît Godin, « On the origins of bibliometrics », Scientometrics, vol. 68, no 1,‎ , p. 109–133 (ISSN 0138-9130, DOI 10.1007/s11192-006-0086-0, S2CID 32674188, lire en ligne, consulté le )
  • Benoît Godin, « From Eugenics to Scientometrics: Galton, Cattell and Men of Science », Social Science Information, vol. 37, no 5,‎ , p. 691–728 (PMID 18348397, DOI 10.1177/0306312706075338, JSTOR 25474544, S2CID 13166578) « Original », (consulté le )
  • Benoît Godin, « The Value of Science: Changing Conceptions of Scientific Productivity, 1869-circa 1970 », Social Science Information, vol. 48, no 4,‎ , p. 547–586 (DOI 10.1177/0539018409344475, S2CID 145245489) « Original », (consulté le )
  • Wolfgang Glänzel, « Seven Myths in Bibliometrics About facts and fiction in quantitative science studies », COLLNET Journal of Scientometrics and Information Management, vol. 2, no 1,‎ , p. 9–17 (ISSN 0973-7766, DOI 10.1080/09737766.2008.10700836, S2CID 44206336)
  • Michael Henderson, Simon Shurville et Ken Fernstrom, « The quantitative crunch », Campus-Wide Information Systems, vol. 26, no 3,‎ , p. 149–167 (DOI 10.1108/10650740910967348)
  • Cameron Neylon et Shirley Wu, « Article-Level Metrics and the Evolution of Scientific Impact », PLOS Biology, vol. 7, no 11,‎ , –1000242 (ISSN 1545-7885, PMID 19918558, PMCID 2768794, DOI 10.1371/journal.pbio.1000242  )
  • Michael J. Kurtz et Johan Bollen, « Usage bibliometrics », Annual Review of Information Science and Technology, vol. 44, no 1,‎ , p. 3 (ISSN 1550-8382, DOI 10.1002/aris.2010.1440440108, Bibcode 2010ARIST..44....3K, arXiv 1102.2891, S2CID 484831)
  • « Crowdsourcing Scholarly Data » (April 26–27, 2010) (lire en ligne, consulté le ) [archive du ]
    « (ibid.) », dans Proceedings of the WebSci10: Extending the Frontiers of Society On-Line, Raleigh, NC
  • Jason Priem, Dario Taraborelli, Paul Groth et Cameron Neylon, « altmetrics: a manifesto », Lincoln, University of Nebraska, , p. 5
  • (de) Milos Jovanovic, « Eine kleine Frühgeschichte der Bibliometrie » [« A short history of early bibliometrics »], Information – Wissenschaft & Praxis, vol. 63, no 2,‎ , p. 71–80 (DOI 10.1515/iwp-2012-0017  , S2CID 32450731)
  • Andrea Diem et Stefan C. Wolter, « The Use of Bibliometrics to Measure Research Performance in Education Sciences », Research in Higher Education, vol. 54, no 1,‎ , p. 86–114 (ISSN 0361-0365, DOI 10.1007/s11162-012-9264-5, S2CID 144986574, lire en ligne)
  • R. Hovden, « Bibliometrics for Internet media: Applying the h-index to YouTube », Journal of the American Society for Information Science and Technology, vol. 64, no 11,‎ , p. 2326–2331 (DOI 10.1002/asi.22936, arXiv 1303.0766, S2CID 38708903)
  • Philipp Schaer, « Applied Informetrics for Digital Libraries: An Overview of Foundations, Problems and Current Approaches », Historical Social Research, vol. 38, no 3,‎ , p. 267–281 (DOI 10.12759/hsr.38.2013.3.267-281)
  • Vincent Larivière, Chaoqun Ni, Yves Gingras, Blaise Cronin et Cassidy R. Sugimoto, « Bibliometrics: Global gender disparities in science », Nature, vol. 504, no 7479,‎ , p. 211–213 (ISSN 1476-4687, PMID 24350369, DOI 10.1038/504211a  , S2CID 38026327)
  • Ronald Rousseau, « Library Science: Forgotten Founder of Bibliometrics. », Nature, vol. 510, no 7504,‎ , p. 218 (PMID 24919911, DOI 10.1038/510218e  , Bibcode 2014Natur.510..218R)
  • Dennis F. Thompson et Cheri K. Walker, « A Descriptive and Historical Review of Bibliometrics with Applications to Medical Sciences », Pharmacotherapy, vol. 35, no 6,‎ , p. 551–559 (ISSN 1875-9114, PMID 25940769, DOI 10.1002/phar.1586  , S2CID 206358632)
  • Silvio Peroni, Alexander Dutton, Tanya Gray et David Shotton, « Setting our bibliographic references free: towards open citation data », Journal of Documentation, vol. 71, no 2,‎ , p. 253–277 (ISSN 0022-0418, DOI 10.1108/JD-12-2013-0166)
  • Diana Hicks, Paul Wouters, Ludo Waltman, Sarah de Rijcke et Ismael Rafols, « Bibliometrics: The Leiden Manifesto for research metrics », Nature, vol. 520, no 7548,‎ , p. 429–431 (ISSN 1476-4687, PMID 25903611, DOI 10.1038/520429a  , Bibcode 2015Natur.520..429H, hdl 10261/132304  , S2CID 4462115)
  • Daniel David et Petre Frangopol, « The lost paradise, the original sin, and the Dodo bird: a scientometrics Sapere Aude manifesto as a reply to the Leiden manifesto on scientometrics », Scientometrics, vol. 105, no 3,‎ , p. 2255–2257 (ISSN 1588-2861, DOI 10.1007/s11192-015-1634-2, S2CID 28104352)
  • Ulrich Herb, « Impactmessung, Transparenz & Open Science », Young Information Scientist, vol. 1,‎ , p. 59–79 (DOI 10.5281/zenodo.153831)
  • Lutz Bornmann et Robin Haunschild, « To what extent does the Leiden manifesto also apply to altmetrics? A discussion of the manifesto against the background of research into altmetrics », Online Information Review, vol. 40, no 4,‎ , p. 529–543 (ISSN 1468-4527, DOI 10.1108/OIR-09-2015-0314, lire en ligne)
  • Alex Csiszar, « How lives became lists and scientific papers became data: cataloguing authorship during the nineteenth century », The British Journal for the History of Science, vol. 50, no 1,‎ , p. 23–60 (ISSN 0007-0874, PMID 28202102, DOI 10.1017/S0007087417000012  , S2CID 41853820)
  • Leslie Chan, Alejandro Posada, Denisse Albornoz, Rebecca Hillyer et Angela Okune, 22nd International Conference on Electronic Publishing, [[[ 2018|détail de l’édition]]] (DOI 10.4000/proceedings.elpub.2018.31  , S2CID 65726844), « Whose Infrastructure? Towards Inclusive and Collaborative Knowledge Infrastructures in Open Science »
  • Jeroen Bosman, Ian Bruno, Chris Chapman, Bastian Greshake Tzovaras, Nate Jacobs, Bianca Kramer, Maryann Elizabeth Martone, Fiona Murphy, Daniel Paul O'Donnell, Michael Bar-Sinai, Stephanie Hagstrom, Josh Utley et Lusia Ludmila Veksler, « The Scholarly Commons – principles and practices to guide research communication », OSF Preprints, (consulté le )
  • Christian Hauschke, Simone Cartellieri et Lambert Heller, « Reference implementation for open scientometric indicators (ROSI) », Research Ideas and Outcomes, vol. 4,‎ , p. 31656 (ISSN 2367-7163, DOI 10.3897/rio.4.e31656  , S2CID 70336574, lire en ligne, consulté le )
  • Didier Torny, Laurent Capelli et Lydie Danjean « ELPUB 2019 23d International Conference on Electronic Publishing » () (DOI 10.4000/proceedings.elpub.2019.22  )
    ELPUB 2019 23d International Conference on Electronic Publishing
    « (ibid.) », dans ELPUB 2019 23d International Conference on Electronic Publishing, OpenEdition Press
  • Hutchins BI, Baker KL, Davis MT, Diwersy MA, Haque E, Harriman RM, Hoppe TA, Leicht SA, Meyer P, Santangelo GM, « The NIH Open Citation Collection: A public access, broad coverage resource. », PLOS Biology, vol. 17, no 10,‎ , e3000385 (PMID 31600197, PMCID 6786512, DOI 10.1371/journal.pbio.3000385  )
  • (es) Andrés Fernández-Ramos, María Blanca Rodríguez Bravo, María Luisa Alvite Díez, Lourdes Santos de Paz, María Antonia Morán Suárez, Josefa Gallego Lorenzo et Isabel Olea Merino, « Evolución del uso de los big deals en las universidades públicas de Castilla y León » [« Evolution of the big deals use in the public universities of the Castile and Leon region, Spain »], El Profesional de la Información, vol. 28, no 6,‎ (DOI 10.3145/epi.2019.nov.19  , hdl 10612/11498  , lire en ligne)
  • Ludo Waltman, Vincent Larivière, Staša Milojević et Cassidy R. Sugimoto, « Opening science: The rebirth of a scholarly journal », Quantitative Science Studies, vol. 1, no 1,‎ , p. 1–3 (ISSN 2641-3337, DOI 10.1162/qss_e_00025  , hdl 1866/23210  , S2CID 211212402)
  • Martina K. Linnenluecke, Mauricio Marrone et Abhay K. Singh, « Conducting systematic literature reviews and bibliometric analyses », Australian Journal of Management, vol. 45, no 2,‎ , p. 175–194 (ISSN 0312-8962, DOI 10.1177/0312896219877678  , S2CID 211378937)
  • Aristovnik A, Ravšelj D, Umek L, « A Bibliometric Analysis of COVID-19 across Science and Social Science Research Landscape », Sustainability, vol. 12, no 21,‎ , p. 9132 (DOI 10.3390/su12219132  )
  • Joel Wainwright et Guillermo Bervejillo, « Leveraging monopoly power up the value chain: Academic publishing in an era of surveillance capitalism », Geoforum, vol. 118,‎ , p. 210–212 (ISSN 0016-7185, DOI 10.1016/j.geoforum.2020.04.012, S2CID 234328559)
  • Alessandro Strumia, « Gender issues in fundamental physics: A bibliometric analysis », Quantitative Science Studies, vol. 2, no 1,‎ , p. 225–253 (ISSN 2641-3337, DOI 10.1162/qss_a_00114  , S2CID 233874607)
  • Sowmya Chary, Karin Amrein, Djøra I. Soeteman, Sangeeta Mehta et Kenneth B. Christopher, « Gender disparity in critical care publications: a novel Female First Author Index », Annals of Intensive Care, vol. 11, no 1,‎ , p. 103 (ISSN 2110-5820, PMID 34213685, PMCID 8253865, DOI 10.1186/s13613-021-00889-3  )
  • Yves Gingras, « Towards a moralization of bibliometrics? A response to Kyle Siler », Quantitative Science Studies, vol. 3, no 1,‎ , p. 315–318 (ISSN 2641-3337, DOI 10.1162/qss_c_00178  , S2CID 248102517)
  • Aliakbar Akbaritabar, Tom Theile et Emilio Zagheni, « Global flows and rates of international migration of scholars », MPIDR Working Papers,‎ (lire en ligne, consulté le )
  • Chenyue Jiao, Kai Li et Zhichao Fang, « How are exclusively data journals indexed in major scholarly databases? An examination of the Web of Science, Scopus, Dimensions, and OpenAlex », (arXiv 2307.09704), p. 1–19
  • Mikael Laakso, « Open access books through open data sources: assessing prevalence, providers, and preservation », Journal of Documentation, vol. 79, no 7,‎ , p. 157–177 (ISSN 0022-0418, DOI 10.1108/JD-02-2023-0016, S2CID 259300771, lire en ligne, consulté le )
  • Braun T., A. Schubert, W. Glanzel Scientometric Indicators: A Thirty-Two Country Comparative Evaluation of Publishing Performance and Citation Impact, World Scientific Publishing Company, 250 p. 1985 (pour la méthodologie)
  • Egghe L., Rousseau R., Introduction to informetrics. Quantitative methods in library, documentation and information science, Elsevier, 430 p., 1990
  • Garfield E., Citation indexing: its theory and applications in science, technology and humanities, préface de R.K. Merton, John Wiley, 1979
  • Godin B., La science sous observation : cent ans de mesure sur les scientifiques, 1906-2006, Presses de l’Université Laval, 2005.
  • Godin B., Measurement and Statistics on Science and Technology: 1920 to the Present, Routledge, 2005
  • Yves Gingras, Les dérives de l'évaluation de la recherche : du bon usage de la bibliométrie, Raisons d'agir éditions, 2014
  • Godin B., On the Origins of Bibliometrics, Project on the History and Sociology of S&T Statistics, Canadian Science and Innovation Indicators Consortium (CSIIC), Working Paper no 33, 2006.
  • Lafouge T., Le Coadic Y.F., Michel C., Éléments de statistique et de mathématiques de l'information: infométrie, bibliométrie, médiamétrie, scientométrie, muséométrie, Presses de l'Enssib, 306 p., 2002
  • Vincent Larivière, « Bibliométrie », dans Frédéric Bouchard, Pierre Doray et Julien Prud'homme (dir.), Sciences, technologies et sociétés de A à Z, Montréal, Presses de l’Université de Montréal, (ISBN 978-2-8218-9562-1, DOI 10.4000/books.pum.4259, lire en ligne), p. 26-29
  • Moed H.F., Glänzel W., Schmoch U., Ed., Handbook of quantitative science and technology research: the use of publications and patent statistics in studies of S&T systems, Kluwer, 800 p., 2004
  • Moed, H. F., Citation Analysis In Research Evaluation, Springer, 364 p., 2005
  • Narin F. Evaluative bibliometrics: the use of publication and citation analysis in the evaluation of scientific activity, 459 p. Computer Horizons (NSF C-627), 1976
  • Price, D.J. Little science, big science, Columbia Un. Press, 118 p., 1965 - Trad. française Science et suprascience, 124 p., 1972, Fayard, 1972

Section d'ouvrages

modifier

Rapports

modifier
  • James Wilsdon, Liz Allen, Eleonora Belfiore, Philip Campbell, Stephen Curry, Steven Hill, Richard Jones, Roger Kain, Simon Kerridge, Mike Thelwall, Jane Tinkler, Ian Viney, Paul Wouters, Jude Hill et Ben Johnson, The Metric Tide: Report of the Independent Review of the Role of Metrics in Research Assessment and Management, HEFCE, , 176 p. (ISBN 978-1902369273, DOI 10.13140/RG.2.1.4929.1363, lire en ligne)
  • James Wilsdon, Judit Bar Ilan, Robert Frodeman, Elisabeth Lex, Peters et Paul Wouters., Next-generation metrics: responsible metrics and evaluation for open science., LU, European Commission Publications Office, (DOI 10.2777/337729, lire en ligne)
  • European Commission. Directorate General for Research and Innovation., Evaluation of research careers fully acknowledging Open Science practices: rewards, incentives and/or recognition for researchers practicing Open Science., LU, Publications Office, (DOI 10.2777/75255, lire en ligne)
  • Claudio Aspesi, Nicole Starr Allen, Raym Crow, Shawn Daugherty, Heather Joseph, Joseph McArthur et Nick Shockey, SPARC Landscape Analysis: The Changing Academic Publishing Industry – Implications for Academic Institutions, LIS Scholarship Archive, (lire en ligne)
  • Ingrid Bauer, David Bohmert, Alexandra Czernecka, Thomas Eichenberger, Juan Garbajosa, Horia Iovu, Yvonne Kinnaird, Ana Carla Madeira, Mads Nygard, Per-Anders Östling, Susanne Räder, Mario Ravera, Per-Eric Thörnström et Kurt De Wit, Next Generation Metrics, (lire en ligne)

Conférences

modifier
  • Jason Priem, Heather Piwowar et Richard Orr « OpenAlex: A fully-open index of scholarly works, authors, venues, institutions, and concepts » ()
    STI 2022
  • Thomas Scheidsteger et Robin Haunschild « Comparison of metadata with relevance for bibliometrics between Microsoft Academic Graph and OpenAlex until 2020 » () (DOI 10.5281/zenodo.6975102, arXiv 2206.14168)
    STI 2022

Liens externes

modifier