Information scientifique et technique d'excellence
Istex est un réservoir de plus de 28 millions[1] de publications scientifiques multilingues et multidisciplinaires s’étalant sur 700 ans. Il représente une ressource pour deux usages : un usage documentaire (pour accéder à des documents scientifiques), un usage de fouille de textes (pour constituer un corpus à des fins d’analyse textuelle).
Première version | |
---|---|
Dépôt | https://github.com/istex |
État du projet | En développement actif |
Taille des données | 28 180 024 documents (en 2024) |
Langues | 51 langues |
Type | Base de données |
Documentation | https://doc.istex.fr |
Site web | https://www.istex.fr |
Ce réservoir est le fruit du partenariat entre le CNRS, l’Abes, Couperin et l'Université de Lorraine, agissant en son nom et pour le compte de France Universités. Il dessert l’ensemble des établissements français de l’enseignement supérieur et de la recherche. La plateforme Istex, opérée par le CNRS et les équipes de l'Inist, se positionne dans le paysage de la science ouverte[2] puisqu’elle permet l’accès à des publications parfois inaccessibles sur les sites éditeurs.
Historique
modifierIstex est né en 2011 d’une impulsion nationale dans le cadre du Programme d’Investissements d’Avenir (PIA) du ministère de l’Enseignement supérieur, de la recherche et de l’innovation (Mesri) financé par l’Agence Nationale de la Recherche (ANR). Ce projet a initialement permis l’achat de plus de 25 millions de documents scientifiques et la création d’une plateforme numérique accessibles via l’environnement numérique de travail des établissements ayants droit. Depuis le 8 mars 2022, Istex est un projet d’infrastructure de recherche[3] dans la feuille de route nationale du Mesri[4].
La base Istex
modifierLes publications Istex sont des acquisitions qui proviennent d’achats d’archives scientifiques au travers de licences nationales[5] menées dans le cadre du Programme d'Investissement d’Avenir Istex[6] (2012 - 2018). Les marchés signés avec les éditeurs en application du Plan de soutien à l’édition scientifique française[7] (2017-2018) et des acquisitions pérennes des licences nationales complémentaires des abonnements courants[8] ont ensuite permis d’étoffer le contenu de la ressource Istex. Depuis 2019, les acquisitions se poursuivent également dans le cadre du GIS CollEx-Persée[9].
Outils et services autour de l’API Istex
modifierLes publications présentes dans Istex sont des données accessibles en un seul lieu, interopérables, homogénéisées, et enrichies[10]. Plusieurs ressources et outils ont été développés autour de l’API Istex[11] permettant de décrire son contenu, de faciliter son interrogation ou de télécharger des documents.
Accéder aux ressources Istex
- L'outil Istex Search, qui remplace le démonstrateur et Istex-DL[12], permet d'interroger le réservoir, d'explorer les résultats, de télécharger massivement des données dans plusieurs formats et propose des passerelles vers des outils d'analyse de corpus.
- Google Scholar et l'extension Click & Read offrent d'accéder à des articles grâce à des requêtes OpenURL.
Se documenter
- La revue de sommaire recense toutes les ressources Istex (par éditeur, par revue, etc.).
- data.istex contient des référentiels documentaires sur les métadonnées Istex produites et / ou transformées à l'Inist.
Se former
- Une documentation et des tutoriels didactiques sont à votre disposition.
- Des formations et un accompagnement personnalisé vous permettent de réussir la constitution de votre corpus.
Aller plus loin dans la fouille de textes
Istex contient des liens vers des services d’aide à la recherche développés à l’Inist-CNRS pour aller plus loin vers la fouille de textes en :
- utilisant des corpus scientifiques prêts à l’emploi pour entraîner des outils de fouille de textes ;
- préparant, explorant et publiant des données grâce à l’outil open-source Lodex ;
- enrichissant des données grâce à des web-services ;
- consultant TM tools-Explorer : une liste de trois cents outils libres spécialisés dans le traitement automatique des langues et l'exploration de texte ;
- utilisant ou partageant des ressources terminologiques grâce à la plateforme Loterre.
Notes et références
modifier- En date du 18 octobre 2024. Le réservoir est enrichi régulièrement. Pour en savoir plus, consulter les actualités du site istex.fr.
- « Science ouverte », sur cnrs.fr, (consulté le ).
- Alexandra Petitjean-Monnin, Raluca Pierrot et Cécilia Fabry, « Istex : de la plateforme de référence à l’infrastructure de recherche », Arabesque, no 107, , p. 20 (DOI 10.35562/arabesques.3090, lire en ligne)
- Pour consulter le détail des corpus éditeurs chargés dans Istex se reporter au site : https://loaded-corpus.data.istex.fr.
- « La participation de l’Abes aux programmes d’acquisition de ressources électroniques sous licence nationale », sur abes.fr (consulté le ).
- Raymond Bérard, « Istex, vers des services innovants d’accès à la connaissance », Synthèse rédigée à partir du dossier de candidature d’Istex aux Initiatives d’excellence et des réunions de travail des partenaires du dossier, (lire en ligne [PDF])
- « Le soutien à l'édition scientifique », sur enseignementsup-recherche.gouv.fr, (consulté le ).
- Stéphanie Gregorio, « Elsevier, 2009 à 2012, de nouvelles années disponibles sur Istex », sur istex.fr, (consulté le ).
- « CollEx-Persée : des collections d'excellence au service des chercheurs », sur enseignementsup-recherche.gouv.fr, (consulté le ).
- Pascal Cuxac et Nicolas Thouvenin, « Archives numériques et fouille de textes : le projet Istex », Atelier TextMine, conférence EGC, (lire en ligne [PDF])
- Claude Niederlender, « L’API Istex : le sésame pour accéder aux ressources acquises », Arabesques, no 84, , p. 17-19 (DOI 10.35562/arabesques.497, HAL hal-0300807, lire en ligne)
- Pascale VIOT, « Istex Search : un service dédié à la constitution de corpus », sur Istex, (consulté le )
Bibliographie
modifier- Maud Bénard et al. (2023). MaTOS: Traduction automatique pour la science ouverte. Actes de l’atelier « Analyse et Recherche de Textes Scientifiques » (ARTS), conférence CORIA TALN RJCRI RECITAL 2023, juin 2023, Paris, 8-15.
- Mathilde Huguin & Sabine Barreaux. (2023). Le corpus « Machine Translation » : une exploration diachronique des (méta)données Istex. Actes de l’atelier « Analyse et Recherche de Textes Scientifiques » (ARTS), conférence CORIA TALN RJCRI RECITAL 2023, juin 2023, Paris, 54-59.
- Pascal Cuxac. (2022). L’IA et la fouille de textes à l’INIST : l’IA à portée de tous ?, Arabesques 107, 17-18.
- Camille de Salabert & Sabine Barreaux. (2020). Vers un corpus optimal pour la fouille de textes : stratégie de constitution de corpus spécialisés à partir d’ISTEX. Actes de la 6e conférence conjointe JEP, TALN RÉCITAL, juin 2020, Nancy, 66-69.
- Sabine Barreaux & Dominique Besagni. An Experiment in Annotating Animal Species Names from ISTEX Resources. Proceedings of the 12th Conference on Language Resources and Evaluation (LREC), May 2020, Marseille, France, 4509-4513.
- Pascale Viot & Nicolas Thouvenin. (2018). ISTEX : une nouvelle corde à son ARK, Arabesques 88, 18-19.
- Mathieu Andro & Sophie Aubin. (2016). Domestiquer de nouvelles espèces de poissons grâce au text mining et à ISTEX. DATA 4IST : exploration et analyse des sources IST pour la recherche et ses environnements, mai 2016, Paris, France.
- Jean-Marie Pierrel. (2015). Les services Istex : Istex au-delà de l’acquisition, Arabesques 80, 6-7.