Nuvola apps important.png Attention, suite à une faille de sécurité, les liens vers la plupart des serveurs d'exploration sont désactivés.

ISTEX Paris (2018) Ducloy

De Wicri Source

Présentation des résultats de LorExplor : une bibliothèque open source de composants XML d'exploitation du corpus


 
 

LorExplor Istex 2018 Diapositive01.png
Titre
Composants XML pour analyser les usages ISTEX
Auteurs
Jacques Ducloy, Thierry Daunois, Jean-Pierre Thomesse, Ali Tebbakh, Jean-Charles Lamirel et Frédérique Péguiron.
In
Séminaire ISTEX, Le projet ISTEX, de l'idée à la concrétisation - Paris - 2018.

Cette page reprend quelques diapositives qui ont été présentées au séminaire ISTEX.

logo travaux Page en cours de rédaction

L'infrastructure Wicri

LorExplor Istex 2018 Diapositive06.png

Le réseau Wicri a joué deux rôles dans le projet LorExplor :

  • une infrastructure technique sur laquelle sont réalisées les opérations de paramétrage, curation et visualisation des explorations de corpus.
  • une base opérationnelle pour rencontrer et impliquer les utilisateurs potentiels.

WicriRéseauGabarit3.png

Pour aller sur Wicri/Wicri (fr)

Pour aller sur le wiki d'accueil du domaine lorexplor.ixtex.fr (fr)

Pour aller sur le pool d'images du réseau Wicri sur le domaine lorexplor.istex.fr

Pour aller sur le wiki d'accueil du réseau Wicri sur le domaine wicri-demo.istex.fr

Pour aller sur le pool d'images du réseau Wicri sur le domaine wicri-demo.istex.fr

Pour aller sur le wiki de service Wicri/Manuel (fr)

Pour aller sur le wiki de service Wicri/Base 1.28 (fr)

Pour aller sur le wiki de service Wicri/Base 1.31 (fr)

Pour aller sur le wiki de service Wicri/Métadonnées (fr)

Pour aller sur Wicri/Outils (fr)

Pour aller sur Wicri/Archéologie (fr)

Pour aller sur le wiki Wicri/Arts (fr)

Pour aller sur le wiki Wicri/Musique (fr)

Pour aller sur Wicri/Ingénierie (fr)

Pour aller sur le wiki Wicri/Psychologie (fr)

Pour aller sur le wiki Wicri/Yoga (fr)

Pour aller sur Wicri/Informatique (fr)

Pour aller sur Wicri/Sic (fr)

Pour aller sur le wiki Wicri/Histoire des sciences (fr)

Pour aller sur le wiki Wicri/Histoire de l'IST (fr)

Pour aller sur Wicri/Linguistique (fr)

Pour aller sur Wicri/Mathématiques (fr)

Pour aller sur Wicri/Santé (fr)

Pour aller sur Wicri/Biomasse (fr)

Pour aller sur Wicri/Eau (fr)

Pour aller sur Wicri/Bois et forêts (fr)

Pour aller sur Wicri/Terre (fr)

Pour aller sur Wicri/Sols urbains (fr)

Pour aller sur Wicri/Agronomie (fr)

Pour lire les Mots de  l'Agronomie (fr)

Pour aller sur Wicri/Animaux (fr)

Pour aller sur le wiki des émérites de Lorraine (fr)

Pour aller sur Wicri/Artist (fr)

Pour aller sur Wic/Sic/Cide (fr)

Pour aller sur Wic/Sic/H2PTM (fr)

Pour aller sur Wicri Sic/VSST (fr)

Pour aller sur le wiki du réseau Médici (fr)

Pour aller sur Wicri/Afrique (fr)

Pour aller sur Wicri/Amérique (fr)

Pour aller sur Wicri/Asie (fr)

Pour aller sur Wicri/Europe (fr)

Pour aller sur Wicri/Océanie (fr)

Pour aller sur Wicri/Belgique (fr)

Pour aller sur Wicri/Allemagne (fr)

Pour aller sur Wicri/France (fr)

Pour aller sur Wicri/Luxembourg (fr)

Pour aller sur Wicri/Francophonie (fr)

Pour aller sur Wicri/Maroc (fr)

Pour aller sur Wicri/Brésil (fr)

Pour aller sur Wicri/Canada (fr)

Pour aller sur Wicri/Grande Région (fr)

Pour aller sur Wicri/Rhénanie-Palatinat (fr)

Pour aller sur Wicri/Sarre (fr)

Pour aller sur Wicri/Wallonie (fr)

Pour aller sur Wicri/Chanson de Roland (fr)

Pour aller sur Wicri/Grand Est (fr)

Pour aller sur Wicri/Grand Est (fr)

Pour aller sur Wicri/Alsace (fr)

Pour aller sur Wicri/Lorraine (fr)

Pour aller sur Wicri/Histoire Lorraine (fr)

Pour aller sur Wicri Lorraine/Bul Nancy (fr)

Pour aller sur Wicri/Nancy (fr)

Pour aller sur Wicri/Île-de-France (fr)

Les wikis communs du réseau Wicri

La bibliothèque de composants XML

LorExplor Istex 2018 Diapositive08.png

La bibliothèque XML était l'objet du soutien officiel des comités ISTEX [1]

L'idée d'utiliser une bibliothèque XML pour analyser des corpus d'information scientifique date des années 92. La bibliothèque Dilib a donc été utilisée et adaptée :

  • Le parser et les modules DOM ont été améliorés pour traiter la grande variété de DTD utiisées dans les corpus ISTEX
  • Les interfaces homme machine, précédemment réalisés à base de cgi-bin ont été totalement redéveloppés avec d'une part des modules en PHP et des générations de modèles wiki.
  • Un générateur de plateforme de curation et d'exploration de corpus a également été prototypée.

Les serveurs d'exploration

LorExplor Istex 2018 Diapositive07.png

La bibliothèque XML a été principalement utilisée pour produire des serveurs d'exploration, ou plus exactement des plateformes de curation et d'exploration. Sur une plateforme les corpus de provenance diverses (ISTEX, PubMed, Pascal, Francis, Hal...) sont homogénéisés, nettoyés pour produire un ensemble de sites d'analyse d'information. Le cartouche ci-dessous permet, par exemple, d'accéder aux étapes de traitement d'un corpus ISTEX sur la village d'Aussois.

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux ISTEX

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Les résultats synthétiques sont intégrés dans les pages wikis. La carte ci-dessous montre par exemple la visibilité en Allemagne des colloques ayant eu lieu à Aussois.

Les expérimentations

LorExplor Istex 2018 Diapositive04.png

Environ 200 serveurs d'exploration ont été produits pendant la durée du projet.

Une cinquantaine ont été réalisé dans le cadre de mini-projets d'étudiants en master, mis en situation réelle. Par groupe de 2 à 4 étudiants, des sujets (toujours nouveaux) ont été proposés (parfois par les étudiants). Les travaux se sont échelonnés sur 6 séances de 2 à 3 heures avec alternance de formation et d'assistance. Les projets donnaient lieu à une restitution orale notée.

Une limitation (provisoire) : les opérations techniques délicates (génération de serveur) ont été réalisées par les enseignants.

Exemples de sujets traités :

sujet (et lien) date volumétrie dont ISTEX
Le patient édenté Fin 2017 30 000 12 600


Retours d'expériences

LorExplor Istex 2018 Diapositive12.png

La mise à disposition d'une machine virtuelle a favorisé la montée en volumétrie dans les applications. Le temps d'une itération sur la génération d'un serveur varie de quelques minutes pour 1000 documents à quelques dizaines de minutes pour 30.000 articles.

Les outils ayant été en constante amélioration pendant la durée du projet, les retours d'expériences sont plutôt d'ordre qualitatif :

  • Les corpus de métadonnées précises (PubMed, Pascal) jouent un rôle fondamental dans la détection des grandes tendances.
  • La volumétrie d'un corpus doit monter à plusieurs milliers de documents (par exemple 4000) pour atteindre des résultats intéressants, en termes de grande tendance,
  • la recherche de signaux faibles demande souvent de passer un seuil plus consistant (exemple 30.000).

Des observations très intéressantes ont été réalisées sur la fiabilité des corpus pour des traitements statistiques. Le passage au texte intégral révèle de nombreux pièges, souvent inattendus. En voici quelques exemples :

  • Les algorithmes d'OCR ont tendance à généraliser des erreurs d'interprétation. Par exemple un serveur d'exploration sur la méthode scrum s'est révélé perturbé à 90 % par des corrections inappropriées sur « sérum ».
  • Certaines pratiques rédactionnelles peuvent rendre des sujets très compliqués à traiter. Les étudiants confrontés au « libre accès en Belqique » ont été confrontés à une multitude d'article avec la mention « open access » dans la zone titre d'un article.
  • Dans les recherches d'acteurs, la présence d'articles avec une multitude d'acteurs (plusieurs milliers) perturbe complètement les algorithmes de recherche de coopérations.


Un poste rédactionnel complexe mais puissant

LorExplor Istex 2018 Diapositive10.png

Conclusion

LorExplor Istex 2018 Diapositive05.png

Voir aussi

Notes
  1. Le décalage entre ce soutien et les objectifs du projet est détaillé dans la version plus complète de l'article.
Sur ce wiki
Dans le réseau Wicri :

La page de référence « ISTEX Paris (2018) Ducloy » est sur le wiki Wicri/Ticri..