ISTEX Paris (2018) Ducloy

Présentation des résultats de LorExplor : une bibliothèque open source de composants XML d'exploitation du corpus

Titre: Composants XML pour analyser les usages ISTEX
Auteurs: Jacques Ducloy, Thierry Daunois, Jean-Pierre Thomesse, Ali Tebbakh, Jean-Charles Lamirel et Frédérique Péguiron.
In: Séminaire ISTEX, Le projet ISTEX, de l'idée à la concrétisation - Paris - 2018.

Cette page reprend quelques diapositives qui ont été présentées au séminaire ISTEX.

Sommaire

1 L'infrastructure Wicri
2 La bibliothèque de composants XML
3 Les serveurs d'exploration
4 Les expérimentations
5 Retours d'expériences
6 Un poste rédactionnel complexe mais puissant
7 Conclusion
8 Voir aussi

Page en cours de rédaction

L'infrastructure Wicri

Le réseau Wicri a joué deux rôles dans le projet LorExplor :

une infrastructure technique sur laquelle sont réalisées les opérations de paramétrage, curation et visualisation des explorations de corpus.
une base opérationnelle pour rencontrer et impliquer les utilisateurs potentiels.


Les wikis communs du réseau Wicri

La bibliothèque de composants XML

La bibliothèque XML était l'objet du soutien officiel des comités ISTEX ^[1]

L'idée d'utiliser une bibliothèque XML pour analyser des corpus d'information scientifique date des années 92. La bibliothèque Dilib a donc été utilisée et adaptée :

Le parser et les modules DOM ont été améliorés pour traiter la grande variété de DTD utiisées dans les corpus ISTEX
Les interfaces homme machine, précédemment réalisés à base de cgi-bin ont été totalement redéveloppés avec d'une part des modules en PHP et des générations de modèles wiki.
Un générateur de plateforme de curation et d'exploration de corpus a également été prototypée.

Les serveurs d'exploration

La bibliothèque XML a été principalement utilisée pour produire des serveurs d'exploration, ou plus exactement des plateformes de curation et d'exploration. Sur une plateforme les corpus de provenance diverses (ISTEX, PubMed, Pascal, Francis, Hal...) sont homogénéisés, nettoyés pour produire un ensemble de sites d'analyse d'information. Le cartouche ci-dessous permet, par exemple, d'accéder aux étapes de traitement d'un corpus ISTEX sur la village d'Aussois.

Les résultats synthétiques sont intégrés dans les pages wikis. La carte ci-dessous montre par exemple la visibilité en Allemagne des colloques ayant eu lieu à Aussois.

Rhénanie-du-Nord-Westphalie

Sarre

Saxe-Anhalt

Schleswig-Holstein

Les expérimentations

Environ 200 serveurs d'exploration ont été produits pendant la durée du projet.

Une cinquantaine ont été réalisé dans le cadre de mini-projets d'étudiants en master, mis en situation réelle. Par groupe de 2 à 4 étudiants, des sujets (toujours nouveaux) ont été proposés (parfois par les étudiants). Les travaux se sont échelonnés sur 6 séances de 2 à 3 heures avec alternance de formation et d'assistance. Les projets donnaient lieu à une restitution orale notée.

Une limitation (provisoire) : les opérations techniques délicates (génération de serveur) ont été réalisées par les enseignants.

Exemples de sujets traités :

sujet (et lien)	date	volumétrie	dont ISTEX
Le patient édenté	Fin 2017	30 000	12 600

Retours d'expériences

La mise à disposition d'une machine virtuelle a favorisé la montée en volumétrie dans les applications. Le temps d'une itération sur la génération d'un serveur varie de quelques minutes pour 1000 documents à quelques dizaines de minutes pour 30.000 articles.

Les outils ayant été en constante amélioration pendant la durée du projet, les retours d'expériences sont plutôt d'ordre qualitatif :

Les corpus de métadonnées précises (PubMed, Pascal) jouent un rôle fondamental dans la détection des grandes tendances.
La volumétrie d'un corpus doit monter à plusieurs milliers de documents (par exemple 4000) pour atteindre des résultats intéressants, en termes de grande tendance,
la recherche de signaux faibles demande souvent de passer un seuil plus consistant (exemple 30.000).

Des observations très intéressantes ont été réalisées sur la fiabilité des corpus pour des traitements statistiques. Le passage au texte intégral révèle de nombreux pièges, souvent inattendus. En voici quelques exemples :

Les algorithmes d'OCR ont tendance à généraliser des erreurs d'interprétation. Par exemple un serveur d'exploration sur la méthode scrum s'est révélé perturbé à 90 % par des corrections inappropriées sur « sérum ».
Certaines pratiques rédactionnelles peuvent rendre des sujets très compliqués à traiter. Les étudiants confrontés au « libre accès en Belqique » ont été confrontés à une multitude d'article avec la mention « open access » dans la zone titre d'un article.
Dans les recherches d'acteurs, la présence d'articles avec une multitude d'acteurs (plusieurs milliers) perturbe complètement les algorithmes de recherche de coopérations.

Un poste rédactionnel complexe mais puissant

Conclusion

Voir aussi

Notes

↑ Le décalage entre ce soutien et les objectifs du projet est détaillé dans la version plus complète de l'article.

Sur ce wiki

Utilisateur:Jacques Ducloy/Blog/Séminaire ISTEX 2018

Dans le réseau Wicri :

La page de référence « ISTEX Paris (2018) Ducloy » est sur le wiki Wicri/Ticri..

[1] Le décalage entre ce soutien et les objectifs du projet est détaillé dans la version plus complète de l'article.

[1]

ISTEX Paris (2018) Ducloy

Sommaire

L'infrastructure Wicri

La bibliothèque de composants XML

Les serveurs d'exploration

Les expérimentations

Retours d'expériences

Un poste rédactionnel complexe mais puissant

Conclusion

Voir aussi

Menu de navigation

Affichages

Outils personnels

Navigation

Rechercher

Outils