Attention, suite à une faille de sécurité, les liens vers la plupart des serveurs d'exploration sont désactivés.
ISTEX Paris (2018) Ducloy
Présentation des résultats de LorExplor : une bibliothèque open source de composants XML d'exploitation du corpus
|
Cette page reprend quelques diapositives qui ont été présentées au séminaire ISTEX.
Sommaire
L'infrastructure Wicri
Le réseau Wicri a joué deux rôles dans le projet LorExplor :
- une infrastructure technique sur laquelle sont réalisées les opérations de paramétrage, curation et visualisation des explorations de corpus.
- une base opérationnelle pour rencontrer et impliquer les utilisateurs potentiels.
Les wikis communs du réseau Wicri |
La bibliothèque de composants XML
La bibliothèque XML était l'objet du soutien officiel des comités ISTEX [1]
L'idée d'utiliser une bibliothèque XML pour analyser des corpus d'information scientifique date des années 92. La bibliothèque Dilib a donc été utilisée et adaptée :
- Le parser et les modules DOM ont été améliorés pour traiter la grande variété de DTD utiisées dans les corpus ISTEX
- Les interfaces homme machine, précédemment réalisés à base de cgi-bin ont été totalement redéveloppés avec d'une part des modules en PHP et des générations de modèles wiki.
- Un générateur de plateforme de curation et d'exploration de corpus a également été prototypée.
Les serveurs d'exploration
La bibliothèque XML a été principalement utilisée pour produire des serveurs d'exploration, ou plus exactement des plateformes de curation et d'exploration. Sur une plateforme les corpus de provenance diverses (ISTEX, PubMed, Pascal, Francis, Hal...) sont homogénéisés, nettoyés pour produire un ensemble de sites d'analyse d'information. Le cartouche ci-dessous permet, par exemple, d'accéder aux étapes de traitement d'un corpus ISTEX sur la village d'Aussois.
Les résultats synthétiques sont intégrés dans les pages wikis. La carte ci-dessous montre par exemple la visibilité en Allemagne des colloques ayant eu lieu à Aussois.
Les expérimentations
Environ 200 serveurs d'exploration ont été produits pendant la durée du projet.
Une cinquantaine ont été réalisé dans le cadre de mini-projets d'étudiants en master, mis en situation réelle. Par groupe de 2 à 4 étudiants, des sujets (toujours nouveaux) ont été proposés (parfois par les étudiants). Les travaux se sont échelonnés sur 6 séances de 2 à 3 heures avec alternance de formation et d'assistance. Les projets donnaient lieu à une restitution orale notée.
Une limitation (provisoire) : les opérations techniques délicates (génération de serveur) ont été réalisées par les enseignants.
Exemples de sujets traités :
sujet (et lien) | date | volumétrie | dont ISTEX |
---|---|---|---|
Le patient édenté | Fin 2017 | 30 000 | 12 600 |
Retours d'expériences
La mise à disposition d'une machine virtuelle a favorisé la montée en volumétrie dans les applications. Le temps d'une itération sur la génération d'un serveur varie de quelques minutes pour 1000 documents à quelques dizaines de minutes pour 30.000 articles.
Les outils ayant été en constante amélioration pendant la durée du projet, les retours d'expériences sont plutôt d'ordre qualitatif :
- Les corpus de métadonnées précises (PubMed, Pascal) jouent un rôle fondamental dans la détection des grandes tendances.
- La volumétrie d'un corpus doit monter à plusieurs milliers de documents (par exemple 4000) pour atteindre des résultats intéressants, en termes de grande tendance,
- la recherche de signaux faibles demande souvent de passer un seuil plus consistant (exemple 30.000).
Des observations très intéressantes ont été réalisées sur la fiabilité des corpus pour des traitements statistiques. Le passage au texte intégral révèle de nombreux pièges, souvent inattendus. En voici quelques exemples :
- Les algorithmes d'OCR ont tendance à généraliser des erreurs d'interprétation. Par exemple un serveur d'exploration sur la méthode scrum s'est révélé perturbé à 90 % par des corrections inappropriées sur « sérum ».
- Certaines pratiques rédactionnelles peuvent rendre des sujets très compliqués à traiter. Les étudiants confrontés au « libre accès en Belqique » ont été confrontés à une multitude d'article avec la mention « open access » dans la zone titre d'un article.
- Dans les recherches d'acteurs, la présence d'articles avec une multitude d'acteurs (plusieurs milliers) perturbe complètement les algorithmes de recherche de coopérations.
Un poste rédactionnel complexe mais puissant
Conclusion
Voir aussi
- Notes
- ↑ Le décalage entre ce soutien et les objectifs du projet est détaillé dans la version plus complète de l'article.
- Sur ce wiki
- Dans le réseau Wicri :
La page de référence « ISTEX Paris (2018) Ducloy » est sur le wiki Wicri/Ticri..