Plateforme LorExplor
La plateforme LorExplor est une solution technique, développée dans le cadre dur projet LorExplor et qui permet d'exploiter localement un corpus de documents numériques extrait de la plateforme de services ISTEX.
La démarche LorExplor
Un des objectifs principaux de la plateforme LorExplor est la capacité à donner des éléments de réponse à un problème informationnel en quelques heures. Cet objectif est un intermédiaire entre les deux approches les plus courantes :
- utilisation basique d'un portail, où l'on espère une réponse en 3 clics.
- procédure classique de type veille avec sous-traitance (et donc cahier des charges).
Plus précisément sur un problème donné[1], la démarche initiale LorExplor consiste à :
- identifier, puis télécharger un corpus censé contenir la réponse à la question posée,
- construire un serveur d'exploration et démarrer des investigations par des navigations dans le serveur,
- pousser les investigations plus avant en utilisant des outils informatiques,
- élaborer des règles de curation qui vont améliorer la qualité du corpus (par rapport à la question posée),
- restituer les résultats.
Ce processus est naturellement itératif.
La plateforme LorExplor
Elle se compose des éléments suivants :
- la bibliothèque DILIB,
- un générateur de Serveurs d'exploration,
- la solution Semantic MediaWiki,
- le réseau Wicri.
Adaptations Dilib pour LorExplor
Le sigle DILIB (Data & Information LIBrary) identifie un projet de bibliothèques de composants logiciels pour les applications liées aux documents et au traitement de l'information.
L'idée générale est celle d'un jeu de construction type Logo ou Meccano où les composants de base sont des fonctions logicielles avec des interfaces normalisées XML. Par exemple, un fichier inverse est un ensemble de documents XML (voir un extrait du fichier inverse auteur sur le serveur Aussois).
Le noyau est un parser XML qui est adapté aux flots de données qui peut traiter des flux de plusieurs millions de documents XML.