Dilib, module Explor

De Wicri Outils
LogoDilib.gif
Panneau travaux.png
Bibliothèque Dilib (ressources numériques)
Module Explor

Le module Explor contient des outils pour la création de serveurs d'explorations et pour la gestion des plateformes de curation associées.

 

Organisation générale

Dans le réseau Wicri, un wiki constitue un espace de présentation, le module Explor permet de lui associer un dispositif d'exploration de la littérature scientifique associée. Une production du module Explor est une plateforme de curation et d'exploration ou area.

Plateforme, flux, étape, zoom

Une plateforme (ou area) est composés de flux de traitement (ou streams). Un flux correspond généralement à un type de données. Par exemple, une configuration type comprendra en amont des streams Inist, PubMed, PubMed Central, Hal qui seront regroupé en aval dans un flux principal, nommé par convention Main.

Espace d'exploration

Un flux est composé d'étapes ou steps. Un step dispose de son propre système de recherche d'information autour d'un fichier bibliographie, complété par d'autres ressources telles que ds fichiers inverses, d'association ou de clusterisation. Un flux classique en amont comprendra par exemple :

  • une étape de reformatage du corpus (en TEI), généralement nommée Corpus,
  • une étape de Curation spécialisée et adaptée aux données initiales,
  • et une étape d'analyse partielle ou Analysis.

Le flux principal est également structuré en 3 étapes :

  • une étape de Confluence où les données des flux sont unifiées (en TEI),
  • une étape de Curation,
  • et enfin l'étape finale Exploration.

Une application réduite à un flux de données peut être limitée à 3 étapes : Corpus, Curation, Exploration. On peut envisager une application élémentaire limitée à une étape.

Enfin, on peut associer des Zooms à chaque étape. Un Zoom reprend tous les paramètres de l'étape à laquelle il est associé mais sur un sous-ensemble de la bibliographie.

Paramètres, données, navigation

En pratique, une plateforme est gérée dans une arborescence unix avec un ensemble de répertoires organisé à partir d'une racine commune. Les principaux éléments d'une plateforme sont :

  • un ensemble de ressources pour le paramétrage et la génération. Elles sont réparties dans les wikis et dans des répertoires sur la machine de génération.
  • un espace (Data) contenant les données et index associés.
  • un espace pour la navigation.

Génération d'une plateforme

La génération d'une plateforme s'effectue en 3 temps :

  • déclaration des paramètres sur les wikis. Une commande est en cours de mise au point pour faciliter cette étape.
génération des pages wiki (Commande ExplorGenerAreaPages).

Plateforme d'entraînement

Organisation interne d'une plateforme

L'arborescence est un ensemble de répertoires Unix organisé à partir d'une racine commune (areaDirPath).

Import
Ce répertoire est totalement généré par l'utilisateur (tous les autres sont gérés par le module Explor). Il contient les données brutes.
PrivateImport
en projet
bin
contient les programmes générés ;
Input
contient les paramètres en format compatibles avec les tables Sxml.
Data
contient les données générées à partir des données brutes en utilisant les paramètres calculés dans Input.
PrivateData
contient des données qui ne doivent pas être visibles sur un site public
Site
contient le site généré (pages web en html ou php) ;

Organisation de l'arborescence Data

Les données sont organisées dans une structure avec les niveaux suivants :

  • racine Data (ou espace) : il contient un répertoire par stream (flux) qui a pour nom de fichier le code associé (exemple Main ou Inist1)
  • niveau stream (ou flux)
  • niveau step :
  • niveau données :

Organisation de l'arborescence Site

Les pages html ou php sont également installées dans l'arborescence Site.

Organisation des plateformes sur une machine

A partir des versions V0.5.93.

Une plateforme est généralement associée à un wiki. Sur une machine virtuelle donnée, les wikis, ou plus exactement les éléments php correspondant, sont rangés dans une arborescence dont la racine est matérialisée par la variable d'environnement $WICRI_ROOT. Ainsi $WICRI_ROOT/Wicri/Lorraine/fr désigne le répertoire qui contient le fichier LocalSettings.php. Les serveurs d'environnement sont rangés à ce niveau à l'aide d'un répertoire nommé corpus.

Ainsi la plateforme CrprHalV2 du wiki Wicri/Lorraine est rangée dans le répertoire :

  • $WICRI_ROOT/Wicri/Lorraine/corpus/CrpgHalV2

L'expérience montre l'importance de gérer plusieurs versions d'une plateforme donnée. Il est alors conseillé de créer un répertoire de rangement (par exemple CrpgHal.storage). Les diverses versions sont alors repérées par des dates.

Exemple :

CrpgHal.storage
  +- CrpgHalV1.20141003
  +- CrpgHalV1.20150105
  +- CrpgHalV2.20150101

La version opérationnelle est alors désignée par un lien.

Paramètres

Ce module utilise un ensemble de paramètres qui, pour le réseau Wicri, sont définis sur :

Chaque flux utilise également des tables de paramètres qui complètent ou modifient les paramètres initiaux.

Icône de détail Article détaillé : Dilib, module Explor, paramétrage.

Création d'un nouveau flux

Un réseau d'applications pilotes

logo travaux liste à réactualiser, voir également la page discussion
 
Bases utilisables en test

Voir aussi

Dans le réseau Wicri :

Ceci est la page de référence de « Dilib, module Explor » Ce module possède une page d'entrée sur :