Dilib, module Istex

De Wicri Outils
LogoDilib.gif
Panneau travaux.png
Bibliothèque Dilib (ressources numériques)
Module Istex

Ce module traite de l'intégration de corpus venant du projet ISTEX, dans un espace d'exploration (Dilib, module Explor).

Il contient des utilitaires pour le traitement des données structurées en format JavaScript Object Notation (JSON).

 

Évolutions en version V0.5.80

A partir de la version V0.5.80 le format d'entrée des données ISTEX évolue.

Dans les versions antérieures, la génération des serveurs était basée sur le format de convergence des métadonnées ISTEX (mods). Le schéma était limité à ce format. Par exemple, dans l'étape Corpus un document Istex avait comme racine :

<record>
  <TEI>
     ...
  </TEI>
  <mods> 
     ...
  </mods>
</record>

Voir par exemple : http://ticri.univ-lorraine.fr/Wicri/Terre/corpus/Indium/IndiumV1.old/Site/fr/Main/Corpus/bibRecord.php?hk=000073

A partir de V0.5.80, le format d'entrée sera :

<record>
  <TEI>
     ...
  </TEI>
  <istex>
    <metadata>
      <mods> 
        ...
      </mods>
      <xml> 
        ...
      </xml>
     </metadata>
  </istex>
</record>

Création d'un serveur

Voir la commande : IstexGenerAreaPages

Paramétrage des serveurs

Les tables de paramétrage des flux ISTEX sont données dans les pages :

Outils d'acquisition

Commande IstexGetCorpus

Exemple d'emploi
IstexGetCorpus -q fraxinus -s20 -t mods

IstexGetCorpus -q fraxinus -s20 -t mods  \
 | IstexModsToSxml | IstexModsToTei      \
 | SxmlIndent | more

Outils de reformatage

Commande IstexModsToSxml

Cet outil, sans paramètre, accepte en entrée des fichiers xml (mods) produits par l'INIST pour générer des flux Sxml. Il procède à des opérations de nettoyage (suppression d'espaces en fin d'éléments de données).

Exemple d'emploi
cat HypertextV5/Import/istex/*.xml | IstexModsToSxml | grep "Lorraine" | wc

Commande IstexModsToTei

Cette commande, sans paramètre, accepte en entrée des flux Sxml et produit des notices en TEI.

Exemple d'emploi

La commande IstexExplorDataShells génère un ficher de commandes shell qui intègre la commande IstexModsToTei. Voici le fichier généré :

#!/bin/sh
# This shell is generated by IstexExplorDataShells 
echo "---- Executing sh HypertextV5/bin/ISTEXCorpusBiblio.sh" 
cat HypertextV5/Import/istex/*.xml   \
   | IstexModsToSxml  \
   | IstexModsToTei   \
   | TeiPutRefToIdno -t wicri:Area/ISTEX/Corpus  \
   | DamHfdBuild -h HypertextV5/Data/ISTEX/Corpus/biblio

 echo "==== " ISTEX, step Corpus, biblio done
 DamCat HypertextV5/Data/ISTEX/Corpus/biblio.hfd | wc

Outils de génération

Commande IstexExplorDataShells

Cette commande sert à générer tous les shells permettant de créer les sites (bibliographie + index) contituant un flux Istex.

Commande IstexExplorSiteShell

Cette commande permet de ranger dans l'architecture des fichiers du Site Web les composants nécessaires à la navigation d'un flux Istex.

Commande IstexExplorSiteHtmlPhp

Cette commande permet de générer les fichiers PHP et HTML en fonction des paramètres.

Outils de curation

Commande IstexAffiliationSetPays

Cette commande, activée pendant l'étape de curation, sert à reconnaitre et normaliser les noms de pays.

Commande IstexCurationCountry

Cette commande, activée pendant l'étape de finale, sert à identifier les données géographiques (régions, villes) une fois les noms de pays reconnus.

Applications

Jeux d'essais
Application pilote
Volume conséquent

Voir aussi

Lien externe