Dilib, module Istex
Module Istex |
Ce module traite de l'intégration de corpus venant du projet ISTEX, dans un espace d'exploration (Dilib, module Explor).
Il contient des utilitaires pour le traitement des données structurées en format JavaScript Object Notation (JSON).
Liste des modules Dilib
Module Istex
|
Évolutions en version V0.5.80
A partir de la version V0.5.80 le format d'entrée des données ISTEX évolue.
Dans les versions antérieures, la génération des serveurs était basée sur le format de convergence des métadonnées ISTEX (mods). Le schéma était limité à ce format. Par exemple, dans l'étape Corpus un document Istex avait comme racine :
<record>
<TEI>
...
</TEI>
<mods>
...
</mods>
</record>
Voir par exemple : http://ticri.univ-lorraine.fr/Wicri/Terre/corpus/Indium/IndiumV1.old/Site/fr/Main/Corpus/bibRecord.php?hk=000073
A partir de V0.5.80, le format d'entrée sera :
<record>
<TEI>
...
</TEI>
<istex>
<metadata>
<mods>
...
</mods>
<xml>
...
</xml>
</metadata>
</istex>
</record>
Création d'un serveur
Voir la commande : IstexGenerAreaPages
Paramétrage des serveurs
Les tables de paramétrage des flux ISTEX sont données dans les pages :
- Dilib, module Istex, Explor data - opérations sur les flux de données (construction d'index...) ;
- Dilib, module Istex, Explor en - paramétrage de l'interface en anglais ;
- Dilib, module Istex, Explor fr - paramétrage de l'interface en français.
Outils d'acquisition
Commande IstexGetCorpus
- Exemple d'emploi
IstexGetCorpus -q fraxinus -s20 -t mods
IstexGetCorpus -q fraxinus -s20 -t mods \
| IstexModsToSxml | IstexModsToTei \
| SxmlIndent | more
Outils de reformatage
Commande IstexModsToSxml
Cet outil, sans paramètre, accepte en entrée des fichiers xml (mods) produits par l'INIST pour générer des flux Sxml. Il procède à des opérations de nettoyage (suppression d'espaces en fin d'éléments de données).
- Exemple d'emploi
cat HypertextV5/Import/istex/*.xml | IstexModsToSxml | grep "Lorraine" | wc
Commande IstexModsToTei
Cette commande, sans paramètre, accepte en entrée des flux Sxml et produit des notices en TEI.
- Exemple d'emploi
La commande IstexExplorDataShells génère un ficher de commandes shell qui intègre la commande IstexModsToTei
. Voici le fichier généré :
#!/bin/sh
# This shell is generated by IstexExplorDataShells
echo "---- Executing sh HypertextV5/bin/ISTEXCorpusBiblio.sh"
cat HypertextV5/Import/istex/*.xml \
| IstexModsToSxml \
| IstexModsToTei \
| TeiPutRefToIdno -t wicri:Area/ISTEX/Corpus \
| DamHfdBuild -h HypertextV5/Data/ISTEX/Corpus/biblio
echo "==== " ISTEX, step Corpus, biblio done
DamCat HypertextV5/Data/ISTEX/Corpus/biblio.hfd | wc
Outils de génération
Commande IstexExplorDataShells
Cette commande sert à générer tous les shells permettant de créer les sites (bibliographie + index) contituant un flux Istex.
Commande IstexExplorSiteShell
Cette commande permet de ranger dans l'architecture des fichiers du Site Web les composants nécessaires à la navigation d'un flux Istex.
Commande IstexExplorSiteHtmlPhp
Cette commande permet de générer les fichiers PHP et HTML en fonction des paramètres.
Outils de curation
Commande IstexAffiliationSetPays
Cette commande, activée pendant l'étape de curation, sert à reconnaitre et normaliser les noms de pays.
Commande IstexCurationCountry
Cette commande, activée pendant l'étape de finale, sert à identifier les données géographiques (régions, villes) une fois les noms de pays reconnus.
Applications
- Jeux d'essais
- pour mise au point rapide :
- (30 références) : ticri-h2ptm.fr:Wicri:HypertextIstexSampleV1
- (300 références) : AjdtV1
- (2000 ref.) wicri-bois.fr:Wicri:FraxinusV4
- Application pilote
- Sur Ticri/H2PTM : Serveur d'exploration sur l'hypertexte.
- Volume conséquent
Voir aussi
- Lien externe
- API ISTEX : http://api.istex.fr/documentation