Dilib, module Istex, commande IstexToSxml
De Wicri Outils
Module Istex |
La commande IstexToSxml
permet de rendre un flux ISTEX compatible avec les recommandations Sxml.
Sommaire |
Liste des modules Dilib
Module Istex
|
Présentation
Elle est notamment utilisée dans les serveurs d'exploration dans l'environnement Corpus des flux ISTEX.
Elle intervient à la suite d'une commande IstexGetCorpus, pour faire différentes actions de nettoyage lexical, et plus particulièrement :
- suppression des sauts de ligne résiduels
- conversion des caractères ISO-8859-1 dans les fichiers XML des éditeurs.
Exemple d'emploi
Sur la plateforme wicri-psycho.fr:Wicri:DanceTherParkinsonV1, la construction du référentiel initial utilise la commande IstexToSxml pour mettre un document ISTEX dans une ligne unix avant la construction de la structure HFD.
IstexGetCorpus -q "dance AND therapy AND parkinson" -s 2000 -A \
| IstexToSxml \
| HfdBuild -bh $EXPLOR_AREA/Import/IstexRepository