Wicri:CharterV3
Cette page introduit les aspects techniques de la version CharterV3 du « Serveur d'exploration sur les chartes ».
Voir aussi :
- Wicri:CharterV3/Paramètres, data - génération des données
 - Wicri:CharterV3/Paramètres, fr - génération de l'interface
 - Wicri:CharterV3/Paramètres, génération des cartes - génération de cartes géographiques
 
Sommaire
Aspects expérimentaux de cette version
Cette version s'appuie sur Wicri:PhilologieVM2
Mise en œuvre
Sur la machine de développement
- Génération des pages wikis
 
 ExplorGenerAreaPages \
       -g Charter   \
       -a CharterV3  \
       -m   \
       -s Francis   \
       -s Istex   \
       -w wicri-linguistique.fr  \
       -W Wicri/Linguistique   \
       -t "Serveur d'exploration sur les chartes"
- Définition $EXPLOR_AREA
 
EXPLOR_AREA=$WICRI_ROOT/Wicri/Linguistique/corpus/Charter.storage/CharterV3
export EXPLOR_AREA
export LC_ALL='C'
- Initialisation
 
mkdir $WICRI_ROOT/Wicri/Linguistique/corpus/Charter.storage
mkdir $EXPLOR_AREA
mkdir $EXPLOR_AREA/Import
- Récupération des corpus
 
Sur Stanalyst (Francis)
charte* ou ((feodalite ou abbaye ou cistercien* ou monachisme) et (statut ou document))
Sur ISTEX
Commande prévue :
IstexGetCorpus -q "(charter OR charters OR charte OR chartes) AND (medieval OR seal OR sceau)" \ -s 10000 -A | IstexToSxml | HfdBuild -bh $EXPLOR_AREA/Import/IstexRepository
- Incidents de récupération
 
En fait le premier essai s'est planté au bout de 200 documents en « timed out ». La production d'un hfd associée à la procédure de téléchargement a permis de récupérer le corpus en 3 étapes. Pour chacune nous avons fait une reprise en repartant avant la centaine pour laquelle l'incident s'était manifestée.
    time IstexGetCorpus -q  "(charter OR charters OR charte OR chartes) AND (medieval OR seal OR sceau)" \
     -s 10000 -A | IstexToSxml | HfdBuild -bh $EXPLOR_AREA/Import/IstexRepository
curl_easy_perform() failed: Timeout was reached real 102m2.473s user 1m15.642s sys 0m17.077s
   time IstexGetCorpus -q  "(charter OR charters OR charte OR chartes) AND (medieval OR seal OR sceau)" \
    -s 10000 -f 4200 -A | IstexToSxml | HfdBuild -bh $EXPLOR_AREA/Import/IstexRepository1
curl_easy_perform() failed: Server returned nothing (no headers, no data) real 41m30.873s user 0m43.847s sys 0m9.637s
     time IstexGetCorpus -q  "(charter OR charters OR charte OR chartes) AND (medieval OR seal OR sceau)" \
         -s 10000 -f 5900 -A | IstexToSxml | HfdBuild -bh $EXPLOR_AREA/Import/IstexRepository2
real 26m7.101s user 0m43.695s sys 0m8.944s
Ensuite pour récupérer, il a fallu nettoyer les HFD intermédiaires (dans un répertoire archive) et les concaténer.
HfdCat CharterV3/Archive/IstexRepository*.hfd \ | SgmlFast -c1 \ | HfdBuild -bh $EXPLOR_AREA/Import/IstexRepository
- Construction corpus biblio (ISTEX)
 
HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd   \
    | IstexCleanFullText                         \
    | SgmlFast -c1                               \
    | IstexModsToTei                             \
    | TeiPutRefToIdno -t wicri:Area/Istex/Corpus \
    | HfdBuild -h $EXPLOR_AREA/Import/IstexMetadata
- Importation des paramètres de génération
 
WicriGetPage -l wicri-linguistique.fr -p "Wicri:CharterV3/Paramètres, data"\
      > $EXPLOR_AREA/Import/WicriAreaParam.data.wiki
En cas de reprise :
sh $EXPLOR_AREA/bin/AreaReset.sh
Enfin:
ExplorAreaDataCreate -d $EXPLOR_AREA
make -f $EXPLOR_AREA/bin/area.mk
- Importation des paramètres de navigation
 
WicriGetPage -l wicri-linguistique.fr -p "Wicri:CharterV3/Paramètres, fr"\
      > $EXPLOR_AREA/Import/WicriAreaSiteParam.fr.wiki
sh $EXPLOR_AREA/bin/AreaCreateSite.fr.sh
- Génération des FTP
 
cd $EXPLOR_AREA
rm Site.tar.gz 
tar -cvf Site.tar Site 
gzip Site.tar 
rm Data.tar.gz 
tar -cvf Data.tar Data 
gzip Data.tar 
rm IstexMetadata.tar.gz 
tar -cvf IstexMetadata.tar Import/IstexMetadata.hcs Import/IstexMetadata.hfd
gzip IstexMetadata.tar
Sur la machine cible
- Transfert
 
Sous « $WICRI_ROOT/Wicri/Linguistique/corpus/Charter.storage » créer un répertoire $EXPLOR_AREA avec un nom intégrant la date tel que « CharterV3.20150509 » pour y transférer les fichiers : Site.tar.gz, Data.tar.gz, IstexMetadata.tar.gz.
- Installation
 
cd $EXPLOR_AREA
gunzip Site.tar.gz 
tar -xvf Site.tar 
gzip Site.tar 
gunzip Data.tar.gz 
tar -xvf Data.tar 
gzip Data.tar 
gunzip IstexMetadata.tar.gz
tar -xvf IstexMetadata.tar
gzip IstexMetadata.tar
cd Data/Istex/Corpus/
rm biblio.hcs
rm biblio.hfd
ln -s ../../../Import/IstexMetadata.hfd biblio.hfd
ln -s ../../../Import/IstexMetadata.hcs biblio.hcs
Enfin, sous corpus créer un lien tel que :
ln -s Philologie.storage/PhilologieVM2.20150509/ PhilologieVM2