Wicri:CharterV3
Cette page introduit les aspects techniques de la version CharterV3 du « Serveur d'exploration sur les chartes ».
Voir aussi :
- Wicri:CharterV3/Paramètres, data - génération des données
- Wicri:CharterV3/Paramètres, fr - génération de l'interface
- Wicri:CharterV3/Paramètres, génération des cartes - génération de cartes géographiques
Sommaire
Aspects expérimentaux de cette version
Cette version s'appuie sur Wicri:PhilologieVM2
Mise en œuvre
Sur la machine de développement
- Génération des pages wikis
ExplorGenerAreaPages \
-g Charter \
-a CharterV3 \
-m \
-s Francis \
-s Istex \
-w wicri-linguistique.fr \
-W Wicri/Linguistique \
-t "Serveur d'exploration sur les chartes"
- Définition $EXPLOR_AREA
EXPLOR_AREA=$WICRI_ROOT/Wicri/Linguistique/corpus/Charter.storage/CharterV3
export EXPLOR_AREA
export LC_ALL='C'
- Initialisation
mkdir $WICRI_ROOT/Wicri/Linguistique/corpus/Charter.storage
mkdir $EXPLOR_AREA
mkdir $EXPLOR_AREA/Import
- Récupération des corpus
Sur Stanalyst (Francis)
charte* ou ((feodalite ou abbaye ou cistercien* ou monachisme) et (statut ou document))
Sur ISTEX
Commande prévue :
IstexGetCorpus -q "(charter OR charters OR charte OR chartes) AND (medieval OR seal OR sceau)" \ -s 10000 -A | IstexToSxml | HfdBuild -bh $EXPLOR_AREA/Import/IstexRepository
- Incidents de récupération
En fait le premier essai s'est planté au bout de 200 documents en « timed out ». La production d'un hfd associée à la procédure de téléchargement a permis de récupérer le corpus en 3 étapes. Pour chacune nous avons fait une reprise en repartant avant la centaine pour laquelle l'incident s'était manifestée.
time IstexGetCorpus -q "(charter OR charters OR charte OR chartes) AND (medieval OR seal OR sceau)" \ -s 10000 -A | IstexToSxml | HfdBuild -bh $EXPLOR_AREA/Import/IstexRepository
curl_easy_perform() failed: Timeout was reached real 102m2.473s user 1m15.642s sys 0m17.077s
time IstexGetCorpus -q "(charter OR charters OR charte OR chartes) AND (medieval OR seal OR sceau)" \ -s 10000 -f 4200 -A | IstexToSxml | HfdBuild -bh $EXPLOR_AREA/Import/IstexRepository1
curl_easy_perform() failed: Server returned nothing (no headers, no data) real 41m30.873s user 0m43.847s sys 0m9.637s
time IstexGetCorpus -q "(charter OR charters OR charte OR chartes) AND (medieval OR seal OR sceau)" \ -s 10000 -f 5900 -A | IstexToSxml | HfdBuild -bh $EXPLOR_AREA/Import/IstexRepository2
real 26m7.101s user 0m43.695s sys 0m8.944s
Ensuite pour récupérer, il a fallu nettoyer les HFD intermédiaires (dans un répertoire archive) et les concaténer.
HfdCat CharterV3/Archive/IstexRepository*.hfd \ | SgmlFast -c1 \ | HfdBuild -bh $EXPLOR_AREA/Import/IstexRepository
- Construction corpus biblio (ISTEX)
HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd \
| IstexCleanFullText \
| SgmlFast -c1 \
| IstexModsToTei \
| TeiPutRefToIdno -t wicri:Area/Istex/Corpus \
| HfdBuild -h $EXPLOR_AREA/Import/IstexMetadata
- Importation des paramètres de génération
WicriGetPage -l wicri-linguistique.fr -p "Wicri:CharterV3/Paramètres, data"\
> $EXPLOR_AREA/Import/WicriAreaParam.data.wiki
En cas de reprise :
sh $EXPLOR_AREA/bin/AreaReset.sh
Enfin:
ExplorAreaDataCreate -d $EXPLOR_AREA
make -f $EXPLOR_AREA/bin/area.mk
- Importation des paramètres de navigation
WicriGetPage -l wicri-linguistique.fr -p "Wicri:CharterV3/Paramètres, fr"\
> $EXPLOR_AREA/Import/WicriAreaSiteParam.fr.wiki
sh $EXPLOR_AREA/bin/AreaCreateSite.fr.sh
- Génération des FTP
cd $EXPLOR_AREA
rm Site.tar.gz
tar -cvf Site.tar Site
gzip Site.tar
rm Data.tar.gz
tar -cvf Data.tar Data
gzip Data.tar
rm IstexMetadata.tar.gz
tar -cvf IstexMetadata.tar Import/IstexMetadata.hcs Import/IstexMetadata.hfd
gzip IstexMetadata.tar
Sur la machine cible
- Transfert
Sous « $WICRI_ROOT/Wicri/Linguistique/corpus/Charter.storage » créer un répertoire $EXPLOR_AREA avec un nom intégrant la date tel que « CharterV3.20150509 » pour y transférer les fichiers : Site.tar.gz, Data.tar.gz, IstexMetadata.tar.gz.
- Installation
cd $EXPLOR_AREA
gunzip Site.tar.gz
tar -xvf Site.tar
gzip Site.tar
gunzip Data.tar.gz
tar -xvf Data.tar
gzip Data.tar
gunzip IstexMetadata.tar.gz
tar -xvf IstexMetadata.tar
gzip IstexMetadata.tar
cd Data/Istex/Corpus/
rm biblio.hcs
rm biblio.hfd
ln -s ../../../Import/IstexMetadata.hfd biblio.hfd
ln -s ../../../Import/IstexMetadata.hcs biblio.hcs
Enfin, sous corpus créer un lien tel que :
ln -s Philologie.storage/PhilologieVM2.20150509/ PhilologieVM2