Nuvola apps important.png Attention, suite à une faille de sécurité, les liens vers les serveurs d'exploration sont désactivés.

Wicri:CharterV3

De Wicri Linguistique

Cette page introduit les aspects techniques de la version CharterV3 du « Serveur d'exploration sur les chartes ».

Voir aussi :

Aspects expérimentaux de cette version

Cette version s'appuie sur Wicri:PhilologieVM2

Mise en œuvre

Sur la machine de développement

Génération des pages wikis
 ExplorGenerAreaPages \
       -g Charter   \
       -a CharterV3  \
       -m   \
       -s Francis   \
       -s Istex   \
       -w wicri-linguistique.fr  \
       -W Wicri/Linguistique   \
       -t "Serveur d'exploration sur les chartes"
Définition $EXPLOR_AREA
EXPLOR_AREA=$WICRI_ROOT/Wicri/Linguistique/corpus/Charter.storage/CharterV3
export EXPLOR_AREA
export LC_ALL='C'
Initialisation
mkdir $WICRI_ROOT/Wicri/Linguistique/corpus/Charter.storage
mkdir $EXPLOR_AREA
mkdir $EXPLOR_AREA/Import
Récupération des corpus

Sur Stanalyst (Francis)

charte* ou ((feodalite ou abbaye ou cistercien* ou monachisme) et (statut ou document))

Sur ISTEX

Commande prévue :

IstexGetCorpus -q  "(charter OR charters OR charte OR chartes) AND (medieval OR seal OR sceau)" \
-s 10000 -A | IstexToSxml | HfdBuild -bh $EXPLOR_AREA/Import/IstexRepository
Incidents de récupération

En fait le premier essai s'est planté au bout de 200 documents en « timed out ». La production d'un hfd associée à la procédure de téléchargement a permis de récupérer le corpus en 3 étapes. Pour chacune nous avons fait une reprise en repartant avant la centaine pour laquelle l'incident s'était manifestée.

    time IstexGetCorpus -q  "(charter OR charters OR charte OR chartes) AND (medieval OR seal OR sceau)" \
     -s 10000 -A | IstexToSxml | HfdBuild -bh $EXPLOR_AREA/Import/IstexRepository
curl_easy_perform() failed: Timeout was reached
real	102m2.473s
user	1m15.642s
sys	0m17.077s
   time IstexGetCorpus -q  "(charter OR charters OR charte OR chartes) AND (medieval OR seal OR sceau)" \
    -s 10000 -f 4200 -A | IstexToSxml | HfdBuild -bh $EXPLOR_AREA/Import/IstexRepository1
curl_easy_perform() failed: Server returned nothing (no headers, no data)
real	41m30.873s
user	0m43.847s
sys	0m9.637s
     time IstexGetCorpus -q  "(charter OR charters OR charte OR chartes) AND (medieval OR seal OR sceau)" \
         -s 10000 -f 5900 -A | IstexToSxml | HfdBuild -bh $EXPLOR_AREA/Import/IstexRepository2
real	26m7.101s
user	0m43.695s
sys	0m8.944s

Ensuite pour récupérer, il a fallu nettoyer les HFD intermédiaires (dans un répertoire archive) et les concaténer.

HfdCat CharterV3/Archive/IstexRepository*.hfd           \
   | SgmlFast -c1                                       \
   | HfdBuild -bh $EXPLOR_AREA/Import/IstexRepository
Construction corpus biblio (ISTEX) 
HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd   \
    | IstexCleanFullText                         \
    | SgmlFast -c1                               \
    | IstexModsToTei                             \
    | TeiPutRefToIdno -t wicri:Area/Istex/Corpus \
    | HfdBuild -h $EXPLOR_AREA/Import/IstexMetadata
Importation des paramètres de génération
WicriGetPage -l wicri-linguistique.fr -p "Wicri:CharterV3/Paramètres, data"\
      > $EXPLOR_AREA/Import/WicriAreaParam.data.wiki

En cas de reprise :

sh $EXPLOR_AREA/bin/AreaReset.sh

Enfin:

ExplorAreaDataCreate -d $EXPLOR_AREA
make -f $EXPLOR_AREA/bin/area.mk
Importation des paramètres de navigation
WicriGetPage -l wicri-linguistique.fr -p "Wicri:CharterV3/Paramètres, fr"\
      > $EXPLOR_AREA/Import/WicriAreaSiteParam.fr.wiki
sh $EXPLOR_AREA/bin/AreaCreateSite.fr.sh
Génération des FTP
cd $EXPLOR_AREA

rm Site.tar.gz 
tar -cvf Site.tar Site 
gzip Site.tar 

rm Data.tar.gz 
tar -cvf Data.tar Data 
gzip Data.tar 

rm IstexMetadata.tar.gz 
tar -cvf IstexMetadata.tar Import/IstexMetadata.hcs Import/IstexMetadata.hfd
gzip IstexMetadata.tar


Sur la machine cible

Transfert

Sous « $WICRI_ROOT/Wicri/Linguistique/corpus/Charter.storage » créer un répertoire $EXPLOR_AREA avec un nom intégrant la date tel que « CharterV3.20150509 » pour y transférer les fichiers : Site.tar.gz, Data.tar.gz, IstexMetadata.tar.gz.

Installation
cd $EXPLOR_AREA
gunzip Site.tar.gz 
tar -xvf Site.tar 
gzip Site.tar 

gunzip Data.tar.gz 
tar -xvf Data.tar 
gzip Data.tar 

gunzip IstexMetadata.tar.gz
tar -xvf IstexMetadata.tar
gzip IstexMetadata.tar

cd Data/Istex/Corpus/
rm biblio.hcs
rm biblio.hfd
ln -s ../../../Import/IstexMetadata.hfd biblio.hfd
ln -s ../../../Import/IstexMetadata.hcs biblio.hcs

Enfin, sous corpus créer un lien tel que :

ln -s Philologie.storage/PhilologieVM2.20150509/ PhilologieVM2