Nuvola apps important.png Attention, suite à une faille de sécurité, les liens vers les serveurs d'exploration sont désactivés.

Wicri:PhilologieVM2

De Wicri Linguistique

Cette page introduit les aspects techniques de la version PhilologieVM2 du « Serveur d'exploration sur la philologie ».

Voir aussi :

Aspects expérimentaux de cette version

Cette version est utilisée pour mettre au point les chaînes ISTEX avec des ensembles conséquents de corpus en texte intégral.

En particulier les manipulations initiales n'utilisent pas la génération paramétrée.

Mise en œuvre

Sur la machine de développement

Génération des pages wikis
 ExplorGenerAreaPages \
       -g Philologie   \
       -a PhilologieVM2  \
       -m   \
       -s Francis   \
       -s Istex   \
       -w wicri-linguistique.fr  \
       -W Wicri/Linguistique   \
       -t "Serveur d'exploration sur la philologie"
Définition $EXPLOR_AREA et initialisations
EXPLOR_AREA=$WICRI_ROOT/Wicri/Linguistique/corpus/Philologie.storage/PhilologieVM2
export EXPLOR_AREA
export LC_ALL='C'


Solution transitoire

Pour mise au point IstexToSxml

time IstexGetCorpus -q "philolog*" -s1000 -A > CorpusIstexVM2.A.txt/f00000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f00000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f1000 -A > CorpusIstexVM2.A.txt/f01000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f01000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f2000 -A > CorpusIstexVM2.A.txt/f02000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f02000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f3000 -A > CorpusIstexVM2.A.txt/f03000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f03000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f4000 -A > CorpusIstexVM2.A.txt/f04000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f04000s1000.txt | wc

time IstexGetCorpus -q "philolog*" -s1000 -f5000 -A > CorpusIstexVM2.A.txt/f05000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f05000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f6000 -A > CorpusIstexVM2.A.txt/f06000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f06000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f7000 -A > CorpusIstexVM2.A.txt/f07000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f07000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f8000 -A > CorpusIstexVM2.A.txt/f08000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f08000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f9000 -A > CorpusIstexVM2.A.txt/f09000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f09000s1000.txt | wc

time IstexGetCorpus -q "philolog*" -s1000 -f10000 -A > CorpusIstexVM2.A.txt/f10000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f10000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f11000 -A > CorpusIstexVM2.A.txt/f11000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f11000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f12000 -A > CorpusIstexVM2.A.txt/f12000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f12000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f13000 -A > CorpusIstexVM2.A.txt/f13000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f13000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f14000 -A > CorpusIstexVM2.A.txt/f14000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f14000s1000.txt | wc


time IstexGetCorpus -q "philolog*" -s1000 -f15000 -A > CorpusIstexVM2.A.txt/f15000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f15000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f16000 -A > CorpusIstexVM2.A.txt/f16000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f16000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f17000 -A > CorpusIstexVM2.A.txt/f17000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f17000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f18000 -A > CorpusIstexVM2.A.txt/f18000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f18000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f19000 -A > CorpusIstexVM2.A.txt/f19000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f19000s1000.txt | wc

time IstexGetCorpus -q "philolog*" -s1000 -f20000 -A > CorpusIstexVM2.A.txt/f20000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f20000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f21000 -A > CorpusIstexVM2.A.txt/f21000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f21000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f22000 -A > CorpusIstexVM2.A.txt/f22000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f22000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f23000 -A > CorpusIstexVM2.A.txt/f23000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f23000s1000.txt | wc
Test IstexToSxml

time CorpusIstexVM2.A.txt/f00000s1000.txt | IstexToSxml | wc

RAZ repository
rm -rf $EXPLOR_AREA/Import/IstexRepository.h*
Construction repository
cat CorpusIstexVM2.A.txt/*.txt | IstexToSxml | HfdBuild -bh $EXPLOR_AREA/Import/IstexRepository
RAZ Corpus biblio
rm -rf $EXPLOR_AREA/Import/IstexMetadata.h*
Construction corpus biblio
HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd   \
    | IstexCleanFullText                         \
    | SgmlFast -c1                               \
    | IstexModsToTei                             \
    | TeiPutRefToIdno -t wicri:Area/Istex/Corpus \
    | HfdBuild -h $EXPLOR_AREA/Import/IstexMetadata
Construction des données
sh $EXPLOR_AREA/bin/AreaReset.sh
ExplorAreaDataCreate -d $EXPLOR_AREA
make -f $EXPLOR_AREA/bin/area.mk
Construction de l'interface
sh $EXPLOR_AREA/bin/AreaCreateSite.fr.sh
Génération des FTP
cd $EXPLOR_AREA

rm Site.tar.gz 
tar -cvf Site.tar Site 
gzip Site.tar 

rm Data.tar.gz 
tar -cvf Data.tar Data 
gzip Data.tar 

rm IstexMetadata.tar.gz 
tar -cvf IstexMetadata.tar Import/IstexMetadata.hcs Import/IstexMetadata.hfd
gzip IstexMetadata.tar

Sur la machine cible

Transfert

Sous « $WICRI_ROOT/Wicri/Linguistique/corpus/Philologie.storage » créer un répertoire $EXPLOR_AREA evec un nom intégrant la date tel que « PhilologieVM2.20150509 » pour y transférer les fichiers : Site.tar.gz, Data.tar.gz, IstexMetadata.tar.gz.

Installation
cd $EXPLOR_AREA
gunzip Site.tar.gz 
tar -xvf Site.tar 
gzip Site.tar 

gunzip Data.tar.gz 
tar -xvf Data.tar 
gzip Data.tar 

gunzip IstexMetadata.tar.gz
tar -xvf IstexMetadata.tar
gzip IstexMetadata.tar

cd Data/Istex/Corpus/
rm biblio.hcs
rm biblio.hfd
ln -s ../../../Import/IstexMetadata.hfd biblio.hfd
ln -s ../../../Import/IstexMetadata.hcs biblio.hcs

Enfin, sous corpus créer un lien tel que :

ln -s Philologie.storage/PhilologieVM2.20150509/ PhilologieVM2

Archive

Récuparation des corpus

Un premier essai a permis de rassembler 23000 documents avec l'intégralité des métadonnées XML mais sans le document fulltext TEI( LogoWicriWicriFrMars2010.png ).

IstexGetCorpus -q "philolog*" -s1000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f0s1000 
IstexGetCorpus -q "philolog*" -s1000 -f1000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f1000s1000 
IstexGetCorpus -q "philolog*" -s1000 -f2000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f2000s1000 
IstexGetCorpus -q "philolog*" -s1000 -f3000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f3000s1000 
IstexGetCorpus -q "philolog*" -s1000 -f4000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f4000s1000 
IstexGetCorpus -q "philolog*" -s1000 -f5000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f5000s1000 
IstexGetCorpus -q "philolog*" -s1000 -f6000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f6000s1000 
IstexGetCorpus -q "philolog*" -s1000 -f7000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f7000s1000 
IstexGetCorpus -q "philolog*" -s1000 -f8000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f8000s1000 
IstexGetCorpus -q "philolog*" -s1000 -f9000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f9000s1000 
IstexGetCorpus -q "philolog*" -s1000 -f10000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f10000s1000 
IstexGetCorpus -q "philolog*" -s1000 -f11000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f11000s1000 
IstexGetCorpus -q "philolog*" -s1000 -f12000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f12000s1000
IstexGetCorpus -q "philolog*" -s1000 -f13000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f13000s1000 
IstexGetCorpus -q "philolog*" -s1000 -f14000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f14000s1000 
IstexGetCorpus -q "philolog*" -s1000 -f15000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f15000s1000
IstexGetCorpus -q "philolog*" -s1000 -f16000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f16000s1000 
IstexGetCorpus -q "philolog*" -s1000 -f17000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f17000s1000
IstexGetCorpus -q "philolog*" -s1000 -f18000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f18000s1000 
IstexGetCorpus -q "philolog*" -s1000 -f19000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f19000s1000 
IstexGetCorpus -q "philolog*" -s1000 -f20000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f20000s1000 
IstexGetCorpus -q "philolog*" -s1000 -f21000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f21000s1000 
IstexGetCorpus -q "philolog*" -s1000 -f22000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f22000s1000
IstexGetCorpus -q "philolog*" -s1000 -f23000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f23000s1000