Wicri:PhilologieVM2
Cette page introduit les aspects techniques de la version PhilologieVM2 du « Serveur d'exploration sur la philologie ».
Voir aussi :
- Wicri:PhilologieVM2/Paramètres, data - génération des données
- Wicri:PhilologieVM2/Paramètres, fr - génération de l'interface
- Wicri:PhilologieVM2/Paramètres, génération des cartes - génération de cartes géographiques
Sommaire
Aspects expérimentaux de cette version
Cette version est utilisée pour mettre au point les chaînes ISTEX avec des ensembles conséquents de corpus en texte intégral.
En particulier les manipulations initiales n'utilisent pas la génération paramétrée.
Mise en œuvre
Sur la machine de développement
- Génération des pages wikis
ExplorGenerAreaPages \
-g Philologie \
-a PhilologieVM2 \
-m \
-s Francis \
-s Istex \
-w wicri-linguistique.fr \
-W Wicri/Linguistique \
-t "Serveur d'exploration sur la philologie"
- Définition $EXPLOR_AREA et initialisations
EXPLOR_AREA=$WICRI_ROOT/Wicri/Linguistique/corpus/Philologie.storage/PhilologieVM2
export EXPLOR_AREA
export LC_ALL='C'
- Solution transitoire
Pour mise au point IstexToSxml
time IstexGetCorpus -q "philolog*" -s1000 -A > CorpusIstexVM2.A.txt/f00000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f00000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f1000 -A > CorpusIstexVM2.A.txt/f01000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f01000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f2000 -A > CorpusIstexVM2.A.txt/f02000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f02000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f3000 -A > CorpusIstexVM2.A.txt/f03000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f03000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f4000 -A > CorpusIstexVM2.A.txt/f04000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f04000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f5000 -A > CorpusIstexVM2.A.txt/f05000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f05000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f6000 -A > CorpusIstexVM2.A.txt/f06000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f06000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f7000 -A > CorpusIstexVM2.A.txt/f07000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f07000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f8000 -A > CorpusIstexVM2.A.txt/f08000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f08000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f9000 -A > CorpusIstexVM2.A.txt/f09000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f09000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f10000 -A > CorpusIstexVM2.A.txt/f10000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f10000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f11000 -A > CorpusIstexVM2.A.txt/f11000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f11000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f12000 -A > CorpusIstexVM2.A.txt/f12000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f12000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f13000 -A > CorpusIstexVM2.A.txt/f13000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f13000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f14000 -A > CorpusIstexVM2.A.txt/f14000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f14000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f15000 -A > CorpusIstexVM2.A.txt/f15000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f15000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f16000 -A > CorpusIstexVM2.A.txt/f16000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f16000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f17000 -A > CorpusIstexVM2.A.txt/f17000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f17000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f18000 -A > CorpusIstexVM2.A.txt/f18000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f18000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f19000 -A > CorpusIstexVM2.A.txt/f19000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f19000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f20000 -A > CorpusIstexVM2.A.txt/f20000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f20000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f21000 -A > CorpusIstexVM2.A.txt/f21000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f21000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f22000 -A > CorpusIstexVM2.A.txt/f22000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f22000s1000.txt | wc
time IstexGetCorpus -q "philolog*" -s1000 -f23000 -A > CorpusIstexVM2.A.txt/f23000s1000.txt
time IstexToSxml < CorpusIstexVM2.A.txt/f23000s1000.txt | wc
- Test IstexToSxml
time CorpusIstexVM2.A.txt/f00000s1000.txt | IstexToSxml | wc
- RAZ repository
rm -rf $EXPLOR_AREA/Import/IstexRepository.h*
- Construction repository
cat CorpusIstexVM2.A.txt/*.txt | IstexToSxml | HfdBuild -bh $EXPLOR_AREA/Import/IstexRepository
- RAZ Corpus biblio
rm -rf $EXPLOR_AREA/Import/IstexMetadata.h*
- Construction corpus biblio
HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd \
| IstexCleanFullText \
| SgmlFast -c1 \
| IstexModsToTei \
| TeiPutRefToIdno -t wicri:Area/Istex/Corpus \
| HfdBuild -h $EXPLOR_AREA/Import/IstexMetadata
- Construction des données
sh $EXPLOR_AREA/bin/AreaReset.sh
ExplorAreaDataCreate -d $EXPLOR_AREA
make -f $EXPLOR_AREA/bin/area.mk
- Construction de l'interface
sh $EXPLOR_AREA/bin/AreaCreateSite.fr.sh
- Génération des FTP
cd $EXPLOR_AREA
rm Site.tar.gz
tar -cvf Site.tar Site
gzip Site.tar
rm Data.tar.gz
tar -cvf Data.tar Data
gzip Data.tar
rm IstexMetadata.tar.gz
tar -cvf IstexMetadata.tar Import/IstexMetadata.hcs Import/IstexMetadata.hfd
gzip IstexMetadata.tar
Sur la machine cible
- Transfert
Sous « $WICRI_ROOT/Wicri/Linguistique/corpus/Philologie.storage » créer un répertoire $EXPLOR_AREA evec un nom intégrant la date tel que « PhilologieVM2.20150509 » pour y transférer les fichiers : Site.tar.gz, Data.tar.gz, IstexMetadata.tar.gz.
- Installation
cd $EXPLOR_AREA
gunzip Site.tar.gz
tar -xvf Site.tar
gzip Site.tar
gunzip Data.tar.gz
tar -xvf Data.tar
gzip Data.tar
gunzip IstexMetadata.tar.gz
tar -xvf IstexMetadata.tar
gzip IstexMetadata.tar
cd Data/Istex/Corpus/
rm biblio.hcs
rm biblio.hfd
ln -s ../../../Import/IstexMetadata.hfd biblio.hfd
ln -s ../../../Import/IstexMetadata.hcs biblio.hcs
Enfin, sous corpus créer un lien tel que :
ln -s Philologie.storage/PhilologieVM2.20150509/ PhilologieVM2
Archive
- Récuparation des corpus
Un premier essai a permis de rassembler 23000 documents avec l'intégralité des métadonnées XML mais sans le document fulltext TEI( ).
IstexGetCorpus -q "philolog*" -s1000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f0s1000
IstexGetCorpus -q "philolog*" -s1000 -f1000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f1000s1000
IstexGetCorpus -q "philolog*" -s1000 -f2000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f2000s1000
IstexGetCorpus -q "philolog*" -s1000 -f3000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f3000s1000
IstexGetCorpus -q "philolog*" -s1000 -f4000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f4000s1000
IstexGetCorpus -q "philolog*" -s1000 -f5000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f5000s1000
IstexGetCorpus -q "philolog*" -s1000 -f6000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f6000s1000
IstexGetCorpus -q "philolog*" -s1000 -f7000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f7000s1000
IstexGetCorpus -q "philolog*" -s1000 -f8000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f8000s1000
IstexGetCorpus -q "philolog*" -s1000 -f9000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f9000s1000
IstexGetCorpus -q "philolog*" -s1000 -f10000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f10000s1000
IstexGetCorpus -q "philolog*" -s1000 -f11000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f11000s1000
IstexGetCorpus -q "philolog*" -s1000 -f12000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f12000s1000
IstexGetCorpus -q "philolog*" -s1000 -f13000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f13000s1000
IstexGetCorpus -q "philolog*" -s1000 -f14000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f14000s1000
IstexGetCorpus -q "philolog*" -s1000 -f15000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f15000s1000
IstexGetCorpus -q "philolog*" -s1000 -f16000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f16000s1000
IstexGetCorpus -q "philolog*" -s1000 -f17000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f17000s1000
IstexGetCorpus -q "philolog*" -s1000 -f18000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f18000s1000
IstexGetCorpus -q "philolog*" -s1000 -f19000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f19000s1000
IstexGetCorpus -q "philolog*" -s1000 -f20000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f20000s1000
IstexGetCorpus -q "philolog*" -s1000 -f21000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f21000s1000
IstexGetCorpus -q "philolog*" -s1000 -f22000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f22000s1000
IstexGetCorpus -q "philolog*" -s1000 -f23000 -a | IstexToSxml | HfdBuild -bh CorpusIstexVM2/f23000s1000