Wicri:MozartV1
Sa vie - Son œuvre - Serveur d'exploration - Mozart et Salieri navigation - observations - séminaire ISTEX Pour les spécialistes : paramétrage - curation - expérimentations - archive |
Cette page introduit les aspects techniques de la version MozartV1 du « Serveur d'exploration sur Mozart ».
Voir aussi :
- Wicri:MozartV1/Paramètres, data - génération des données
- Wicri:MozartV1/Paramètres, fr - génération de l'interface
- Wicri:MozartV1/Paramètres, génération des cartes - génération de cartes géographiques
Sommaire
Mise en œuvre
Sur la machine de développement
Initialisations
- Génération des pages wikis
source IstexGetCorpusSize -q "query"
IstexGenerAreaPages \
-a MozartV1 \
-m \
-g Mozart \
-p Wicri/Musique \
-w wicri-musique.fr \
-W Wicri/Musique \
-s PascalFrancis \
-s Hal \
-s PubMed \
-s Pmc \
-s Ncbi \
-z France \
-z UK \
-z USA \
-z Allemagne \
-t "Serveur d'exploration sur Mozart"
- Définition $EXPLOR_AREA
EXPLOR_AREA=$WICRI_ROOT/Wicri/Musique/explor/Mozart.storage/MozartV1
export EXPLOR_AREA
export LC_ALL='C'
- Création des répertoires
mkdir $WICRI_ROOT/Wicri/Musique/corpus/Mozart.storage
mkdir $EXPLOR_AREA
mkdir $EXPLOR_AREA/Import
Récupération des corpus ISTEX
Compte tenu du volume du corpus (ordre de grandeur 15 000), le téléchargement est découpé en 6 étapes de 2500 documents.
IstexGetCorpusSize -q "mozart" 14046
- En cas de reprise complète au niveau du téléchargement
rm -rf $EXPLOR_AREA/Import/IstexDownload.*.h*
time IstexGetCorpus -q "mozart" -s 2500 -A \
| IstexToSxml \
| HfdBuild -bh $EXPLOR_AREA/Import/IstexDownload.00000
time IstexGetCorpus -q "mozart" -s 2500 -f 2500 -A \
| IstexToSxml \
| HfdBuild -bh $EXPLOR_AREA/Import/IstexDownload.02500
time IstexGetCorpus -q "mozart" -s 2500 -f 5000 -A \
| IstexToSxml \
| HfdBuild -bh $EXPLOR_AREA/Import/IstexDownload.05000
time IstexGetCorpus -q "mozart" -s 2500 -f 7500 -A \
| IstexToSxml \
| HfdBuild -bh $EXPLOR_AREA/Import/IstexDownload.07500
time IstexGetCorpus -q "mozart" -s 2500 -f 10000 -A \
| IstexToSxml \
| HfdBuild -bh $EXPLOR_AREA/Import/IstexDownload.10000
time IstexGetCorpus -q "mozart" -s 2500 -f 12500 -A \
| IstexToSxml \
| HfdBuild -bh $EXPLOR_AREA/Import/IstexDownload.12500
Vérfier l'identité de résultats des 2 commandes :
HfdCat $EXPLOR_AREA/Import/IstexDownload.*.hfd | wc
IstexGetCorpusSize -q "mozart"
Construction du repository ISTEX plein texte
Ce repository contient les documents en texte intégral. Il doit rester sur la machine de développement (ou être limité en lecture sur un site accessible par internet).
- En cas de reprise au niveau du téléchargement
rm -rf $EXPLOR_AREA/Import/IstexRepository.h*
time HfdCat $EXPLOR_AREA/Import/IstexDownload.*.hfd \
| SgmlFast -c 1 | HfdBuild -bh $EXPLOR_AREA/Import/IstexRepository
Construction du Repository de métadonnées
Celui ci est en fait la base biblio de l'étape Corpus elle est alignée par les clé HFD sur le repository fulltext.
- En cas de reprise
rm -rf $EXPLOR_AREA/Import/IstexMetadata.h*
- Construction corpus biblio
time HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd \
| IstexCleanFullText \
| SgmlFast -c1 \
| IstexToTei \
| TeiPutRefToIdno -t wicri:Area/Istex/Corpus \
| HfdBuild -h $EXPLOR_AREA/Import/IstexMetadata
Téléchargement des autres corpus
- PubMed
Site : http://www.ncbi.nlm.nih.gov/pubmed
Requête :
Ranger le résultat dans $EXPLOR_AREA/Import/pubmed_result.xml
- PubMed Central
Site : http://www.ncbi.nlm.nih.gov/pmc
Requête :
Ranger le résultat dans $EXPLOR_AREA/Import/pmc_result.xml
- PascalFrancis
Site :http://stan2.demo.inist.fr/fr/
Requête :
Télécharger avec les onglets : Serveur / SGML / SGML / LF
- résultat dans $EXPLOR_AREA/Import
mv $EXPLOR_AREA/Import/corpus.txt $EXPLOR_AREA/Import/inistServer.txt
Télécharger avec les onglets : SGML / SGML / SGML / LF
- résultat dans $EXPLOR_AREA/Import
mv $EXPLOR_AREA/Import/corpus.txt $EXPLOR_AREA/Import/inistStandard.txt
- Hal
Sur : https://hal.archives-ouvertes.fr/
Génération de la plateforme
- Importation des paramètres de génération
WicriGetPage -l wicri-musique.fr -p "Wicri:MozartV1/Paramètres, data"\
> $EXPLOR_AREA/Import/WicriAreaParam.data.wiki
Si reprise
sh $EXPLOR_AREA/bin/AreaReset.sh
ExplorAreaDataCreate -d $EXPLOR_AREA
make -f $EXPLOR_AREA/bin/area.mk
- Importation des paramètres de navigation
WicriGetPage -l wicri-musique.fr -p "Wicri:MozartV1/Paramètres, fr"\
> $EXPLOR_AREA/Import/WicriAreaSiteParam.fr.wiki
- Génération de l'interface
sh $EXPLOR_AREA/bin/AreaCreateSite.fr.sh
Génération des FTP
cd $EXPLOR_AREA
rm Site.tar.gz
tar -cvf Site.tar Site
gzip Site.tar
rm Data.tar.gz
tar -cvf Data.tar Data
gzip Data.tar
rm ImportMetadata.tar.gz
tar -cvf ImportMetadata.tar Import/istexMetadata.hcs Import/istexMetadata.hfd
gzip ImportMetadata.tar
Transfert vers la machine LorExplor
- Transfert par scp
scp $ISTEX_PAR Site.tar.gz $ISTEX_SCP:$WICRI_TARGET_ROOT/Musique/explor/Mozart.storage/MozartV1
scp $ISTEX_PAR Data.tar.gz $ISTEX_SCP:$WICRI_TARGET_ROOT/Musique/explor/Mozart.storage/MozartV1
scp $ISTEX_PAR ImportMetadata.tar.gz $ISTEX_SCP:$WICRI_TARGET_ROOT/Musique/explor/Mozart.storage/MozartV1
Sur la machine cible
Aller sur le répertoire corpus correspondant au wiki cible
. ... Dilib/init.sh
newgrp ticri
EXPLOR_AREA=$WICRI_ROOT/Wicri/Musique/corpus/Mozart.storage/MozartV1.20160207
Si nouveau code générique :
mkdir $WICRI_ROOT/Wicri/Musique/corpus/Mozart.storage
Création du répertoire plateforme
mkdir $EXPLOR_AREA
- Transfert par FileZilla
Transférer les fichiers Site.tar.gz, Data.tar.gz de MozartV1 (émetteur) vers MozartV1 (cible).
- Installation
cd $EXPLOR_AREA
gunzip Site.tar.gz
tar -xvf Site.tar
gzip Site.tar
gunzip Data.tar.gz
tar -xvf Data.tar
gzip Data.tar
gunzip ImportMetadata.tar.gz
tar -xvf ImportMetadata.tar
gzip ImportMetadata.tar
cd Data/Istex/Corpus
rm biblio.hcs
rm biblio.hfd
ln -s ../../../Import/istexMetadata.hcs biblio.hcs
ln -s ../../../Import/istexMetadata.hfd biblio.hfd
Éléments techniques
Dénombrement Pascal Francis
Nombre de documents Pascal :
HfdCat Data/PascalFrancis/Corpus/biblio.hfd \
| SgmlFast -G publicationStmt \
| SxmlSelect -s publicationStmt/idno@type=RBID -p @s1 \
| grep Pascal | wc