Wicri:MozartV1
| Sa vie - Son œuvre - Serveur d'exploration - Mozart et Salieri navigation - observations - séminaire ISTEX Pour les spécialistes : paramétrage - curation - expérimentations - archive | 
Cette page introduit les aspects techniques de la version MozartV1 du « Serveur d'exploration sur Mozart ».
Voir aussi :
- Wicri:MozartV1/Paramètres, data - génération des données
- Wicri:MozartV1/Paramètres, fr - génération de l'interface
- Wicri:MozartV1/Paramètres, génération des cartes - génération de cartes géographiques
Sommaire
Mise en œuvre
Sur la machine de développement
Initialisations
- Génération des pages wikis
source IstexGetCorpusSize -q "query"
 IstexGenerAreaPages \
       -a MozartV1   \
       -m   \
       -g Mozart   \
       -p Wicri/Musique   \
       -w wicri-musique.fr  \
       -W Wicri/Musique   \
       -s PascalFrancis   \
       -s Hal   \
       -s PubMed   \
       -s Pmc   \
       -s Ncbi   \
       -z France   \
       -z UK   \
       -z USA   \
       -z Allemagne   \
       -t "Serveur d'exploration sur Mozart"
- Définition $EXPLOR_AREA
EXPLOR_AREA=$WICRI_ROOT/Wicri/Musique/explor/Mozart.storage/MozartV1
export EXPLOR_AREA
export LC_ALL='C'
- Création des répertoires
mkdir $WICRI_ROOT/Wicri/Musique/corpus/Mozart.storage
mkdir $EXPLOR_AREA
mkdir $EXPLOR_AREA/Import
Récupération des corpus ISTEX
Compte tenu du volume du corpus (ordre de grandeur 15 000), le téléchargement est découpé en 6 étapes de 2500 documents.
IstexGetCorpusSize -q "mozart" 14046
- En cas de reprise complète au niveau du téléchargement
rm -rf $EXPLOR_AREA/Import/IstexDownload.*.h*
time IstexGetCorpus -q "mozart" -s 2500 -A \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.00000
time IstexGetCorpus -q "mozart" -s 2500 -f 2500 -A \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.02500
time IstexGetCorpus -q "mozart" -s 2500 -f 5000 -A \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.05000
time IstexGetCorpus -q "mozart" -s 2500 -f 7500 -A \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.07500
time IstexGetCorpus -q "mozart" -s 2500 -f 10000 -A \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.10000
time IstexGetCorpus -q "mozart" -s 2500 -f 12500 -A \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.12500
Vérfier l'identité de résultats des 2 commandes :
HfdCat $EXPLOR_AREA/Import/IstexDownload.*.hfd | wc
IstexGetCorpusSize -q "mozart"
Construction du repository ISTEX plein texte
Ce repository contient les documents en texte intégral. Il doit rester sur la machine de développement (ou être limité en lecture sur un site accessible par internet).
- En cas de reprise au niveau du téléchargement
rm -rf $EXPLOR_AREA/Import/IstexRepository.h*
time HfdCat $EXPLOR_AREA/Import/IstexDownload.*.hfd \
 | SgmlFast -c 1  | HfdBuild -bh $EXPLOR_AREA/Import/IstexRepository
Construction du Repository de métadonnées
Celui ci est en fait la base biblio de l'étape Corpus elle est alignée par les clé HFD sur le repository fulltext.
- En cas de reprise
rm -rf $EXPLOR_AREA/Import/IstexMetadata.h*
- Construction corpus biblio
time HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd   \
  | IstexCleanFullText                         \
  | SgmlFast -c1                               \
  | IstexToTei                                \
  | TeiPutRefToIdno -t wicri:Area/Istex/Corpus \
  | HfdBuild -h $EXPLOR_AREA/Import/IstexMetadata
Téléchargement des autres corpus
- PubMed
Site : http://www.ncbi.nlm.nih.gov/pubmed
Requête :
Ranger le résultat dans $EXPLOR_AREA/Import/pubmed_result.xml
- PubMed Central
Site : http://www.ncbi.nlm.nih.gov/pmc
Requête :
Ranger le résultat dans $EXPLOR_AREA/Import/pmc_result.xml
- PascalFrancis
Site :http://stan2.demo.inist.fr/fr/
Requête :
Télécharger avec les onglets : Serveur / SGML / SGML / LF
- résultat dans $EXPLOR_AREA/Import
mv $EXPLOR_AREA/Import/corpus.txt $EXPLOR_AREA/Import/inistServer.txt
Télécharger avec les onglets : SGML / SGML / SGML / LF
- résultat dans $EXPLOR_AREA/Import
mv $EXPLOR_AREA/Import/corpus.txt $EXPLOR_AREA/Import/inistStandard.txt
- Hal
Sur : https://hal.archives-ouvertes.fr/
Génération de la plateforme
- Importation des paramètres de génération
WicriGetPage -l wicri-musique.fr -p "Wicri:MozartV1/Paramètres, data"\
      > $EXPLOR_AREA/Import/WicriAreaParam.data.wiki
Si reprise
sh $EXPLOR_AREA/bin/AreaReset.sh
ExplorAreaDataCreate -d $EXPLOR_AREA
make -f $EXPLOR_AREA/bin/area.mk
- Importation des paramètres de navigation
WicriGetPage -l wicri-musique.fr -p "Wicri:MozartV1/Paramètres, fr"\
      > $EXPLOR_AREA/Import/WicriAreaSiteParam.fr.wiki
- Génération de l'interface
sh $EXPLOR_AREA/bin/AreaCreateSite.fr.sh
Génération des FTP
cd $EXPLOR_AREA
rm Site.tar.gz 
tar -cvf Site.tar Site 
gzip Site.tar 
rm Data.tar.gz 
tar -cvf Data.tar Data 
gzip Data.tar 
rm ImportMetadata.tar.gz
tar -cvf ImportMetadata.tar Import/istexMetadata.hcs Import/istexMetadata.hfd
gzip ImportMetadata.tar
Transfert vers la machine LorExplor
- Transfert par scp
scp  $ISTEX_PAR Site.tar.gz $ISTEX_SCP:$WICRI_TARGET_ROOT/Musique/explor/Mozart.storage/MozartV1
scp  $ISTEX_PAR Data.tar.gz $ISTEX_SCP:$WICRI_TARGET_ROOT/Musique/explor/Mozart.storage/MozartV1
scp  $ISTEX_PAR ImportMetadata.tar.gz $ISTEX_SCP:$WICRI_TARGET_ROOT/Musique/explor/Mozart.storage/MozartV1
Sur la machine cible
Aller sur le répertoire corpus correspondant au wiki cible
. ... Dilib/init.sh  
newgrp ticri
EXPLOR_AREA=$WICRI_ROOT/Wicri/Musique/corpus/Mozart.storage/MozartV1.20160207
Si nouveau code générique :
mkdir $WICRI_ROOT/Wicri/Musique/corpus/Mozart.storage
Création du répertoire plateforme
mkdir $EXPLOR_AREA
- Transfert par FileZilla
Transférer les fichiers Site.tar.gz, Data.tar.gz de MozartV1 (émetteur) vers MozartV1 (cible).
- Installation
cd $EXPLOR_AREA
gunzip Site.tar.gz 
tar -xvf Site.tar 
gzip Site.tar 
gunzip Data.tar.gz 
tar -xvf Data.tar 
gzip Data.tar
gunzip ImportMetadata.tar.gz 
tar -xvf ImportMetadata.tar 
gzip ImportMetadata.tar 
cd Data/Istex/Corpus 
rm biblio.hcs 
rm biblio.hfd 
ln -s ../../../Import/istexMetadata.hcs biblio.hcs 
ln -s ../../../Import/istexMetadata.hfd biblio.hfd
Éléments techniques
Dénombrement Pascal Francis
Nombre de documents Pascal :
HfdCat Data/PascalFrancis/Corpus/biblio.hfd   \
  | SgmlFast -G publicationStmt              \
  | SxmlSelect -s publicationStmt/idno@type=RBID -p @s1 \
  | grep Pascal | wc



