Wicri:MusicSarreV3

De Wicri Sarre
Révision datée du 15 juillet 2018 à 18:06 par imported>Jacques Ducloy (Sur la machine cible)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

Cette page introduit les aspects techniques de la version MusicSarreV3 du « Serveur d'exploration sur la musique en Sarre ».

Voir aussi :

Mise en œuvre

Sur la machine de développement

Initialisations

Génération des pages wikis
source IstexGetCorpusSize -q "((saar OR saarl* OR sarre OR saarb* OR sarre*) AND (music OR choir OR violin OR piano OR orchestr*))"
 IstexGenerAreaPages \
       -a MusicSarreV3   \
       -m   \
       -g MusicSarre   \
       -p Wicri/Europe/Allemagne/Sarre   \
       -w wicri-sarre.fr  \
       -W Wicri/Sarre   \
       -s PascalFrancis   \
       -s PubMed   \
       -s Pmc   \
       -s Ncbi   \
       -s Hal   \
       -z Allemagne   \
       -z UK   \
       -z USA   \
       -z France   \
       -q "((saar OR saarl* OR sarre OR saarb* OR sarre*) AND (music OR choir OR violin OR piano OR orchestr*))"   \
       -d "2"   \
       -D "2000"   \
       -t "Serveur d'exploration sur la musique en Sarre"
Définition $EXPLOR_AREA
EXPLOR_AREA=$WICRI_ROOT/Europe/Allemagne/Sarre/explor/MusicSarre.storage/MusicSarreV3
export EXPLOR_AREA
export LC_ALL='C'

Récupération des corpus ISTEX

Sur le site LorExplor

source /applis/lorexplor/Dilib/init.sh
ISTEX_QUERY="((saar OR saarl* OR sarre OR saarb* OR sarre*) AND (music OR choir OR violin OR piano OR orchestr*))"
;Récupération de 8000 articles, dont environ 6000 sont hors sujet:

time IstexGetCorpus -q "$ISTEX_QUERY" -s 4900  -l > Import/IstexRepository.list1
time IstexGetCorpus -q "$ISTEX_QUERY" -s 4900 -f 4500 -l > Import/IstexRepository.list2
cat Import/IstexRepository.list1 Import/IstexRepository.list2 | sort -u > Import/IstexRepository.list

head -1000 Import/IstexRepository.list | IstexGetCorpusById -A | IstexToSxml | HfdBuild -bh Import/IstexPart00000
time head -2000 Import/IstexRepository.list | tail -1000 | IstexGetCorpusById -A | IstexToSxml | HfdBuild -bh Import/IstexPart01000
time head -3000 Import/IstexRepository.list | tail -1000 | IstexGetCorpusById -A | IstexToSxml | HfdBuild -bh Import/IstexPart02000
time head -4000 Import/IstexRepository.list | tail -1000 | IstexGetCorpusById -A | IstexToSxml | HfdBuild -bh Import/IstexPart03000
time head -5000 Import/IstexRepository.list | tail -1000 | IstexGetCorpusById -A | IstexToSxml | HfdBuild -bh Import/IstexPart04000
time head -6000 Import/IstexRepository.list | tail -1000 | IstexGetCorpusById -A | IstexToSxml | HfdBuild -bh Import/IstexPart05000
time head -7000 Import/IstexRepository.list | tail -1000 | IstexGetCorpusById -A | IstexToSxml | HfdBuild -bh Import/IstexPart06000
time head -8000 Import/IstexRepository.list | tail -1000 | IstexGetCorpusById -A | IstexToSxml | HfdBuild -bh Import/IstexPart07000
time tail -921 Import/IstexRepository.list | IstexGetCorpusById -A | IstexToSxml | HfdBuild -bh Import/IstexPart08000
(
     HfdCat Import/IstexPart00000.hfd
     HfdCat Import/IstexPart01000.hfd
     HfdCat Import/IstexPart02000.hfd
     HfdCat Import/IstexPart03000.hfd
     HfdCat Import/IstexPart04000.hfd
     HfdCat Import/IstexPart05000.hfd
     HfdCat Import/IstexPart06000.hfd
     HfdCat Import/IstexPart07000.hfd
     HfdCat Import/IstexPart08000.hfd
) | SgmlFast -c1 | HfdBuild -bh Import/IstexFull
Constitution d'une liste « sans LNCS »
HfdCat Import/IstexFull.hfd    \
 | grep -v "<SeriesPrintISSN>0302-9743</SeriesPrintISSN>" \
 | SxmlSelect -p @1 > Import/IstexListNotLNCS.tab
Contitution d'une liste LNCS, avec élimination du comité éditorial et filtrage
HfdCat Import/IstexFull.hfd    \
 | grep "<SeriesPrintISSN>0302-9743</SeriesPrintISSN>" \
 | SxmlSelect -p @1 -g istex/fulltext -p @g1             \
  | SxmlCut fulltext/istex:fulltextTEI/teiHeader/fileDesc/sourceDesc/biblStruct/monogr \
  | SxmlCut fulltext/istex:fulltextTEI/teiHeader/fileDesc/sourceDesc/biblStruct/series \
  | grep Saar | SxmlSelect -p @1 > Import/IstexListLncsWithSaar.tab
Constitution du corpus final
cat Import/IstexListNotLNCS.tab Import/IstexListLncsWithSaar.tab \
  | sort -u | HfdSelect -Kh Import/IstexFull.hfd \
  | HfdBuild -bh Import/IstexRepository
Construction corpus biblio
HfdCat Import/IstexRepository.hfd   \
  | SgmlFast -c1                                 \
  | IstexToTei                                   \
  | IstexCleanFullText                           \
  | TeiPutRefToIdno -t wicri:Area/Istex/Corpus  -c ISTEX -s Corpus -S Istex \
  | HfdBuild -h Import/IstexMetadata

Sur le site de développement:

scp  $ISTEX_SCP:$WICRI_TARGET_ROOT/Europe/Allemagne/Sarre/explor/MusicSarre.storage/MusicSarreV2/Import/IstexRepository.tar.gz Import/.
cd Import
tar -cvf IstexRepository.tar IstexRepository.hcs IstexRepository.hfd
gzip IstexRepository.tar

tar -cvf IstexMetadata.tar IstexMetadata.hcs IstexMetadata.hfd
gzip IstexMetadata.tar

Transfert par scp

Se mettre sous $EXPLOR_AREA/Import

scp $ISTEX_SCP:$WICRI_TARGET_ROOT/Europe/Allemagne/Sarre/explor/MusicSarre.storage/MusicSarreV3/Import/IstexMetadata.tar.gz .
scp $ISTEX_SCP:$WICRI_TARGET_ROOT/Europe/Allemagne/Sarre/explor/MusicSarre.storage/MusicSarreV3/Import/IstexRepository.tar.gz .
gunzip IstexMetadata.tar.gz
tar -xvf IstexMetadata.tar
gzip IstexMetadata.tar

Récupération des autres corpus

copie à partir de MusicSarreV2

Génération des FTP

cd $EXPLOR_AREA
rm Site.tar.gz 
tar -cvf Site.tar Site 
gzip Site.tar 
rm Data.tar.gz 
tar -cvf Data.tar Data 
gzip Data.tar 
rm ImportMetadata.tar.gz
tar -cvf ImportMetadata.tar Import/istexMetadata.hcs Import/istexMetadata.hfd
gzip ImportMetadata.tar

Transfert vers la machine LorExplor

Préparation

Aller sur le répertoire corpus correspondant au wiki cible

. ... Dilib/init.sh  
newgrp ticri
EXPLOR_AREA=$WICRI_ROOT/Wicri/Europe/Allemagne/Sarre/corpus/MusicSarre.storage/MusicSarreV3.20170728

Si nouveau code générique :

mkdir $WICRI_ROOT/Wicri/Europe/Allemagne/Sarre/corpus/MusicSarre.storage

Création du répertoire plateforme

mkdir $EXPLOR_AREA
cd $WICRI_ROOT/Wicri/Europe/Allemagne/Sarre/corpus/MusicSarre.storage
ln -s MusicSarreV3.20170726 MusicSarreV3

Transfert par scp

scp Site.tar.gz $ISTEX_SCP:$WICRI_TARGET_ROOT/Europe/Allemagne/Sarre/explor/MusicSarre.storage/MusicSarreV3.new
scp Data.tar.gz $ISTEX_SCP:$WICRI_TARGET_ROOT/Europe/Allemagne/Sarre/explor/MusicSarre.storage/MusicSarreV3.new
scp ImportMetadata.tar.gz $ISTEX_SCP:$WICRI_TARGET_ROOT/Europe/Allemagne/Sarre/explor/MusicSarre.storage/MusicSarreV3.new

Sur la machine cible

Installation
cd $EXPLOR_AREA
gunzip Site.tar.gz 
tar -xvf Site.tar 
gzip Site.tar 

gunzip Data.tar.gz 
tar -xvf Data.tar 
gzip Data.tar 

gunzip ImportMetadata.tar.gz 
tar -xvf ImportMetadata.tar 
gzip ImportMetadata.tar
cd Data/Istex/Corpus 
rm biblio.hcs 
rm biblio.hfd 
ln -s ../../../Import/IstexMetadata.hcs biblio.hcs 
ln -s ../../../Import/IstexMetadata.hfd biblio.hfd 

cd ../../../../..
cd ../..

ln -s MusicSarre.storage/MusicSarreV2 .