Wicri:MozartV1

De Wicri Musique

Cette page introduit les aspects techniques de la version MozartV1 du « Serveur d'exploration sur Mozart ».

Voir aussi :

Mise en œuvre

Sur la machine de développement

Initialisations

Génération des pages wikis
source IstexGetCorpusSize -q "query"
 IstexGenerAreaPages \
       -a MozartV1   \
       -m   \
       -g Mozart   \
       -p Wicri/Musique   \
       -w wicri-musique.fr  \
       -W Wicri/Musique   \
       -s PascalFrancis   \
       -s Hal   \
       -s PubMed   \
       -s Pmc   \
       -s Ncbi   \
       -z France   \
       -z UK   \
       -z USA   \
       -z Allemagne   \
       -t "Serveur d'exploration sur Mozart"
Définition $EXPLOR_AREA
EXPLOR_AREA=$WICRI_ROOT/Wicri/Musique/explor/Mozart.storage/MozartV1
export EXPLOR_AREA
export LC_ALL='C'
Création des répertoires
mkdir $WICRI_ROOT/Wicri/Musique/corpus/Mozart.storage
mkdir $EXPLOR_AREA
mkdir $EXPLOR_AREA/Import

Récupération des corpus ISTEX

Compte tenu du volume du corpus (ordre de grandeur 15 000), le téléchargement est découpé en 6 étapes de 2500 documents.

IstexGetCorpusSize -q "mozart"
14046
En cas de reprise complète au niveau du téléchargement
rm -rf $EXPLOR_AREA/Import/IstexDownload.*.h*
time IstexGetCorpus -q "mozart" -s 2500 -A \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.00000

time IstexGetCorpus -q "mozart" -s 2500 -f 2500 -A \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.02500

time IstexGetCorpus -q "mozart" -s 2500 -f 5000 -A \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.05000

time IstexGetCorpus -q "mozart" -s 2500 -f 7500 -A \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.07500

time IstexGetCorpus -q "mozart" -s 2500 -f 10000 -A \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.10000

time IstexGetCorpus -q "mozart" -s 2500 -f 12500 -A \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.12500

Vérfier l'identité de résultats des 2 commandes :

HfdCat $EXPLOR_AREA/Import/IstexDownload.*.hfd | wc

IstexGetCorpusSize -q "mozart"

Construction du repository ISTEX plein texte

Ce repository contient les documents en texte intégral. Il doit rester sur la machine de développement (ou être limité en lecture sur un site accessible par internet).

En cas de reprise au niveau du téléchargement
rm -rf $EXPLOR_AREA/Import/IstexRepository.h*
time HfdCat $EXPLOR_AREA/Import/IstexDownload.*.hfd \
 | SgmlFast -c 1  | HfdBuild -bh $EXPLOR_AREA/Import/IstexRepository

Construction du Repository de métadonnées

Celui ci est en fait la base biblio de l'étape Corpus elle est alignée par les clé HFD sur le repository fulltext.

En cas de reprise
rm -rf $EXPLOR_AREA/Import/IstexMetadata.h*
Construction corpus biblio
time HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd   \
  | IstexCleanFullText                         \
  | SgmlFast -c1                               \
  | IstexToTei                                \
  | TeiPutRefToIdno -t wicri:Area/Istex/Corpus \
  | HfdBuild -h $EXPLOR_AREA/Import/IstexMetadata

Téléchargement des autres corpus

PubMed

Site : http://www.ncbi.nlm.nih.gov/pubmed

Requête :

Ranger le résultat dans $EXPLOR_AREA/Import/pubmed_result.xml

PubMed Central

Site : http://www.ncbi.nlm.nih.gov/pmc

Requête :

Ranger le résultat dans $EXPLOR_AREA/Import/pmc_result.xml

PascalFrancis

Site :http://stan2.demo.inist.fr/fr/

Requête :

Télécharger avec les onglets : Serveur / SGML / SGML / LF

  • résultat dans $EXPLOR_AREA/Import
 mv $EXPLOR_AREA/Import/corpus.txt $EXPLOR_AREA/Import/inistServer.txt 

Télécharger avec les onglets : SGML / SGML / SGML / LF

  • résultat dans $EXPLOR_AREA/Import
 mv $EXPLOR_AREA/Import/corpus.txt $EXPLOR_AREA/Import/inistStandard.txt 
Hal

Sur : https://hal.archives-ouvertes.fr/

Génération de la plateforme

Importation des paramètres de génération
WicriGetPage -l wicri-musique.fr -p "Wicri:MozartV1/Paramètres, data"\
      > $EXPLOR_AREA/Import/WicriAreaParam.data.wiki

Si reprise

sh $EXPLOR_AREA/bin/AreaReset.sh
ExplorAreaDataCreate -d $EXPLOR_AREA
make -f $EXPLOR_AREA/bin/area.mk
Importation des paramètres de navigation
WicriGetPage -l wicri-musique.fr -p "Wicri:MozartV1/Paramètres, fr"\
      > $EXPLOR_AREA/Import/WicriAreaSiteParam.fr.wiki
Génération de l'interface 
sh $EXPLOR_AREA/bin/AreaCreateSite.fr.sh

Génération des FTP

cd $EXPLOR_AREA
rm Site.tar.gz 
tar -cvf Site.tar Site 
gzip Site.tar 
rm Data.tar.gz 
tar -cvf Data.tar Data 
gzip Data.tar 

rm ImportMetadata.tar.gz
tar -cvf ImportMetadata.tar Import/istexMetadata.hcs Import/istexMetadata.hfd
gzip ImportMetadata.tar

Transfert vers la machine LorExplor

Transfert par scp
scp  $ISTEX_PAR Site.tar.gz $ISTEX_SCP:$WICRI_TARGET_ROOT/Musique/explor/Mozart.storage/MozartV1
scp  $ISTEX_PAR Data.tar.gz $ISTEX_SCP:$WICRI_TARGET_ROOT/Musique/explor/Mozart.storage/MozartV1
scp  $ISTEX_PAR ImportMetadata.tar.gz $ISTEX_SCP:$WICRI_TARGET_ROOT/Musique/explor/Mozart.storage/MozartV1

Sur la machine cible

Aller sur le répertoire corpus correspondant au wiki cible

. ... Dilib/init.sh  
newgrp ticri
EXPLOR_AREA=$WICRI_ROOT/Wicri/Musique/corpus/Mozart.storage/MozartV1.20160207

Si nouveau code générique :

mkdir $WICRI_ROOT/Wicri/Musique/corpus/Mozart.storage

Création du répertoire plateforme

mkdir $EXPLOR_AREA
Transfert par FileZilla

Transférer les fichiers Site.tar.gz, Data.tar.gz de MozartV1 (émetteur) vers MozartV1 (cible).

Installation
cd $EXPLOR_AREA
gunzip Site.tar.gz 
tar -xvf Site.tar 
gzip Site.tar 

gunzip Data.tar.gz 
tar -xvf Data.tar 
gzip Data.tar
gunzip ImportMetadata.tar.gz 
tar -xvf ImportMetadata.tar 
gzip ImportMetadata.tar 

cd Data/Istex/Corpus 
rm biblio.hcs 
rm biblio.hfd 
ln -s ../../../Import/istexMetadata.hcs biblio.hcs 
ln -s ../../../Import/istexMetadata.hfd biblio.hfd

Éléments techniques

Dénombrement Pascal Francis

Nombre de documents Pascal :

HfdCat Data/PascalFrancis/Corpus/biblio.hfd   \
  | SgmlFast -G publicationStmt              \
  | SxmlSelect -s publicationStmt/idno@type=RBID -p @s1 \
  | grep Pascal | wc