Wicri:CheneBelgiqueV1

De Wicri Bois

Cette page introduit les aspects techniques de la version CheneBelgiqueV1 du « Serveur d'exploration sur le chêne en Belgique (avant curation) ».

Voir aussi :

Mise en œuvre

Sur la machine de développement

Ce tableau de Albert Anker illustre une activité à caractère pédagogique sur une page Quelques explications
La plateforme est générée sur une machine supportant Unix, ici un MacBook Pro.

Dans cette section, le premier appel de la commande IstexGetCorpusSize est utilisée pour évaluer la volumétrie du serveur (ici 3336 documents) et pour « roder la syntaxe du critère de recherche ».

Le critère d'extraction est matérialisé par une expression booléenne qui implique la présence du genre en latin « quercus » et un terme dont le début est « belg ».

Le deuxième pavé est un appel de la commande IstexGenerAreaPage. Cette commande génère une version initiale des pages de paramétrage (environ 500 lignes).

Initialisations

Génération des pages wikis
source IstexGetCorpusSize -q "quercus AND belg*"
 IstexGenerAreaPages \
       -a CheneBelgiqueV1   \
       -m   \
       -g CheneBelgique   \
       -p Wicri/Bois   \
       -w wicri-bois.fr  \
       -W Wicri/Bois   \
       -s PascalFrancis   \
       -s Hal   \
       -s PubMed   \
       -s Pmc   \
       -s Ncbi   \
       -z France   \
       -z Allemagne   \
       -q "quercus AND belg*"   \
       -t "Serveur d'exploration sur le chêne en Belgique (avant curation)"
Ce tableau de Albert Anker illustre une activité à caractère pédagogique sur une page Quelques explications
Cette partie sert simplement à installer sur la machine Unix le répertoire qui va contenir la plateforme.

Pour les informaticiens, la variable d'environnement EXPLOR_AREA sera utilisée pour repérer ce répertoire.

Définition $EXPLOR_AREA
EXPLOR_AREA=$WICRI_ROOT/Bois/explor/CheneBelgique.storage/CheneBelgiqueV1
export EXPLOR_AREA
export LC_ALL='C'
cd $EXPLOR_AREA
Création des répertoires
mkdir $WICRI_ROOT/Wicri/Bois/corpus/CheneBelgique.storage
mkdir $EXPLOR_AREA
mkdir $EXPLOR_AREA/Import

Construction du Repository ISTEX

En cas de reprise au niveau du téléchargement

rm -rf $EXPLOR_AREA/Import/IstexRepository.h*
IstexGetCorpus -q "quercus AND belgi*" -s 3000 -A  -t $ISTEX_TOKEN   \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexRepository
IstexGetCorpus -q "quercus AND belgi*" -l -s 3000  | IstexGetCorpusById -A  -t $ISTEX_TOKEN   \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexRepository

Vérification

HfdCat  $EXPLOR_AREA/Import/IstexRepository.hfd | wc

Construction des métadonnées ISTEX

ISTEX, création du HFD Corpus Biblio
En cas de reprise:
rm -rf $EXPLOR_AREA/Import/IstexMetadata.h*
Construction corpus biblio
HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd   \
  | IstexCleanFullText                           \
  | SgmlFast -c1                                 \
  | IstexToTei                                   \
  | TeiPutRefToIdno -t wicri:Area/Istex/Corpus  -c ISTEX -s Corpus -S Istex \
  | HfdBuild -h $EXPLOR_AREA/Import/IstexMetadata

Téléchargement des autres corpus

PubMed

Site : http://www.ncbi.nlm.nih.gov/pubmed

Requête :

quercus AND belgi*

Ranger le résultat dans $EXPLOR_AREA/Import/pubmed_result.xml

PubMed Central

Site : http://www.ncbi.nlm.nih.gov/pmc

Requête :

quercus AND ( belgium OR belge OR belgique ) 

Ranger le résultat dans $EXPLOR_AREA/Import/pmc_result.xml

PascalFrancis

Site :http://stan2.demo.inist.fr/fr/

Requête :

quercus et ( belgique ou (pa=bel)) 

Télécharger avec les onglets : Serveur / SGML / SGML / LF

  • résultat dans $EXPLOR_AREA/Import
 mv $EXPLOR_AREA/Import/corpus.txt $EXPLOR_AREA/Import/inistServer.txt 

Télécharger avec les onglets : SGML / SGML / SGML / LF

  • résultat dans $EXPLOR_AREA/Import
 mv $EXPLOR_AREA/Import/corpus.txt $EXPLOR_AREA/Import/inistStandard.txt 
Hal

Sur : https://hal.archives-ouvertes.fr/

Génération de la plateforme

Importation des paramètres de génération
WicriGetPage -l wicri-bois.fr -p "Wicri:CheneBelgiqueV1/Paramètres, data"\
      > $EXPLOR_AREA/Import/WicriAreaParam.data.wiki

Si reprise

sh $EXPLOR_AREA/bin/AreaReset.sh
ExplorAreaDataCreate -d $EXPLOR_AREA
make -f $EXPLOR_AREA/bin/area.mk
Importation des paramètres de navigation
WicriGetPage -l wicri-bois.fr -p "Wicri:CheneBelgiqueV1/Paramètres, fr"\
      > $EXPLOR_AREA/Import/WicriAreaSiteParam.fr.wiki
Génération de l'interface 
sh $EXPLOR_AREA/bin/AreaCreateSite.fr.sh

Génération des FTP

cd $EXPLOR_AREA
rm Site.tar.gz 
tar -cvf Site.tar Site 
gzip Site.tar 
rm Data.tar.gz 
tar -cvf Data.tar Data 
gzip Data.tar 

rm ImportMetadata.tar.gz
tar -cvf ImportMetadata.tar Import/istexMetadata.hcs Import/istexMetadata.hfd
gzip ImportMetadata.tar

Transfert vers la machine LorExplor

Transfert par scp
scp $ISTEX_PAR Site.tar.gz $ISTEX_SCP:$WICRI_TARGET_ROOT/Bois/explor/CheneBelgique.storage/CheneBelgiqueV1
scp $ISTEX_PAR Data.tar.gz $ISTEX_SCP:$WICRI_TARGET_ROOT/Bois/explor/CheneBelgique.storage/CheneBelgiqueV1
scp $ISTEX_PAR ImportMetadata.tar.gz $ISTEX_SCP:$WICRI_TARGET_ROOT/Bois/explor/CheneBelgique.storage/CheneBelgiqueV1

Aller sur le répertoire corpus correspondant au wiki cible

. ... Dilib/init.sh  
newgrp ticri
EXPLOR_AREA=$WICRI_ROOT/Wicri/Bois/corpus/CheneBelgique.storage/CheneBelgiqueV1.20170220

Si nouveau code générique :

mkdir $WICRI_ROOT/Wicri/Bois/corpus/CheneBelgique.storage

Création du répertoire plateforme

mkdir $EXPLOR_AREA
Transfert par FileZilla

Transférer les fichiers Site.tar.gz, Data.tar.gz de CheneBelgiqueV1 (émetteur) vers CheneBelgiqueV1 (cible).

Installation
cd $EXPLOR_AREA
gunzip Site.tar.gz 
tar -xvf Site.tar 
gzip Site.tar 

gunzip Data.tar.gz 
tar -xvf Data.tar 
gzip Data.tar
gunzip ImportMetadata.tar.gz 
tar -xvf ImportMetadata.tar 
gzip ImportMetadata.tar 

cd Data/Istex/Corpus 
rm biblio.hcs 
rm biblio.hfd 
ln -s ../../../Import/istexMetadata.hcs biblio.hcs 
ln -s ../../../Import/istexMetadata.hfd biblio.hfd