Nuvola apps important.png Attention, suite à une faille de sécurité, la plupart des liens vers les serveurs d'exploration sont désactivés.

-

Wicri:InforLorV4

De Wicri Lorraine

Cette page introduit les aspects techniques de la version InforLorV4 du « Serveur d'exploration sur la recherche en informatique en Lorraine ».

Voir aussi :

Mise en œuvre

Sur la machine de développement

Initialisations

Génération des pages wikis
 IstexGenerAreaPages \
       -a InforLorV4   \
       -m   \
       -x  1 \
       -g InforLor   \
       -p Europe/France/Lorraine   \
       -w wicri-lor.fr  \
       -W Wicri/Euope/France/Lorraine   \
       -s PascalFrancis   \
       -s Hal   \
       -s Crin   \
       -s PubMed   \
       -s Pmc   \
       -s Ncbi   \
       -z UK   \
       -z USA   \
       -z Allemagne   \
       -q "(vandoeuvre OR nancy OR lorraine) AND (loria OR crin OR informatique OR iucal OR tlf OR artlf OR iuca)"   \
       -d "2"   \
       -D "2000"   \
       -t "Serveur d'exploration sur l'informatique en Lorraine"
Définition $EXPLOR_AREA
EXPLOR_AREA=$WICRI_ROOT/Europe/France/Lorraine/explor/InforLor.storage/InforLorV4
export EXPLOR_AREA
export LC_ALL='C'
Création des répertoires
mkdir $WICRI_ROOT/Wicri/Lorraine/corpus/InforLor.storage
mkdir $EXPLOR_AREA
mkdir $EXPLOR_AREA/Import

Sur la machine LorExplor

newgrp wicri
source /applis/lorexplor/Dilib/init.sh
Définition $EXPLOR_AREA
EXPLOR_AREA=$WICRI_ROOT/Europe/France/Lorraine/explor/InforLor.storage/InforLorV4
export EXPLOR_AREA
export LC_ALL='C'
Création des répertoires
mkdir $WICRI_ROOT/Europe/France/Lorraine/explor/InforLor.storage
mkdir $EXPLOR_AREA
mkdir $EXPLOR_AREA/Import
mkdir $WICRI_ROOT/Europe/France/Lorraine/explor/InforLor.storage/InforLorV4.corpus
mkdir $WICRI_ROOT/Europe/France/Lorraine/explor/InforLor.storage/InforLorV4.corpus/Import

Récupération des corpus ISTEX

Sous $WICRI_ROOT/Europe/France/Lorraine/explor/InforLor.storage/InforLorV4.corpus

(
IstexGetCorpus -q "vandoeuvre AND (loria OR crin OR informatique OR iucal OR tlf OR artlf OR iuca)" -l -s 4900
IstexGetCorpus -q "nancy AND (loria OR crin OR informatique OR iucal OR tlf OR artlf OR iuca)" -l -s 4900
IstexGetCorpus -q "lorraine AND (loria OR crin OR informatique OR iucal OR tlf OR artlf OR iuca)" -l -s 4900
IstexGetCorpus -q '"C Pair" AND Nancy' -l  -s 400
IstexGetCorpus -q '"Claude Pair"' -l   -s 200
IstexGetCorpus -q '"m c gaudel" AND publicationDate:[1960 TO 1990]' -l  -s 200
IstexGetCorpus -q '"marie claude gaudel" AND publicationDate:[1960 TO 1985]' -l  -s 200
IstexGetCorpus -q '"j legras" NOT "devaux j legras"' -l  -s 400 
IstexGetCorpus -q '"mille et un" AND graphes'  -l  -s 200 
IstexGetCorpus -q '"lescanne p"'  -l  -s 400 
IstexGetCorpus -q "derniame"  -l  -s 400 
) | sort -u > IstexRepository.list

Vérification :

wc IstexRepository.list
IstexGetCorpusSize -q "(vandoeuvre OR nancy OR lorraine) AND (loria OR crin OR informatique OR iucal OR tlf OR artlf OR iuca)"

Récupération par parties

time head -2000 IstexRepository.list  \
     | IstexGetCorpusById -A                  \
     | SxmlUnIndent                            \
     | HfdBuild -bh IstexPart00000
time head -4000 IstexRepository.list |tail -2000  \
     | IstexGetCorpusById -A                  \
     | SxmlUnIndent                            \
     | HfdBuild -bh IstexPart02000
HfdCat IstexPart02000.hfd | SxmlIndent | grep "</istex>" | wc
time head -6000 IstexRepository.list |tail -2000  \
     | IstexGetCorpusById -A                  \
     | SxmlUnIndent                            \
     | HfdBuild -bh IstexPart04000
time tail -147 IstexRepository.list   \
     | IstexGetCorpusById -A                  \
     | SxmlUnIndent                            \
     | HfdBuild -bh IstexPart06000
(
  HfdCat IstexPart00000.hfd 
  HfdCat IstexPart02000.hfd 
  HfdCat IstexPart04000.hfd 
  HfdCat IstexPart06000.hfd 
) | SgmlFast -c1 | HfdBuild -bh  Import/IstexRepository

Préparation du transfert vers la machine de développement

tar -cvf Import.tar Import
gzip Import.tar

Retour machine de développement

Transfert

 scp $ISTEX_SCP:$WICRI_TARGET_ROOT/Europe/France/Lorraine/explor/InforLor.storage/InforLorV4.corpus/Import.tar.gz .
 gunzip Import.tar.gz
 tar -xvf Import.tar

Construction des métadonnées ISTEX

ISTEX, création du HFD Corpus Biblio
En cas de reprise:
rm -rf $EXPLOR_AREA/Import/IstexMetadata.h*
Construction corpus biblio
HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd   \
  | SgmlFast -c1                                 \
  | IstexToTei                                   \
  | IstexCleanFullText                           \
  | TeiPutRefToIdno -t wicri:Area/Istex/Corpus  -c ISTEX -s Corpus -S Istex \
  | HfdBuild -h $EXPLOR_AREA/Import/IstexMetadata

Intégration des autres corpus

Dans un premier temps ces corpus sont simplement recopiés de la version V3

PubMed

Site : http://www.ncbi.nlm.nih.gov/pubmed

Requête :

 (crin[Affiliation]) OR loria[Affiliation] 

Ranger le résultat dans $EXPLOR_AREA/Import/pubmed_result.xml

PubMed Central

Site : http://www.ncbi.nlm.nih.gov/pmc Requête :

 (crin[Affiliation]) OR loria[Affiliation] 

Ranger le résultat dans $EXPLOR_AREA/Import/pmc_result.xml

PascalFrancis

Site :http://stan2.demo.inist.fr/fr/

Requête :

Télécharger avec les onglets : Serveur / SGML / SGML / LF

  • résultat dans $EXPLOR_AREA/Import
 mv $EXPLOR_AREA/Import/corpus.txt $EXPLOR_AREA/Import/inistServer.txt 

Télécharger avec les onglets : SGML / SGML / SGML / LF

  • résultat dans $EXPLOR_AREA/Import
 mv $EXPLOR_AREA/Import/corpus.txt $EXPLOR_AREA/Import/inistStandard.txt 
Hal

Sur : https://hal.archives-ouvertes.fr/

Crin/BibTeX

Génération des FTP

cd $EXPLOR_AREA
rm Site.tar.gz 
tar -cvf Site.tar Site 
gzip Site.tar 
rm Data.tar.gz 
tar -cvf Data.tar Data 
gzip Data.tar 

rm ImportMetadata.tar.gz
tar -cvf ImportMetadata.tar Import/istexMetadata.hcs Import/istexMetadata.hfd
gzip ImportMetadata.tar

Transfert vers la machine LorExplor

scp $ISTEX_PAR Site.tar.gz $ISTEX_SCP:$WICRI_TARGET_ROOT/Europe/France/GrandEst/Lorraine/explor/InforLor.storage/InforLorV4.new
scp $ISTEX_PAR  Data.tar.gz $ISTEX_SCP:$WICRI_TARGET_ROOT/Europe/France/GrandEst/Lorraine/explor/InforLor.storage/InforLorV4.new
scp $ISTEX_PAR  ImportMetadata.tar.gz $ISTEX_SCP:$WICRI_TARGET_ROOT/Europe/GrandEst/France/Lorraine/explor/InforLor.storage/InforLorV4.new

Sur la machine LorExplor

Installation
cd $EXPLOR_AREA
gunzip Site.tar.gz 
tar -xvf Site.tar 
gzip Site.tar 

gunzip Data.tar.gz 
tar -xvf Data.tar 
gzip Data.tar
gunzip ImportMetadata.tar.gz 
tar -xvf ImportMetadata.tar 
gzip ImportMetadata.tar 

cd Data/Istex/Corpus 
rm biblio.hcs 
rm biblio.hfd 
ln -s ../../../Import/istexMetadata.hcs biblio.hcs 
ln -s ../../../Import/istexMetadata.hfd biblio.hfd