Wicri:InforLorV4
Cette page introduit les aspects techniques de la version InforLorV4 du « Serveur d'exploration sur la recherche en informatique en Lorraine ».
Voir aussi :
- Wicri:InforLorV4/Paramètres, data - génération des données
- Wicri:InforLorV4/Paramètres, fr - génération de l'interface
- Wicri:InforLorV4/Paramètres, génération des cartes - génération de cartes géographiques
- Wicri:InforLorV4/Paramètres, templates size - paramétrage des modèles liés aux valeurs numériques
- Wicri:InforLorV4/Paramètres, template include - génération du modèle d'affichage des résultats bruts
Sommaire
Mise en œuvre
Sur la machine de développement
Initialisations
- Génération des pages wikis
IstexGenerAreaPages \
-a InforLorV4 \
-m \
-x 1 \
-g InforLor \
-p Europe/France/Lorraine \
-w wicri-lor.fr \
-W Wicri/Euope/France/Lorraine \
-s PascalFrancis \
-s Hal \
-s Crin \
-s PubMed \
-s Pmc \
-s Ncbi \
-z UK \
-z USA \
-z Allemagne \
-q "(vandoeuvre OR nancy OR lorraine) AND (loria OR crin OR informatique OR iucal OR tlf OR artlf OR iuca)" \
-d "2" \
-D "2000" \
-t "Serveur d'exploration sur l'informatique en Lorraine"
- Définition $EXPLOR_AREA
EXPLOR_AREA=$WICRI_ROOT/Europe/France/Lorraine/explor/InforLor.storage/InforLorV4
export EXPLOR_AREA
export LC_ALL='C'
- Création des répertoires
mkdir $WICRI_ROOT/Wicri/Lorraine/corpus/InforLor.storage
mkdir $EXPLOR_AREA
mkdir $EXPLOR_AREA/Import
Sur la machine LorExplor
newgrp wicri
source /applis/lorexplor/Dilib/init.sh
- Définition $EXPLOR_AREA
EXPLOR_AREA=$WICRI_ROOT/Europe/France/Lorraine/explor/InforLor.storage/InforLorV4
export EXPLOR_AREA
export LC_ALL='C'
- Création des répertoires
mkdir $WICRI_ROOT/Europe/France/Lorraine/explor/InforLor.storage
mkdir $EXPLOR_AREA
mkdir $EXPLOR_AREA/Import
mkdir $WICRI_ROOT/Europe/France/Lorraine/explor/InforLor.storage/InforLorV4.corpus
mkdir $WICRI_ROOT/Europe/France/Lorraine/explor/InforLor.storage/InforLorV4.corpus/Import
Récupération des corpus ISTEX
Sous $WICRI_ROOT/Europe/France/Lorraine/explor/InforLor.storage/InforLorV4.corpus
(
IstexGetCorpus -q "vandoeuvre AND (loria OR crin OR informatique OR iucal OR tlf OR artlf OR iuca)" -l -s 4900
IstexGetCorpus -q "nancy AND (loria OR crin OR informatique OR iucal OR tlf OR artlf OR iuca)" -l -s 4900
IstexGetCorpus -q "lorraine AND (loria OR crin OR informatique OR iucal OR tlf OR artlf OR iuca)" -l -s 4900
IstexGetCorpus -q '"C Pair" AND Nancy' -l -s 400
IstexGetCorpus -q '"Claude Pair"' -l -s 200
IstexGetCorpus -q '"m c gaudel" AND publicationDate:[1960 TO 1990]' -l -s 200
IstexGetCorpus -q '"marie claude gaudel" AND publicationDate:[1960 TO 1985]' -l -s 200
IstexGetCorpus -q '"j legras" NOT "devaux j legras"' -l -s 400
IstexGetCorpus -q '"mille et un" AND graphes' -l -s 200
IstexGetCorpus -q '"lescanne p"' -l -s 400
IstexGetCorpus -q "derniame" -l -s 400
) | sort -u > IstexRepository.list
Vérification :
wc IstexRepository.list
IstexGetCorpusSize -q "(vandoeuvre OR nancy OR lorraine) AND (loria OR crin OR informatique OR iucal OR tlf OR artlf OR iuca)"
Récupération par parties
time head -2000 IstexRepository.list \
| IstexGetCorpusById -A \
| SxmlUnIndent \
| HfdBuild -bh IstexPart00000
time head -4000 IstexRepository.list |tail -2000 \
| IstexGetCorpusById -A \
| SxmlUnIndent \
| HfdBuild -bh IstexPart02000
HfdCat IstexPart02000.hfd | SxmlIndent | grep "</istex>" | wc
time head -6000 IstexRepository.list |tail -2000 \
| IstexGetCorpusById -A \
| SxmlUnIndent \
| HfdBuild -bh IstexPart04000
time tail -147 IstexRepository.list \
| IstexGetCorpusById -A \
| SxmlUnIndent \
| HfdBuild -bh IstexPart06000
(
HfdCat IstexPart00000.hfd
HfdCat IstexPart02000.hfd
HfdCat IstexPart04000.hfd
HfdCat IstexPart06000.hfd
) | SgmlFast -c1 | HfdBuild -bh Import/IstexRepository
Préparation du transfert vers la machine de développement
tar -cvf Import.tar Import
gzip Import.tar
Retour machine de développement
Transfert
scp $ISTEX_SCP:$WICRI_TARGET_ROOT/Europe/France/Lorraine/explor/InforLor.storage/InforLorV4.corpus/Import.tar.gz .
gunzip Import.tar.gz
tar -xvf Import.tar
Construction des métadonnées ISTEX
- ISTEX, création du HFD Corpus Biblio
- En cas de reprise:
rm -rf $EXPLOR_AREA/Import/IstexMetadata.h*
- Construction corpus biblio
HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd \
| SgmlFast -c1 \
| IstexToTei \
| IstexCleanFullText \
| TeiPutRefToIdno -t wicri:Area/Istex/Corpus -c ISTEX -s Corpus -S Istex \
| HfdBuild -h $EXPLOR_AREA/Import/IstexMetadata
Intégration des autres corpus
Dans un premier temps ces corpus sont simplement recopiés de la version V3
- PubMed
Site : http://www.ncbi.nlm.nih.gov/pubmed
Requête :
(crin[Affiliation]) OR loria[Affiliation]
Ranger le résultat dans $EXPLOR_AREA/Import/pubmed_result.xml
- PubMed Central
Site : http://www.ncbi.nlm.nih.gov/pmc Requête :
(crin[Affiliation]) OR loria[Affiliation]
Ranger le résultat dans $EXPLOR_AREA/Import/pmc_result.xml
- PascalFrancis
Site :http://stan2.demo.inist.fr/fr/
Requête :
Télécharger avec les onglets : Serveur / SGML / SGML / LF
- résultat dans $EXPLOR_AREA/Import
mv $EXPLOR_AREA/Import/corpus.txt $EXPLOR_AREA/Import/inistServer.txt
Télécharger avec les onglets : SGML / SGML / SGML / LF
- résultat dans $EXPLOR_AREA/Import
mv $EXPLOR_AREA/Import/corpus.txt $EXPLOR_AREA/Import/inistStandard.txt
- Hal
Sur : https://hal.archives-ouvertes.fr/
- Crin/BibTeX
Génération des FTP
cd $EXPLOR_AREA
rm Site.tar.gz
tar -cvf Site.tar Site
gzip Site.tar
rm Data.tar.gz
tar -cvf Data.tar Data
gzip Data.tar
rm ImportMetadata.tar.gz
tar -cvf ImportMetadata.tar Import/istexMetadata.hcs Import/istexMetadata.hfd
gzip ImportMetadata.tar
Transfert vers la machine LorExplor
scp $ISTEX_PAR Site.tar.gz $ISTEX_SCP:$WICRI_TARGET_ROOT/Europe/France/GrandEst/Lorraine/explor/InforLor.storage/InforLorV4.new
scp $ISTEX_PAR Data.tar.gz $ISTEX_SCP:$WICRI_TARGET_ROOT/Europe/France/GrandEst/Lorraine/explor/InforLor.storage/InforLorV4.new
scp $ISTEX_PAR ImportMetadata.tar.gz $ISTEX_SCP:$WICRI_TARGET_ROOT/Europe/GrandEst/France/Lorraine/explor/InforLor.storage/InforLorV4.new
Sur la machine LorExplor
- Installation
cd $EXPLOR_AREA
gunzip Site.tar.gz
tar -xvf Site.tar
gzip Site.tar
gunzip Data.tar.gz
tar -xvf Data.tar
gzip Data.tar
gunzip ImportMetadata.tar.gz
tar -xvf ImportMetadata.tar
gzip ImportMetadata.tar
cd Data/Istex/Corpus
rm biblio.hcs
rm biblio.hfd
ln -s ../../../Import/istexMetadata.hcs biblio.hcs
ln -s ../../../Import/istexMetadata.hfd biblio.hfd