Wicri:ThuliumV1
Cette page introduit les aspects techniques de la version ThuliumV1 du « Serveur d'exploration sur le thulium ».
Voir aussi :
- Wicri:ThuliumV1/Paramètres, data - génération des données
- Wicri:ThuliumV1/Paramètres, fr - génération de l'interface
- Wicri:ThuliumV1/Paramètres, génération des cartes - génération de cartes géographiques
- Wicri:ThuliumV1/Paramètres, templates size - paramétrage des modèles liés aux valeurs numériques
Sommaire
Mise en œuvre
Sur la machine de développement
Initialisations
- Génération des pages wikis
source IstexGetCorpusSize -q "query"
IstexGenerAreaPages \
-a ThuliumV1 \
-m \
-g Thulium \
-p Wicri/Terre \
-w wicri-terre.fr \
-W Wicri/Terre \
-s Pascal \
-s Hal \
-s PubMed \
-s Pmc \
-s Ncbi \
-z France \
-z UK \
-z USA \
-z Allemagne \
-q "thulium" \
-d "6" \
-D "1000" \
-t "Serveur d'exploration sur le thulium"
- Définition $EXPLOR_AREA
EXPLOR_AREA=$WICRI_ROOT/Wicri/Terre/corpus/Thulium.storage/ThuliumV1
export EXPLOR_AREA
export LC_ALL='C'
- Création des répertoires
mkdir $WICRI_ROOT/Wicri/Terre/corpus/Thulium.storage
mkdir $EXPLOR_AREA
mkdir $EXPLOR_AREA/Import
Sur la machine LorExplor
- Définition $EXPLOR_AREA
newgrp wicri
source /applis/lorexplor/Dilib/init.sh
EXPLOR_AREA=$WICRI_ROOT/Terre/explor/Thulium.storage/ThuliumV1.20171111
export EXPLOR_AREA
export LC_ALL='C'
cd $EXPLOR_AREA
Construction du Repository ISTEX
time (
IstexGetCorpus -q thulium -s 4999 -l
IstexGetCorpus -q thulium -s 4999 -f 4000 -l
) | sort -u > Import/IstexRepository.list
time head -2000 Import/IstexRepository.list \
| IstexGetCorpusById -A \
| SxmlUnIndent \
| HfdBuild -bh $EXPLOR_AREA/Import/IstexPart00000
Un problème a été rencontré avec le document : 51C79D3DFFF7B27415169B219DD2768D024AFB96 (00.dd/12.dd/00.df et 00.dd/12.dd/01.df)
time head -4000 Import/IstexRepository.list | tail -2000 \
| IstexGetCorpusById -A \
| SxmlUnIndent \
| HfdBuild -bh $EXPLOR_AREA/Import/IstexPart02000
time tail -1670 Import/IstexRepository.list \
| IstexGetCorpusById -A \
| SxmlUnIndent \
| HfdBuild -bh $EXPLOR_AREA/Import/IstexPart04000
(
HfdCat $EXPLOR_AREA/Import/IstexPart00000.hfd/00.dd/0*
HfdCat $EXPLOR_AREA/Import/IstexPart00000.hfd/00.dd/10.dd
HfdCat $EXPLOR_AREA/Import/IstexPart00000.hfd/00.dd/11.dd
cat $EXPLOR_AREA/Import/IstexPart00000.hfd/00.dd/12.dd/0[2-9].df
cat $EXPLOR_AREA/Import/IstexPart00000.hfd/00.dd/12.dd/[1-9]*.df
HfdCat $EXPLOR_AREA/Import/IstexPart00000.hfd/00.dd/13.dd
HfdCat $EXPLOR_AREA/Import/IstexPart02000.hfd
HfdCat $EXPLOR_AREA/Import/IstexPart04000.hfd
) | SgmlFast -c1 | HfdBuild -bh $EXPLOR_AREA/Import/IstexRepository
Vérification
HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd | SxmlIndent | grep "</istex>" | wc
Construction des métadonnées ISTEX
- ISTEX, création du HFD Corpus Biblio
- En cas de reprise:
rm -rf $EXPLOR_AREA/Import/IstexMetadata.h*
- Construction corpus biblio
HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd \
| SgmlFast -c1 \
| IstexToTei \
| IstexCleanFullText \
| TeiPutRefToIdno -t wicri:Area/Istex/Corpus -c ISTEX -s Corpus -S Istex \
| HfdBuild -h $EXPLOR_AREA/Import/IstexMetadata
Téléchargement des autres corpus
- PubMed
Site : http://www.ncbi.nlm.nih.gov/pubmed
Requête : thulium
Ranger le résultat dans $EXPLOR_AREA/Import/pubmed_result.xml
- PubMed Central
Site : http://www.ncbi.nlm.nih.gov/pmc
Requête : thulium
Ranger le résultat dans $EXPLOR_AREA/Import/pmc_result.xml
- PascalFrancis
Site :http://stan2.demo.inist.fr/fr/
Requête :thulium
Télécharger avec les onglets : Serveur / SGML / SGML / LF
- résultat dans $EXPLOR_AREA/Import
mv $EXPLOR_AREA/Import/corpus.txt $EXPLOR_AREA/Import/inistServer.txt
Télécharger avec les onglets : SGML / SGML / SGML / LF
- résultat dans $EXPLOR_AREA/Import
mv $EXPLOR_AREA/Import/corpus.txt $EXPLOR_AREA/Import/inistStandard.txt
- Hal
Sur : https://hal.archives-ouvertes.fr/
Génération de la plateforme
- Importation des paramètres de génération
WicriGetPage -l wicri-terre.fr -p "Wicri:ThuliumV1/Paramètres, data"\
> $EXPLOR_AREA/Import/WicriAreaParam.data.wiki
Si reprise
sh $EXPLOR_AREA/bin/AreaReset.sh
ExplorAreaDataCreate -d $EXPLOR_AREA
make -f $EXPLOR_AREA/bin/area.mk
- Importation des paramètres de navigation
WicriGetPage -l wicri-terre.fr -p "Wicri:ThuliumV1/Paramètres, fr"\
> $EXPLOR_AREA/Import/WicriAreaSiteParam.fr.wiki
- Génération de l'interface
sh $EXPLOR_AREA/bin/AreaCreateSite.fr.sh
Génération des FTP
cd $EXPLOR_AREA
rm Site.tar.gz
tar -cvf Site.tar Site
gzip Site.tar
rm Data.tar.gz
tar -cvf Data.tar Data
gzip Data.tar
rm ImportMetadata.tar.gz
tar -cvf ImportMetadata.tar Import/istexMetadata.hcs Import/istexMetadata.hfd
gzip ImportMetadata.tar
Sur la machine cible
Aller sur le répertoire corpus correspondant au wiki cible
. ... Dilib/init.sh
newgrp ticri
EXPLOR_AREA=$WICRI_ROOT/Wicri/Terre/corpus/Thulium.storage/ThuliumV1.20160510
Si nouveau code générique :
mkdir $WICRI_ROOT/Wicri/Terre/corpus/Thulium.storage
Création du répertoire plateforme
mkdir $EXPLOR_AREA
- Transfert par FileZilla
Transférer les fichiers Site.tar.gz, Data.tar.gz de ThuliumV1 (émetteur) vers ThuliumV1 (cible).
- Installation
cd $EXPLOR_AREA
gunzip Site.tar.gz
tar -xvf Site.tar
gzip Site.tar
gunzip Data.tar.gz
tar -xvf Data.tar
gzip Data.tar
gunzip ImportMetadata.tar.gz
tar -xvf ImportMetadata.tar
gzip ImportMetadata.tar
cd Data/Istex/Corpus
rm biblio.hcs
rm biblio.hfd
ln -s ../../../Import/istexMetadata.hcs biblio.hcs
ln -s ../../../Import/istexMetadata.hfd biblio.hfd