Nuvola apps important.png Attention, suite à une faille de sécurité, les liens vers les serveurs d'exploration sont désactivés.

-

Wicri:AustralieFrV1

De Wicri Asie

Cette page introduit les aspects techniques de la version AustralieFrV1 du « Serveur d'exploration sur les relations entre la France et l'Australie ».

Voir aussi :

Mise en œuvre

Sur la machine de développement

Initialisations

Génération des pages wikis
source IstexGetCorpusSize -q  "author.affiliations:france AND author.affiliations:australia"
 IstexGenerAreaPages \
       -a AustralieFrV1   \
       -m   \
       -g AustralieFr   \
       -x 3         \
       -p Asie   \
       -w wicri-asie.fr  \
       -W Wicri/Asie   \
       -s PascalFrancis   \
       -s Hal   \
       -s PubMed   \
       -s Pmc      \
       -s Ncbi      \
       -z Canada       \
       -z UK       \
       -z Allemagne   \
       -q "author.affiliations:france AND author.affiliations:australia"   \
       -t "Serveur d'exploration sur les relations entre la France et l'Australie"
Définition $EXPLOR_AREA
EXPLOR_AREA=$WICRI_ROOT/Asie/explor/AustralieFr.storage/AustralieFrV1
export EXPLOR_AREA
export LC_ALL='C'
Création des répertoires
mkdir $WICRI_ROOT/Asie/explor/AustralieFr.storage
mkdir $EXPLOR_AREA
mkdir $EXPLOR_AREA/Import

Sur la machine LorExplor

newgrp wicri
source /applis/lorexplor/Dilib/init.sh
Définition $EXPLOR_AREA
EXPLOR_AREA=$WICRI_ROOT/Asie/explor/AustralieFr.storage/AustralieFrV1.new
export EXPLOR_AREA
export LC_ALL='C'
Création des répertoires
mkdir $WICRI_ROOT/Asie/explor/AustralieFr.storage
mkdir $EXPLOR_AREA
mkdir $EXPLOR_AREA/Import
mkdir $WICRI_ROOT/Asie/explor/AustralieFr.storage/AustralieFrV1.corpus

Téléchargement ISTEX

Creation list

Sous $WICRI_ROOT/Asie/explor/AustralieFr.storage/AustralieFrV1.corpus

(
 IstexGetCorpus -q "author.affiliations:france AND author.affiliations:australia" -l -s 4999
) | sort -u > IstexRepository.list
time head -970 IstexRepository.list  \
     | IstexGetCorpusById -A                  \
     | SxmlUnIndent                            \
     | HfdBuild -bh IstexPart00000
HfdCat IstexPart00000.hfd | SxmlIndent | grep "</istex>" | wc

Problème entre 970 et 1000 - 330DB627144C0B661555C8952C7586E7024ADE10

time head -2000 IstexRepository.list |tail -1000  \
     | IstexGetCorpusById -A                  \
     | SxmlUnIndent                            \
     | HfdBuild -bh IstexPart01000
time head -3000 IstexRepository.list |tail -1000  \
     | IstexGetCorpusById -A                  \
     | SxmlUnIndent                            \
     | HfdBuild -bh IstexPart02000

problème entre 3470 et 3500 - B5EC25CCA5E16CDF5FA72508C993A2DE5D34F873

time head -3470 IstexRepository.list |tail -470  \
     | IstexGetCorpusById -A                  \
     | SxmlUnIndent                            \
     | HfdBuild -bh IstexPart03000
time head -4000 IstexRepository.list |tail -500  \
     | IstexGetCorpusById -A                  \
     | SxmlUnIndent                            \
     | HfdBuild -bh IstexPart03500
time tail -897 IstexRepository.list   \
     | IstexGetCorpusById -A                  \
     | SxmlUnIndent                            \
     | HfdBuild -bh IstexPart04000
(
  head -1000 IstexRepository.list | tail -30 | grep -v 330DB627144C0B661555C8952C7586E7024ADE10
  head -3500 IstexRepository.list | tail -30 | grep -v B5EC25CCA5E16CDF5FA72508C993A2DE5D34F873
) | IstexGetCorpusById -A                  \
     | SxmlUnIndent                            \
     | HfdBuild -bh IstexPartRest

Construction Repository

(
  HfdCat IstexPart00000.hfd 
  HfdCat IstexPart01000.hfd 
  HfdCat IstexPart02000.hfd  
  HfdCat IstexPart03000.hfd 
  HfdCat IstexPart03500.hfd
  HfdCat IstexPart04000.hfd
  HfdCat IstexPartRest.hfd 
) |  SgmlFast -c1 | HfdBuild -bh  IstexRepository
HfdCat IstexRepository.hfd | SxmlIndent | grep "</istex>" | wc
cat IstexRepository.hcs
cd $EXPLOR_AREA/Import
ln -s ../../AustralieFrV1.corpus/IstexRepository.* .

Construction des métadonnées ISTEX

ISTEX, création du HFD Corpus Biblio
En cas de reprise:
rm -rf $EXPLOR_AREA/Import/IstexMetadata.h*
Construction corpus biblio
HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd   \
  | SgmlFast -c1                                 \
  | IstexToTei                                   \
  | IstexCleanFullText                           \
  | TeiPutRefToIdno -t wicri:Area/Istex/Corpus  -c ISTEX -s Corpus -S Istex \
  | HfdBuild -h $EXPLOR_AREA/Import/IstexMetadata

Téléchargement des autres corpus

PubMed

Site : http://www.ncbi.nlm.nih.gov/pubmed

Requête :

(france[affiliation]) AND australia[affiliation] 

Ranger le résultat dans $EXPLOR_AREA/Import/pubmed_result.xml

Envoyer sur machine LorExplor par :

scp Import/pubmed_result.xml $ISTEX_SCP:$WICRI_TARGET_ROOT/Asie/explor/AustralieFr.storage/AustralieFrV1/Import
PubMed Central

Site : http://www.ncbi.nlm.nih.gov/pmc

Requête :

(france[affiliation]) AND australia[affiliation] 

Ranger le résultat dans $EXPLOR_AREA/Import/pmc_result.xml

Envoyer sur machine LorExplor par :

scp Import/pmc_result.xml $ISTEX_SCP:$WICRI_TARGET_ROOT/Asie/explor/AustralieFr.storage/AustralieFrV1/Import
PascalFrancis

Site :http://stan2.demo.inist.fr/fr/

Requête :

( pa = aus ) et (pa = fra)


Télécharger avec les onglets : Serveur / SGML / SGML / LF

  • résultat dans $EXPLOR_AREA/Import
 mv $EXPLOR_AREA/Import/corpus.txt $EXPLOR_AREA/Import/inistServer.txt 

Télécharger avec les onglets : SGML / SGML / SGML / LF

  • résultat dans $EXPLOR_AREA/Import
 mv $EXPLOR_AREA/Import/corpus.txt $EXPLOR_AREA/Import/inistStandard.txt 
Hal

Sur : https://hal.archives-ouvertes.fr/

Critère :

Australie

Sur la machine de développement

Récupération des modèles

scp $ISTEX_SCP:$WICRI_TARGET_ROOT/Asie/explor/AustralieFr.storage/AustralieFrV1/exportSize.xml .
scp $ISTEX_PAR $ISTEX_SCP:$WICRI_TARGET_ROOT/Asie/explor/AustralieFr.storage/AustralieFrV1/exportMaps.xml .
scp $ISTEX_SCP:$WICRI_TARGET_ROOT/Asie/explor/AustralieFr.storage/AustralieFrV1/exportInclude.xml .