Wicri:SidaSubSaharaV1

De Wicri Santé

Cette page introduit les aspects techniques de la version SidaSubSaharaV1 du Serveur d'exploration « Le SIDA en Afrique subsaharienne (serveur d'exploration) ».

Voir aussi :

Mise en œuvre

Sur la machine de développement

Initialisations

Génération des pages wikis
source IstexGetCorpusSize -q "aids AND hiv AND ghana"
 IstexGenerAreaPages \
       -a SidaSubSaharaV1   \
       -m   \
       -g SidaSubSahara   \
       -p Wicri/Sante   \
       -w wicri-sante.fr  \
       -W Wicri/Sante   \
       -s PascalFrancis   \
       -s PubMed   \
       -s Pmc   \
       -s Ncbi   \
       -s Hal   \
       -z RSA   \
       -q "aids AND hiv AND ghana"   \
       -d "2"   \
       -D "2000"   \
       -t "Le SIDA en Afrique subsaharienne (serveur d'exploration)"
Définition $EXPLOR_AREA
EXPLOR_AREA=$WICRI_ROOT/Wicri/Sante/explor/SidaSubSahara.storage/SidaSubSaharaV1
export EXPLOR_AREA
export LC_ALL='C'

Sur la machine LorExplor

Définition $EXPLOR_AREA
newgrp wicri
source /applis/lorexplor/Dilib/init.sh 
EXPLOR_AREA=$WICRI_ROOT/Sante/explor/SidaSubSahara.storage/SidaSubSaharaV1.20171112
export EXPLOR_AREA
export LC_ALL='C'
Création des répertoires
mkdir $WICRI_ROOT/Sante/explor/SidaSubSahara.storage
mkdir $WICRI_ROOT/Sante/explor/SidaSubSahara.storage/SidaSubSaharaV1.corpus
mkdir $EXPLOR_AREA
mkdir $EXPLOR_AREA/Import
Définition du corpus;
(
  IstexGetCorpus -q '"sub-saharan" AND aids AND hiv AND socioeconomic' -l -s 4000
  IstexGetCorpus -q "subsahar* AND aids AND hiv AND socioeconomic" -l -s 4000
  IstexGetCorpus -q "ghana AND aids AND hiv AND socioeconomic" -l -s 4000
  IstexGetCorpus -q "zambia AND aids AND hiv AND socioeconomic" -l -s 4000
  IstexGetCorpus -q "senegal AND aids AND hiv AND socioeconomic" -l -s 4000
  IstexGetCorpus -q '"south africa" AND aids AND hiv AND socioeconomic' -l -s 4000
  IstexGetCorpus -q '("sub-saharan" OR Ghana OR senegal OR zambia OR "south africa") AND aids AND hiv ' -l -s 4000
) | sort -u > Import/IstexRepository.list
time head -2000 Import/IstexRepository.list  \
     | IstexGetCorpusById -A                  \
     | SxmlUnIndent                            \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexPart00000
time head -4000 Import/IstexRepository.list | tail -2000  \
     | IstexGetCorpusById -A  \
     | SxmlUnIndent                           \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexPart02000
time head -6000 Import/IstexRepository.list | tail -2000  \
     | IstexGetCorpusById -A                  \
     | SxmlUnIndent                            \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexPart04000
time head -8000 Import/IstexRepository.list | tail -2000  \
     | IstexGetCorpusById -A  \
     | SxmlUnIndent                           \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexPart06000


time tail -318 Import/IstexRepository.list  \
     | IstexGetCorpusById -A  \
     | SxmlUnIndent                           \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexPart08000
(
     HfdCat $EXPLOR_AREA/Import/IstexPart00000.hfd
     HfdCat $EXPLOR_AREA/Import/IstexPart02000.hfd
     HfdCat $EXPLOR_AREA/Import/IstexPart04000.hfd
     HfdCat $EXPLOR_AREA/Import/IstexPart06000.hfd
     HfdCat $EXPLOR_AREA/Import/IstexPart08000.hfd
) | SgmlFast -c1 | HfdBuild -bh    $EXPLOR_AREA/Import/IstexRepository

Construction des métadonnées ISTEX

ISTEX, création du HFD Corpus Biblio
En cas de reprise:
rm -rf $EXPLOR_AREA/Import/IstexMetadata.h*
Construction corpus biblio
time HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd   \
  | SgmlFast -c1                                 \
  | IstexToTei                                   \
  | IstexCleanFullText                           \
  | TeiPutRefToIdno -t wicri:Area/Istex/Corpus  -c ISTEX -s Corpus -S Istex \
  | HfdBuild -h $EXPLOR_AREA/Import/IstexMetadata

Téléchargement des autres corpus

PubMed

Site : http://www.ncbi.nlm.nih.gov/pubmed

Requêtes :

((("sub-saharan" OR Ghana OR senegal OR zambia OR "south africa") AND aids AND hiv)) AND ("2017"[Date - Publication] ])
("sub-saharan" OR Ghana OR senegal OR zambia OR "south africa") AND aids AND hiv AND socioeconomic


Envoyer sur machine LorExplor par :

scp Import/pubmed_result.2017.xml $ISTEX_SCP:$WICRI_TARGET_ROOT/Sante/explor/SidaSubSahara.storage/SidaSubSaharaV1.corpus/Import
scp Import/pubmed_result.2010.xml $ISTEX_SCP:$WICRI_TARGET_ROOT/Sante/explor/SidaSubSahara.storage/SidaSubSaharaV1.corpus/Import
scp Import/pubmed_result.2013.xml $ISTEX_SCP:$WICRI_TARGET_ROOT/Sante/explor/SidaSubSahara.storage/SidaSubSaharaV1.corpus/Import
scp Import/pubmed_result.eco.xml $ISTEX_SCP:$WICRI_TARGET_ROOT/Sante/explor/SidaSubSahara.storage/SidaSubSaharaV1.corpus/Import
PubMed Central

Site : http://www.ncbi.nlm.nih.gov/pmc

Requête :

aids AND hiv AND socioeconomic AND sub-saharan

Envoyer sur machine LorExplor par :

scp Import/pmc_result.xml $ISTEX_SCP:$WICRI_TARGET_ROOT/Sante/explor/SidaSubSahara.storage/SidaSubSaharaV1.corpus/Import
PascalFrancis

Site :http://stan2.demo.inist.fr/fr/

Requête :

 sida et ( sub?sahar* ou ghana ou zambie ) 

Télécharger avec les onglets : Serveur / SGML / SGML / LF

  • résultat dans $EXPLOR_AREA/Import
 mv $EXPLOR_AREA/Import/corpus.txt $EXPLOR_AREA/Import/inistServer.txt 

Télécharger avec les onglets : SGML / SGML / SGML / LF

  • résultat dans $EXPLOR_AREA/Import
 mv $EXPLOR_AREA/Import/corpus.txt $EXPLOR_AREA/Import/inistStandard.txt

Envoyer sur machine LorExplor par :

scp Import/inistStandard.txt $ISTEX_SCP:$WICRI_TARGET_ROOT/Sante/explor/SidaSubSahara.storage/SidaSubSaharaV1.corpus/Import
scp Import/inistServer.txt $ISTEX_SCP:$WICRI_TARGET_ROOT/Sante/explor/SidaSubSahara.storage/SidaSubSaharaV1.corpus/Import
Hal

Sur : https://hal.archives-ouvertes.fr/

 sida AND sub-saharan

Envoyer sur machine LorExplor par :

scp Import/api.archives-ouvertes.fr.xml $ISTEX_SCP:$WICRI_TARGET_ROOT/Sante/explor/SidaSubSahara.storage/SidaSubSaharaV1.corpus/Import