Wicri:ParkinsonCanadaV1

De Wicri Canada

Cette page introduit les aspects techniques de la version ParkinsonCanadaV1 du Serveur d'exploration « La maladie de Parkinson au Canada (serveur d'exploration) ».

Voir aussi :

Initialisations

Génération des pages wikis
IstexGetCorpusSize -q "parkinson AND (abstract:canada OR title:canada OR author.affiliations:canada)"  \
     -u "https://api-v5.istex.fr"
 IstexGenerAreaPages \
       -a ParkinsonCanadaV1   \
       -m   \
       -g ParkinsonCanada   \
       -p Wicri/Canada   \
       -w wicri-canada.fr  \
       -W Wicri/Canada   \
       -s PascalFrancis   \
       -s PubMed   \
       -s Pmc   \
       -s Ncbi   \
       -s Hal   \
       -z Allemagne \
       -z UK   \
       -z USA   \
       -z France \
       -q "parkinson AND (abstract:france OR title:france OR author.affiliations:france)"   \
       -d "2"   \
       -D "2000"   \
       -t "La maladie de Parkinson au Canada (serveur d'exploration)"

Arborescences

Site LorExplor

Les serveurs sont installé sur :

/applis/lorexplor/Wicri/Amerique/Canada/explor/ParkinsonCanada.storage/ParkinsonCanadaV1/Import
/var/www/html/Wicri/Amerique/Canada/explor

Mise en œuvre

Définition $EXPLOR_AREA

Sur site LorExplor

newgrp wicri 
source Dilib/init.sh
EXPLOR_AREA=/applis/lorexplor/Wicri/Amerique/Canada/explor/ParkinsonCanada.storage/ParkinsonCanadaV1
export EXPLOR_AREA
export LC_ALL='C'

cd $EXPLOR_AREA
pwd

Construction du Repository ISTEX

En cas de reprise au niveau du téléchargement

rm -rf $EXPLOR_AREA/Import/IstexRepository.h*
time IstexGetCorpus -q "parkinson AND (abstract:canada OR title:canada OR author.affiliations:canada)"  \
        -s 4900  -l      -u "https://api-v5.istex.fr"  > Import/IstexRepository.list
head -1000 Import/IstexRepository.list  \
     | IstexGetCorpusById -A  -v "https://api-v5.istex.fr"  \
     | IstexToSxml                            \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexPart00000
time head -2000 Import/IstexRepository.list | tail -1000  \
     | IstexGetCorpusById -A  -v "https://api-v5.istex.fr"  \
     | IstexToSxml                            \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexPart01000
time head -3000 Import/IstexRepository.list | tail -1000  \
     | IstexGetCorpusById -A  -v "https://api-v5.istex.fr"  \
     | IstexToSxml                            \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexPart02000
time head -4000 Import/IstexRepository.list | tail -1000  \
     | IstexGetCorpusById -A  -v "https://api-v5.istex.fr"  \
     | IstexToSxml                            \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexPart03000
time tail -329 Import/IstexRepository.list  \
     | IstexGetCorpusById -A  -v "https://api-v5.istex.fr"  \
     | IstexToSxml                            \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexPart04000
(
     HfdCat $EXPLOR_AREA/Import/IstexPart00000.hfd
     HfdCat $EXPLOR_AREA/Import/IstexPart01000.hfd
     HfdCat $EXPLOR_AREA/Import/IstexPart02000.hfd
     HfdCat $EXPLOR_AREA/Import/IstexPart03000.hfd
     HfdCat $EXPLOR_AREA/Import/IstexPart04000.hfd
) | HfdBuild -bh    $EXPLOR_AREA/Import/IstexRepository
Ce qui serait plus simple !!!:
time IstexGetCorpus -q "parkinson AND (abstract:canada OR title:canada OR author.affiliations:canada)"  \
        -s 4900  -l      -u "https://api-v5.istex.fr"       \
     | IstexGetCorpusById -A  -v "https://api-v5.istex.fr"  \
     | IstexToSxml                            \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexRepository

Vérification

HfdCat  $EXPLOR_AREA/Import/IstexRepository.hfd | wc

Construction des métadonnées ISTEX

ISTEX, création du HFD Corpus Biblio
En cas de reprise:
rm -rf $EXPLOR_AREA/Import/IstexMetadata.h*
Construction corpus biblio
HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd   \
  | IstexCleanFullText                           \
  | SgmlFast -c1                                 \
  | IstexToTei                                   \
  | TeiPutRefToIdno -t wicri:Area/Istex/Corpus  -c ISTEX -s Corpus -S Istex \
  | HfdBuild -h $EXPLOR_AREA/Import/IstexMetadata

Téléchargement des autres corpus

PubMed

Site : http://www.ncbi.nlm.nih.gov/pubmed

Requête :

parkinson AND canada

Ranger le résultat dans $EXPLOR_AREA/Import/pubmed_result.xml

PubMed Central

Site : http://www.ncbi.nlm.nih.gov/pmc

Requête :

"parkinson disease" AND (canada[affiliation]) 

Ranger le résultat dans $EXPLOR_AREA/Import/pmc_result.xml

Stanalyst

Site :http://stan2.demo.inist.fr/fr/

Requête :

( pa = ca* ) et parkinson

Télécharger avec les onglets : Serveur / SGML / SGML / LF

  • résultat dans $EXPLOR_AREA/Import
 mv $EXPLOR_AREA/Import/corpus.txt $EXPLOR_AREA/Import/inistServer.txt 

Télécharger avec les onglets : SGML / SGML / SGML / LF

  • résultat dans $EXPLOR_AREA/Import
 mv $EXPLOR_AREA/Import/corpus.txt $EXPLOR_AREA/Import/inistStandard.txt
Hal

Sur : https://hal.archives-ouvertes.fr/

Critère :

parkinson AND canada