Wicri:ParkinsonFranceV1 : Différence entre versions

De Wicri Santé
(Transfert vers la machine LorExplor)
(Transfert vers la machine LorExplor)
 
Ligne 278 : Ligne 278 :
 
;Transfert par scp:
 
;Transfert par scp:
  
:<code>scp $ISTEX_PAR Site.tar.gz $ISTEX_SCP:$WICRI_TARGET_ROOT/Sante/explor/ParkinsonFrance.storage/ParkinsonFranceV1</code>
+
:<code>scp $ISTEX_PAR Site.tar.gz $ISTEX_SCP:$WICRI_TARGET_ROOT/Sante/explor/ParkinsonFrance.storage/ParkinsonFranceV1.new</code>
  
 
===Sur la machine cible===
 
===Sur la machine cible===

Version actuelle datée du 4 mars 2024 à 16:36

Cette page introduit les aspects techniques de la version ParkinsonFranceV1 du Serveur d'exploration « La maladie de Parkinson en France (serveur d'exploration) ».

Voir aussi :

Mise en œuvre

Sur la machine de développement

Initialisations

Génération des pages wikis
Ce tableau de Albert Anker illustre une activité à caractère pédagogique sur une page Quelques explications
La plateforme est générée sur une machine supportant Unix, ici un MacBook Pro.

Dans cette section, le premier appel de la commande IstexGetCorpusSize est utilisée pour évaluer la volumétrie du serveur (ici 3726 documents) et pour « roder la syntaxe du critère de recherche ».

Le critère d'extraction est matérialisé par une expression booléenne qui implique la présence du mot « france » dans le titre, le résumé ou dans une affiliation.

Le deuxième pavé est un appel de la commande IstexGenerAreaPage. Cette commande génère une version initiale des pages de paramétrage (environ 500 lignes).

IstexGetCorpusSize -q "parkinson AND (abstract:france OR title:france OR author.affiliations:france)"
 IstexGenerAreaPages \
       -a ParkinsonFranceV1   \
       -m   \
       -g ParkinsonFrance   \
       -p Wicri/Sante   \
       -w wicri-sante.fr  \
       -W Wicri/Sante   \
       -s PascalFrancis   \
       -s PubMed   \
       -s Pmc   \
       -s Ncbi   \
       -s Hal   \
       -z Allemagne \
       -z UK   \
       -z USA   \
       -q "parkinson AND (abstract:france OR title:france OR author.affiliations:france)"   \
       -d "2"   \
       -D "2000"   \
       -t "La maladie de Parkinson en France (serveur d'exploration)"
Ce tableau de Albert Anker illustre une activité à caractère pédagogique sur une page Quelques explications
Cette partie sert simplement à installer sur la machine Unix le répertoire qui va contenir la plateforme.

Pour les informaticiens, la variable d'environnement EXPLOR_AREA sera utilisée pour repérer ce répertoire.

Définition $EXPLOR_AREA
EXPLOR_AREA=$WICRI_ROOT/Wicri/Sante/explor/ParkinsonFrance.storage/ParkinsonFranceV1
export EXPLOR_AREA
export LC_ALL='C'
Création des répertoires
mkdir $WICRI_ROOT/Wicri/Sante/corpus/ParkinsonFrance.storage
mkdir $EXPLOR_AREA
mkdir $EXPLOR_AREA/Import

Récupération des corpus ISTEX

Ce tableau de Albert Anker illustre une activité à caractère pédagogique sur une page Quelques explications
Cette partie concerne le téléchargement du corpus ISTEX.

La taille du corpus étant supérieure à 3000 documents, on va procéder à un téléchargement en 2 étapes.

En cas de reprise complète au niveau du téléchargement
rm -rf $EXPLOR_AREA/Import/IstexDownload.*.h*
Ce tableau de Albert Anker illustre une activité à caractère pédagogique sur une page Quelques explications
Cette partie introduit le premier téléchargement de 2000 documents.

En fait le texte ci-dessous contient 2 versions adaptées à différentes modalités d'accès aux corpus ISTEX. En effet ces contenus ne sont pas accessibles au public, il faut donc donner soit une identification soit un « token » pour précéder au téléchargement.

time IstexGetCorpus -q "parkinson AND (abstract:france OR title:france OR author.affiliations:france)" \
            -s 2000  -i $ISTEX_ID -p $ISTEX_PASS  -A \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.000000
time IstexGetCorpus -q "parkinson AND (abstract:france OR title:france OR author.affiliations:france)" \
     -s 2000  -t $ISTEX_TOKEN  -A \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.000000
Vérification
SxmlSelect -g hfd/nrec/1 -p @g1 < $EXPLOR_AREA/Import/IstexDownload.000000.hcs
Ce tableau de Albert Anker illustre une activité à caractère pédagogique sur une page Quelques explications sur les résultats de ce premier téléchargement
La commande IstexGetCorpus est préfixée par un appel à la commande time. Elle permet se savoir, en fin de traitement, le temps qu'il a fallu passer sur cette opération.

Ici, elle nous donne

real	19m3.735s
user	2m4.157s
sys	0m12.887s

soit environ 20 minutes, dont 2 minutes de traitement (reformatage).

Les commandes qui suivent concerne le téléchargement de la deuxième partie du corpus.

time IstexGetCorpus -q "parkinson AND (abstract:france OR title:france OR author.affiliations:france)" \
       -f 2000 -s 2000 -A  -i $ISTEX_ID -p $ISTEX_PASS  \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.002000
time IstexGetCorpus -q "parkinson AND (abstract:france OR title:france OR author.affiliations:france)" \
       -f 2000 -s 2000 -A  -t $ISTEX_TOKEN  \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.002000
SxmlSelect -g hfd/nrec/1 -p @g1 < $EXPLOR_AREA/Import/IstexDownload.002000.hcs

Construction du Repository ISTEX

Ce tableau de Albert Anker illustre une activité à caractère pédagogique sur une page Quelques explications
Cette étape assure simplement la fusion du résultat des 2 téléchargements précédents.

A la fin de cette étape, les 3700 documents, en texte intégral (XML) seront disponibles pour des traitements.

En cas de reprise au niveau du téléchargement

rm -rf $EXPLOR_AREA/Import/IstexRepository.h*
(
  HfdCat $EXPLOR_AREA/Import/IstexDownload.000000.hfd
  HfdCat $EXPLOR_AREA/Import/IstexDownload.002000.hfd
 )    | SgmlFast -c 1 \
        | HfdBuild -bh    $EXPLOR_AREA/Import/IstexRepository

Vérification

HfdCat  $EXPLOR_AREA/Import/IstexRepository.hfd | wc

Construction des métadonnées ISTEX

Ce tableau de Albert Anker illustre une activité à caractère pédagogique sur une page Quelques explications
Cette étape réalise la création d'une version du corpus réduite à des métadonnées homogénéisées en TEI.

Cette version possède deux avantages :

  • elle permet de réaliser des filtrages beaucoup plus rapides que sur les documents complets (dans un rapport 10)
  • elle ne contient que des données qui peuvent être librement diffusées.
ISTEX, création du HFD Corpus Biblio
En cas de reprise:
rm -rf $EXPLOR_AREA/Import/IstexMetadata.h*
Construction corpus biblio
HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd   \
  | IstexCleanFullText                           \
  | SgmlFast -c1                                 \
  | IstexToTei                                   \
  | TeiPutRefToIdno -t wicri:Area/Istex/Corpus  -c ISTEX -s Corpus -S Istex \
  | HfdBuild -h $EXPLOR_AREA/Import/IstexMetadata

Téléchargement des autres corpus

Ce tableau de Albert Anker illustre une activité à caractère pédagogique sur une page Quelques explications
Cette étape réalise le téléchargement des notices bibliographiques PubMed (MEDLINE) depuis le site du NCBI.

Pour récupérer le corpus, il faut jouer avec le bouton « send to » (en haut à droite) et activer les options file et format XML.

Elle ne dure que quelques dizaines de secondes pour récupérer 2500 documents.

Comme cette base ne contient que des métadonnées, le critère de sélection est plus simple que pour ISTEX.

PubMed

Site : http://www.ncbi.nlm.nih.gov/pubmed

Requête :

parkinson AND france

Ranger le résultat dans $EXPLOR_AREA/Import/pubmed_result.xml

Ce tableau de Albert Anker illustre une activité à caractère pédagogique sur une page Quelques explications
Cette étape réalise le téléchargement des documents en texte intégral à partir de l'archive PubMed Central depuis le site du NCBI.

Pour des raisons techniques provisoires (espace disque) le champ de la requête a été volontairement réduit.

PubMed Central

Site : http://www.ncbi.nlm.nih.gov/pmc

Requête :

"parkinson disease" AND (france[affiliation]) 

Ranger le résultat dans $EXPLOR_AREA/Import/pmc_result.xml

Ce tableau de Albert Anker illustre une activité à caractère pédagogique sur une page Quelques explications
Cette étape concerne le téléchargement des corpus Pascal/Francis à partit d'un site privé (INIST).
Stanalyst

Site :http://stan2.demo.inist.fr/fr/

Requête :

( pa = fr* ) et parkinson

Télécharger avec les onglets : Serveur / SGML / SGML / LF

  • résultat dans $EXPLOR_AREA/Import
 mv $EXPLOR_AREA/Import/corpus.txt $EXPLOR_AREA/Import/inistServer.txt 

Télécharger avec les onglets : SGML / SGML / SGML / LF

  • résultat dans $EXPLOR_AREA/Import
 mv $EXPLOR_AREA/Import/corpus.txt $EXPLOR_AREA/Import/inistStandard.txt
Ce tableau de Albert Anker illustre une activité à caractère pédagogique sur une page Quelques explications
Cette étape concerne le téléchargement depuis Hal

Cette étape est relativement longue compte tenu du volume (1300 documents)

Hal

Sur : https://hal.archives-ouvertes.fr/

Critère :

parkinson

Onglets : documents + notices

Génération de la plateforme

Importation des paramètres de génération
WicriGetPage -l wicri-sante.fr -p "Wicri:ParkinsonFranceV1/Paramètres, data"\
      > $EXPLOR_AREA/Import/WicriAreaParam.data.wiki

Si reprise

sh $EXPLOR_AREA/bin/AreaReset.sh
ExplorAreaDataCreate -d $EXPLOR_AREA
make -f $EXPLOR_AREA/bin/area.mk
Importation des paramètres de navigation
WicriGetPage -l wicri-sante.fr -p "Wicri:ParkinsonFranceV1/Paramètres, fr"\
      > $EXPLOR_AREA/Import/WicriAreaSiteParam.fr.wiki
Génération de l'interface 
sh $EXPLOR_AREA/bin/AreaCreateSite.fr.sh

Génération des FTP

cd $EXPLOR_AREA
rm Site.tar.gz 
tar -cvf Site.tar Site 
gzip Site.tar 
rm Data.tar.gz 
tar -cvf Data.tar Data 
gzip Data.tar 

rm ImportMetadata.tar.gz
tar -cvf ImportMetadata.tar Import/istexMetadata.hcs Import/istexMetadata.hfd
gzip ImportMetadata.tar

Transfert vers la machine LorExplor

Transfert par scp
scp $ISTEX_PAR Site.tar.gz $ISTEX_SCP:$WICRI_TARGET_ROOT/Sante/explor/ParkinsonFrance.storage/ParkinsonFranceV1.new

Sur la machine cible

Aller sur le répertoire corpus correspondant au wiki cible

. ... Dilib/init.sh  
newgrp ticri
EXPLOR_AREA=$WICRI_ROOT/Wicri/Sante/corpus/ParkinsonFrance.storage/ParkinsonFranceV1.20170217

Si nouveau code générique :

mkdir $WICRI_ROOT/Wicri/Sante/corpus/ParkinsonFrance.storage

Création du répertoire plateforme

mkdir $EXPLOR_AREA
Transfert par FileZilla

Transférer les fichiers Site.tar.gz, Data.tar.gz de ParkinsonFranceV1 (émetteur) vers ParkinsonFranceV1 (cible).

Installation
cd $EXPLOR_AREA
gunzip Site.tar.gz 
tar -xvf Site.tar 
gzip Site.tar 

gunzip Data.tar.gz 
tar -xvf Data.tar 
gzip Data.tar
gunzip ImportMetadata.tar.gz 
tar -xvf ImportMetadata.tar 
gzip ImportMetadata.tar 

cd Data/Istex/Corpus 
rm biblio.hcs 
rm biblio.hfd 
ln -s ../../../Import/istexMetadata.hcs biblio.hcs 
ln -s ../../../Import/istexMetadata.hfd biblio.hfd