Wicri:GrippeCanadaV4/Paramètres, corpus

De Wicri Santé

Cette page introduit les éléments pour la création des corpus de la version GrippeCanadaV4 du « Serveur d'exploration sur la grippe au Canada ».

Voir aussi :

Corpus PubMed Central

Création du fichier pmc_result.xml par téléchargement

Test initial
nombre de liens vers pmc dans le corpus
HfdCat $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd \
  | SxmlSelect -g record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=pmc/1 -p@g1  \
  | wc
Téléchargement
HfdCat $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd \
  | SxmlSelect -g record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=pmc/1 -p@g1  \
  | NlmPmcGetCorpusById > $EXPLOR_AREA/Import/pmc_result.xml
Vérification
nombre de documents téléchargés
cat $EXPLOR_AREA/Import/pmc_result.xml | grep "</article>" | wc

Création du HFD repository

NlmPubMedExplorCorpusWithPmc

Corpus Istex

Création du HFD repository Istex

Sur la machine LorExplor

HfdCat $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd         \
  | SxmlSelect -g record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=doi/1 -p@g1 \
  | IstexGetCorpusById -i doi -A           \
  | SxmlUnIndent   \
  | HfdBuild -bh  $EXPLOR_AREA/Istex/repository

cd $EXPLOR_AREA

tar -cvf Istex.tar Istex
gzip Istex.tar

Sur la machine de développement

 scp $ISTEX_SCP:$WICRI_TARGET_ROOT/Sante/explor/GrippeCanada.storage/GrippeCanadaV4/Istex.tar.gz .
 gunzip Istex.tar.gz
 tar -xvf Istex.tar
 mkdir $EXPLOR_AREA/Istex
 mv Istex $EXPLOR_AREA/Istex/Corpus

Création du HFD metadata Istex

HfdCat $EXPLOR_AREA/FixData/Istex/Corpus/repository.hfd   \
  | SgmlFast -c1                                 \
  | IstexToTei                                   \
  | IstexCleanFullText                           \
  | TeiPutRefToIdno -t wicri:Area/Istex/Corpus  -c ISTEX -s Corpus -S Istex \
  | HfdBuild -h $EXPLOR_AREA/FixData/Istex/Corpus/metadata

Création des fichiers de correspondances

HfdCat $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd       \
  | SxmlSelect -g record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=doi/1 -p @g1 -p @1 \
  | sort > $EXPLOR_AREA/FixInput/doiToHfdRefPubMed.dict
HfdCat $EXPLOR_AREA/FixData/Istex/Corpus/metadata.hfd            \
  |  SxmlSelect -g record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=doi/1 -p @g1 -p @1  \
  | sort > $EXPLOR_AREA/FixInput/doiToHfdRefIstex.dict
cat $EXPLOR_AREA/FixInput/doiToHfdRefPubMed.dict  \
   | StrDictSelect -t $EXPLOR_AREA/FixInput/doiToHfdRefIstex.dict -sr   \
   | sort > $EXPLOR_AREA/FixInput/HfdIstexRepo2HfdPubMed.dict

Voir aussi

Cette page est générée à partir de