Wicri:GrippeFranceV1/Paramètres, corpus

De Wicri Santé

Cette page introduit les éléments pour la création des corpus de la version GrippeFranceV1 du « Serveur d'exploration sur la grippe en France ».

Voir aussi :

Corpus PubMed

Corpus PubMed Central

Création du fichier pmc_result.xml par téléchargement

Test initial
nombre de liens vers pmc dans le corpus
HfdCat $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd \
  | SxmlSelect -g record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=pmc/1 -p@g1  \
  | wc
Téléchargement
HfdCat $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd \
  | SxmlSelect -g record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=pmc/1 -p@g1  \
  | NlmPmcGetCorpusById > $EXPLOR_AREA/Import/pmc_result.xml
Vérification
nombre de documents téléchargés
cat $EXPLOR_AREA/Import/pmc_result.xml | grep "</article>" | wc

Exploitations locales

HfdCat $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd   | SxmlSelect -g record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=pmc/1 -p@g1 -p @1 | sort > $EXPLOR_AREA/FixInput/pmcToRefPubMed.dict

cat $EXPLOR_AREA/Import/pmc_result.xml   \
   | NlmPmc2Sxml   \
   | Utf8FromHexEntity  \
   | SxmlUnIndent        \
   | HcsSxmlRecordPutKey  \
   | NlmPmc2CorpusTei   \
   | TeiPutRefToIdno -t wicri:Area/Main/CorpusPmc -c PMC -S Main -s CorpusPmc \
   | HfdBuild -bh $EXPLOR_AREA/FixData/Pmc/Corpus/repository

HfdCat $EXPLOR_AREA/FixData/Pmc/Corpus/repository.hfd |  SxmlSelect -g record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=pmc/1 -p PMC@g1 -p @1  | sort > $EXPLOR_AREA/FixInput/pmcToRefPmc.dict

cat $EXPLOR_AREA/FixInput/pmcToRefPubMed.dict  \
   | StrDictSelect -t FixInput/pmcToRefPmc.dict -sr | sort > FixInput/PmcRepo2PubMed.dict

Voir aussi

Cette page est générée à partir de