Dilib, module Nlm, commande NlmPmcResultSelect

De Wicri Outils
Révision datée du 8 mai 2015 à 08:35 par imported>Jacques Ducloy
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)
LogoDilib.gif
Panneau travaux.png
Bibliothèque Dilib (ressources numériques)
Module Nlm

La commande NlmPmcResultSelect sert à extraire des articles d'un fichier de résultat téléchargé depuis le site PubMed Central en format Xml.

 

Objectifs

Cette commande est destinée aux opérations de débogage de programmes traitant des flots de données issus de PubMed Central. Plus précisément elle permet d'extraire un ensemble de documents pour détecter la cause d'une anomalie dans un reformatage de corpus.

Synopsis

NlmPmcResultSelect

-f from - rang du premier article à sélectionner (à partir de 0)
-t to - rang du dernier article à sélectionner (à partir de 0)
-p imprime les balises pmc-articleset pour un traitement ultérieur par

NlmPmc2Sxml

Exemple d'emploi

Comptage du nombre d'articles dans un flot PubMed Central
cat FranceNcbiV0/Import/pmc_result_2004.xml      | grep "<article " | wc

Exemple de résultat : 6252

Détection d'une anomalie

Examiner le shell suspect par quelque chose comme :

more FranceNcbiV0/bin/PMC2004CorpusBiblio.sh

Puis reproduire l'erreur par :

cat FranceNcbiV0/Import/pmc_result_2004.xml     \
   | NlmPmc2Sxml      | Utf8FromHexEntity       \
   | SxmlUnIndent | SxmlRecordPutKey            \
   | NlmPmc2CorpusTei  -t FranceNcbiV0/Input/AreaParam.data.tab -s PMC2004 | wc

Si le résultat est différent du précédent (exemple 6202) une anomalie est probable.

Extraction d'un jeu test
cat FranceNcbiV0/Import/pmc_result_2004.xml      | NlmPmcResultSelect -p -f 6200 -t 6205 > testPmc.xml
Vérification de la pertinence du jeu de test
cat testPmc.xml      | grep "<article " | wc
cat testPmc.xml   | NlmPmc2Sxml      | Utf8FromHexEntity       \
   | SxmlUnIndent | SxmlRecordPutKey                           \
   | NlmPmc2CorpusTei  -t FranceNcbiV0/Input/AreaParam.data.tab -s PMC2004 | wc
Affinage du jeu de test
cat testPmc.xml   | NlmPmc2Sxml      | Utf8FromHexEntity     | SxmlUnIndent | SxmlRecordPutKey > testPmc1.xml
Debogage
gdb NlmPmc2CorpusTei
...
  run -t FranceNcbiV0/Input/AreaParam.data.tab -s PMC2004  < testPmc1.xml