Dilib, module Nlm, commande NlmPmcResultSelect
De Wicri Outils
Révision datée du 8 mai 2015 à 08:35 par imported>Jacques Ducloy
Module Nlm |
La commande NlmPmcResultSelect
sert à extraire des articles d'un fichier de résultat téléchargé depuis le site PubMed Central en format Xml.
Sommaire |
Liste des modules Dilib
Module Nlm
|
Objectifs
Cette commande est destinée aux opérations de débogage de programmes traitant des flots de données issus de PubMed Central. Plus précisément elle permet d'extraire un ensemble de documents pour détecter la cause d'une anomalie dans un reformatage de corpus.
Synopsis
NlmPmcResultSelect
-f
from
- rang du premier article à sélectionner (à partir de 0)-t
to
- rang du dernier article à sélectionner (à partir de 0)-p
imprime les balisespmc-articleset
pour un traitement ultérieur par
NlmPmc2Sxml
Exemple d'emploi
- Comptage du nombre d'articles dans un flot PubMed Central
cat FranceNcbiV0/Import/pmc_result_2004.xml | grep "<article " | wc
Exemple de résultat : 6252
- Détection d'une anomalie
Examiner le shell suspect par quelque chose comme :
more FranceNcbiV0/bin/PMC2004CorpusBiblio.sh
Puis reproduire l'erreur par :
cat FranceNcbiV0/Import/pmc_result_2004.xml \
| NlmPmc2Sxml | Utf8FromHexEntity \
| SxmlUnIndent | SxmlRecordPutKey \
| NlmPmc2CorpusTei -t FranceNcbiV0/Input/AreaParam.data.tab -s PMC2004 | wc
Si le résultat est différent du précédent (exemple 6202) une anomalie est probable.
- Extraction d'un jeu test
cat FranceNcbiV0/Import/pmc_result_2004.xml | NlmPmcResultSelect -p -f 6200 -t 6205 > testPmc.xml
- Vérification de la pertinence du jeu de test
cat testPmc.xml | grep "<article " | wc
cat testPmc.xml | NlmPmc2Sxml | Utf8FromHexEntity \
| SxmlUnIndent | SxmlRecordPutKey \
| NlmPmc2CorpusTei -t FranceNcbiV0/Input/AreaParam.data.tab -s PMC2004 | wc
- Affinage du jeu de test
cat testPmc.xml | NlmPmc2Sxml | Utf8FromHexEntity | SxmlUnIndent | SxmlRecordPutKey > testPmc1.xml
- Debogage
gdb NlmPmc2CorpusTei
...
run -t FranceNcbiV0/Input/AreaParam.data.tab -s PMC2004 < testPmc1.xml