Wicri:GrippeCanadaV4/Paramètres, corpus
De Wicri Santé
Cette page introduit les éléments pour la création des corpus de la version GrippeCanadaV4 du « Serveur d'exploration sur la grippe au Canada ».
Voir aussi :
- Wicri:GrippeCanadaV4/Paramètres, data - génération des données
- Wicri:GrippeCanadaV4/Paramètres, fr - paramètres de navigation.
- Wicri:GrippeCanadaV4/Paramètres, size - génération des modèles liés aux valeurs numériques
- Wicri:GrippeCanadaV4/Paramètres, maps - génération de cartes géographiques
- Wicri:GrippeCanadaV4/Paramètres, include - génération du modèle d'affichage des résultats bruts
Corpus PubMed Central
Création du fichier pmc_result.xml par téléchargement
- Test initial
- nombre de liens vers pmc dans le corpus
HfdCat $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd \
| SxmlSelect -g record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=pmc/1 -p@g1 \
| wc
- Téléchargement
HfdCat $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd \
| SxmlSelect -g record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=pmc/1 -p@g1 \
| NlmPmcGetCorpusById > $EXPLOR_AREA/Import/pmc_result.xml
- Vérification
- nombre de documents téléchargés
cat $EXPLOR_AREA/Import/pmc_result.xml | grep "</article>" | wc
Création du HFD repository
NlmPubMedExplorCorpusWithPmc
Corpus Istex
Création du HFD repository Istex
Sur la machine LorExplor
HfdCat $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd \
| SxmlSelect -g record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=doi/1 -p@g1 \
| IstexGetCorpusById -i doi -A \
| SxmlUnIndent \
| HfdBuild -bh $EXPLOR_AREA/Istex/repository
cd $EXPLOR_AREA
tar -cvf Istex.tar Istex
gzip Istex.tar
Sur la machine de développement
scp $ISTEX_SCP:$WICRI_TARGET_ROOT/Sante/explor/GrippeCanada.storage/GrippeCanadaV4/Istex.tar.gz .
gunzip Istex.tar.gz
tar -xvf Istex.tar
mkdir $EXPLOR_AREA/Istex
mv Istex $EXPLOR_AREA/Istex/Corpus
Création du HFD metadata Istex
HfdCat $EXPLOR_AREA/FixData/Istex/Corpus/repository.hfd \
| SgmlFast -c1 \
| IstexToTei \
| IstexCleanFullText \
| TeiPutRefToIdno -t wicri:Area/Istex/Corpus -c ISTEX -s Corpus -S Istex \
| HfdBuild -h $EXPLOR_AREA/FixData/Istex/Corpus/metadata
Création des fichiers de correspondances
HfdCat $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd \
| SxmlSelect -g record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=doi/1 -p @g1 -p @1 \
| sort > $EXPLOR_AREA/FixInput/doiToHfdRefPubMed.dict
HfdCat $EXPLOR_AREA/FixData/Istex/Corpus/metadata.hfd \
| SxmlSelect -g record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=doi/1 -p @g1 -p @1 \
| sort > $EXPLOR_AREA/FixInput/doiToHfdRefIstex.dict
cat $EXPLOR_AREA/FixInput/doiToHfdRefPubMed.dict \
| StrDictSelect -t $EXPLOR_AREA/FixInput/doiToHfdRefIstex.dict -sr \
| sort > $EXPLOR_AREA/FixInput/HfdIstexRepo2HfdPubMed.dict
Voir aussi
Cette page est générée à partir de