Curation de corpus
De Wicri Manuel
Révision datée du 24 juin 2017 à 13:11 par imported>Jacques Ducloy (3 révisions importées)
Cette page introduit quelques notes sur les opérations de curation des corpus dans le cadre d'une plateforme de curation et d'exploration.
Élimination de documents perturbants
Une première recherche sur les pays de faible poids donne une dizaine de documents avec plusieurs milliers d'auteurs.
Pour améliorer le processus, un filtre a été mis au point.
HfdCat Data/Main/Exploration/Author.i.hfd \
| SxmlSelect -s idx/l/e/1 -p @s1 -p @1 \
| sort \
| IndexBuildRec \
| SxmlSelect -g idx/k/1 -g idx/f/1 -p @g2 -p @g1 \
| sort -rn \
| SxmlSelect -p @2 -p @1 \
| HfdSelect -ih Data/Main/Exploration/biblio \
| SxmlSelect -s record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=RBID/1 \
-g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno@type=ISSN/1 \
-p @s1 -p @g1 -p @2