Curation de corpus : Différence entre versions
De Wicri Manuel
imported>Jacques Ducloy |
imported>Jacques Ducloy m (3 révisions importées) |
||
(Une révision intermédiaire par le même utilisateur non affichée) | |||
Ligne 1 : | Ligne 1 : | ||
Cette page introduit quelques notes sur les opérations de curation des corpus dans le cadre d'une [[plateforme de curation et d'exploration]]. | Cette page introduit quelques notes sur les opérations de curation des corpus dans le cadre d'une [[plateforme de curation et d'exploration]]. | ||
− | === | + | {{Wicri travaux|texte=page réduite à une simple liste de notes}} |
+ | ==Élimination de documents perturbants== | ||
Une première recherche sur les pays de faible poids donne une dizaine de documents avec plusieurs milliers d'auteurs. | Une première recherche sur les pays de faible poids donne une dizaine de documents avec plusieurs milliers d'auteurs. | ||
Version actuelle datée du 24 juin 2017 à 13:11
Cette page introduit quelques notes sur les opérations de curation des corpus dans le cadre d'une plateforme de curation et d'exploration.
Élimination de documents perturbants
Une première recherche sur les pays de faible poids donne une dizaine de documents avec plusieurs milliers d'auteurs.
Pour améliorer le processus, un filtre a été mis au point.
HfdCat Data/Main/Exploration/Author.i.hfd \
| SxmlSelect -s idx/l/e/1 -p @s1 -p @1 \
| sort \
| IndexBuildRec \
| SxmlSelect -g idx/k/1 -g idx/f/1 -p @g2 -p @g1 \
| sort -rn \
| SxmlSelect -p @2 -p @1 \
| HfdSelect -ih Data/Main/Exploration/biblio \
| SxmlSelect -s record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=RBID/1 \
-g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno@type=ISSN/1 \
-p @s1 -p @g1 -p @2