Curation de corpus : Différence entre versions

De Wicri Manuel
imported>Jacques Ducloy
(Nettoyage du corpus)
imported>Jacques Ducloy
m (3 révisions importées)
 
(Aucune différence)

Version actuelle datée du 24 juin 2017 à 13:11

Cette page introduit quelques notes sur les opérations de curation des corpus dans le cadre d'une plateforme de curation et d'exploration.

logo travaux page réduite à une simple liste de notes

Élimination de documents perturbants

Une première recherche sur les pays de faible poids donne une dizaine de documents avec plusieurs milliers d'auteurs.

Pour améliorer le processus, un filtre a été mis au point.

HfdCat Data/Main/Exploration/Author.i.hfd   \
  | SxmlSelect -s idx/l/e/1 -p @s1 -p @1    \
  | sort                                    \
  | IndexBuildRec                           \
  | SxmlSelect -g idx/k/1 -g idx/f/1 -p @g2 -p @g1  \
  | sort -rn                                       \
  | SxmlSelect -p @2 -p @1                        \
  | HfdSelect -ih Data/Main/Exploration/biblio   \
  | SxmlSelect -s record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=RBID/1    \
     -g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno@type=ISSN/1 \
     -p @s1 -p @g1 -p @2