Curation de corpus : Différence entre versions

De Wicri Manuel
imported>Jacques Ducloy
(Page créée avec « Cette page introduit quelques notes sur les opérations de curation des corpus dans le cadre d'une plateforme de curation et d'exploration. »)
 
imported>Jacques Ducloy
Ligne 1 : Ligne 1 :
 
Cette page introduit quelques notes sur les opérations de curation des corpus dans le cadre d'une [[plateforme de curation et d'exploration]].
 
Cette page introduit quelques notes sur les opérations de curation des corpus dans le cadre d'une [[plateforme de curation et d'exploration]].
 +
===Nettoyage du corpus===
 +
Une première recherche sur les pays de faible poids donne une dizaine de documents avec plusieurs milliers d'auteurs.
 +
 +
Pour améliorer le processus, un filtre a été mis au point.
 +
<source lang="sh">
 +
HfdCat Data/Main/Exploration/Author.i.hfd  \
 +
  | SxmlSelect -s idx/l/e/1 -p @s1 -p @1    \
 +
  | sort                                    \
 +
  | IndexBuildRec                          \
 +
  | SxmlSelect -g idx/k/1 -g idx/f/1 -p @g2 -p @g1  \
 +
  | sort -rn                                      \
 +
  | SxmlSelect -p @2 -p @1                        \
 +
  | HfdSelect -ih Data/Main/Exploration/biblio  \
 +
  | SxmlSelect -s record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=RBID/1    \
 +
    -g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno@type=ISSN/1 \
 +
    -p @s1 -p @g1 -p @2
 +
</source>

Version du 19 mars 2017 à 20:35

Cette page introduit quelques notes sur les opérations de curation des corpus dans le cadre d'une plateforme de curation et d'exploration.

Nettoyage du corpus

Une première recherche sur les pays de faible poids donne une dizaine de documents avec plusieurs milliers d'auteurs.

Pour améliorer le processus, un filtre a été mis au point.

HfdCat Data/Main/Exploration/Author.i.hfd   \
  | SxmlSelect -s idx/l/e/1 -p @s1 -p @1    \
  | sort                                    \
  | IndexBuildRec                           \
  | SxmlSelect -g idx/k/1 -g idx/f/1 -p @g2 -p @g1  \
  | sort -rn                                       \
  | SxmlSelect -p @2 -p @1                        \
  | HfdSelect -ih Data/Main/Exploration/biblio   \
  | SxmlSelect -s record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=RBID/1    \
     -g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno@type=ISSN/1 \
     -p @s1 -p @g1 -p @2