Investigation sur des corpus ISTEX sous Unix : Différence entre versions

De Wicri Manuel
imported>Jacques Ducloy
(Reformatage en Sxml puis en TEI)
imported>Jacques Ducloy
(Extraire et traiter un corpus)
Ligne 53 : Ligne 53 :
 
</source>
 
</source>
 
===Extraire et traiter un corpus===
 
===Extraire et traiter un corpus===
====Téléchatgement====
+
====Téléchargement====
 
Pour extraire un corpus de métédonnées, il suffit d'ajouter l'option '''-t''' qui permet de préciser le type. A l'heure actuelle, l'option qui permet de réaliser des exploitations ultérieures est le format '''''mods'''''. Exemple :
 
Pour extraire un corpus de métédonnées, il suffit d'ajouter l'option '''-t''' qui permet de préciser le type. A l'heure actuelle, l'option qui permet de réaliser des exploitations ultérieures est le format '''''mods'''''. Exemple :
 
<source lang="sh">
 
<source lang="sh">
Ligne 60 : Ligne 60 :
 
====Reformatage en Sxml puis en TEI====
 
====Reformatage en Sxml puis en TEI====
 
La bibliothèque Dilib propose un ensemble d'outils bien adaptés à un environnement Unix. Pour cela, nous avons introduit une spécialisation de la norme XML, les [[Stream XML (Dilib)|streams XML]] (flux XML) ou Sxml.
 
La bibliothèque Dilib propose un ensemble d'outils bien adaptés à un environnement Unix. Pour cela, nous avons introduit une spécialisation de la norme XML, les [[Stream XML (Dilib)|streams XML]] (flux XML) ou Sxml.
 +
 +
La commande Dilib/Unix '''<code>IstexModsToSxml</code>''' permet de rendre un flux compatible avec la norme Sxml. Pour cela il suffit de la « ''piper'' » à la suite de la commande d'extraction. Ainsi la ligne suivante :
 +
<source lang="sh">
 +
IstexGetCorpus -q rabelais  -t mods -s 500 | IstexModsToSxml | wc
 +
</source>
 +
permet de vérifier le nombre de références effectivement importées.
 +
 +
La commande '''<code>IstexModsToTei</code>''' permet de reformater les notices mods en TEI. Il est alors possible d'appliquer des filtres de séléction.
 +
 +
====Curation des noms de pays====

Version du 13 novembre 2013 à 08:46

La bibliothèque Dilib contient des commandes qui permettent de manipuler des flux de documents XML.

Elles peuvent se combiner avec des commandes de base d'Unix.

Extraction de corpus, la commande IstexGetCorpus

La commande IstexGetCorpus permet de lancer des requêtes vers l'API ISTEX et de récupérer des ensembles de métadonnées.

Cette commande est documentée sur IstexGetCorpus.

Connaître le nombre de documents pertinents

Dans sa forme la plus simple, La commande IstexGetCorpus permet de connaître le nombre de documents pertinents pour une requête donnée. Par exemple :

IstexGetCorpus -q rabelais

permet de récupérer un ensemble de 10 documents de métadonnées d'ISTEX. Plus précisément le résultat est de la forme :

5254 bytes retrieved
{
  "total": 537,
  "hits": [
    {
      "id": "a1886225a67f15e5da0b8ce6d494c2e9941632e8",
      "metadata": [
        {
          "type": "mods",
          "mimetype": "application/mods+xml",
          "original": false,
          "uri": "https://api.istex.fr/a1886225a67f15e5da0b8ce6d494c2e9941632e8/metadata/mods"
        },
        {
          "type": "xml",
          "mimetype": "application/xml",
          "original": true,
          "uri": "https://api.istex.fr/a1886225a67f15e5da0b8ce6d494c2e9941632e8/metadata/xml"
        }
      ]
    },
  ...

Pour ne retenir que le nombre total, il suffit de combiner avec une commande grep. Par exemple :

IstexGetCorpus -q "rabelais" | grep total

Le résultat apparait ainsi

  "total": 537,

Il est possible de sélectionner un éditeur, par exemple :

IstexGetCorpus -q "rabelais" -e springer | grep total

Extraire et traiter un corpus

Téléchargement

Pour extraire un corpus de métédonnées, il suffit d'ajouter l'option -t qui permet de préciser le type. A l'heure actuelle, l'option qui permet de réaliser des exploitations ultérieures est le format mods. Exemple :

IstexGetCorpus -q rabelais  -t mods -s 500 | SgmlIndent | more

Reformatage en Sxml puis en TEI

La bibliothèque Dilib propose un ensemble d'outils bien adaptés à un environnement Unix. Pour cela, nous avons introduit une spécialisation de la norme XML, les streams XML (flux XML) ou Sxml.

La commande Dilib/Unix IstexModsToSxml permet de rendre un flux compatible avec la norme Sxml. Pour cela il suffit de la « piper » à la suite de la commande d'extraction. Ainsi la ligne suivante :

IstexGetCorpus -q rabelais  -t mods -s 500 | IstexModsToSxml | wc

permet de vérifier le nombre de références effectivement importées.

La commande IstexModsToTei permet de reformater les notices mods en TEI. Il est alors possible d'appliquer des filtres de séléction.

Curation des noms de pays