Investigation sur des corpus ISTEX sous Unix : Différence entre versions

De Wicri Manuel
imported>Jacques Ducloy
(Page créée avec « La bibliothèque Dilib contient des commandes qui permettent de manipuler des flux de documents XML. Elles peuvent se combiner avec des commandes de base d'Unix. ==Extracti... »)
 
imported>Jacques Ducloy
(Extraction de corpus, la commande IstexGetCorpus)
Ligne 5 : Ligne 5 :
 
==Extraction de corpus, la commande <code>IstexGetCorpus</code>==
 
==Extraction de corpus, la commande <code>IstexGetCorpus</code>==
  
La commande <code>IstexGetCorpus</code> permet de lancer des requêtes vers l'API ISTEX.
+
La commande <code>IstexGetCorpus</code> permet de lancer des requêtes vers l'API ISTEX et de récupérer des ensembles de métadonnées.
 +
 
 +
Dans sa forme la plus simple, elle permet de connaître le nombre de documents pertinents. Par exemple :
 +
<source lang=sh>
 +
IstexGetCorpus -q Rabelais
 +
</source>
 +
permet de récupérer un ensemble de 10 documents de métadonnées d'ISTEX. Plus précisément le résultat est de la forme :
 +
<pre>
 +
5254 bytes retrieved
 +
{
 +
  "total": 537,
 +
  "hits": [
 +
    {
 +
      "id": "a1886225a67f15e5da0b8ce6d494c2e9941632e8",
 +
      "metadata": [
 +
        {
 +
          "type": "mods",
 +
          "mimetype": "application/mods+xml",
 +
          "original": false,
 +
          "uri": "https://api.istex.fr/a1886225a67f15e5da0b8ce6d494c2e9941632e8/metadata/mods"
 +
        },
 +
        {
 +
          "type": "xml",
 +
          "mimetype": "application/xml",
 +
          "original": true,
 +
          "uri": "https://api.istex.fr/a1886225a67f15e5da0b8ce6d494c2e9941632e8/metadata/xml"
 +
        }
 +
      ]
 +
    },
 +
 
 +
</pre>

Version du 10 novembre 2013 à 20:49

La bibliothèque Dilib contient des commandes qui permettent de manipuler des flux de documents XML.

Elles peuvent se combiner avec des commandes de base d'Unix.

Extraction de corpus, la commande IstexGetCorpus

La commande IstexGetCorpus permet de lancer des requêtes vers l'API ISTEX et de récupérer des ensembles de métadonnées.

Dans sa forme la plus simple, elle permet de connaître le nombre de documents pertinents. Par exemple :

IstexGetCorpus -q Rabelais

permet de récupérer un ensemble de 10 documents de métadonnées d'ISTEX. Plus précisément le résultat est de la forme :

5254 bytes retrieved
{
  "total": 537,
  "hits": [
    {
      "id": "a1886225a67f15e5da0b8ce6d494c2e9941632e8",
      "metadata": [
        {
          "type": "mods",
          "mimetype": "application/mods+xml",
          "original": false,
          "uri": "https://api.istex.fr/a1886225a67f15e5da0b8ce6d494c2e9941632e8/metadata/mods"
        },
        {
          "type": "xml",
          "mimetype": "application/xml",
          "original": true,
          "uri": "https://api.istex.fr/a1886225a67f15e5da0b8ce6d494c2e9941632e8/metadata/xml"
        }
      ]
    },