Investigation sur des corpus ISTEX sous Unix : Différence entre versions
De Wicri Manuel
imported>Jacques Ducloy (→Extraction de corpus, la commande IstexGetCorpus) |
imported>Jacques Ducloy (→=Connaître le nombre de documents pertinents) |
||
Ligne 6 : | Ligne 6 : | ||
La commande <code>IstexGetCorpus</code> permet de lancer des requêtes vers l'API ISTEX et de récupérer des ensembles de métadonnées. | La commande <code>IstexGetCorpus</code> permet de lancer des requêtes vers l'API ISTEX et de récupérer des ensembles de métadonnées. | ||
− | ===Connaître le nombre de documents pertinents== | + | ===Connaître le nombre de documents pertinents=== |
− | Dans sa forme la plus simple, | + | Dans sa forme la plus simple, La commande <code>IstexGetCorpus</code> permet de connaître le nombre de documents pertinents pour une requête donnée. Par exemple : |
<source lang=sh> | <source lang=sh> | ||
IstexGetCorpus -q rabelais | IstexGetCorpus -q rabelais |
Version du 12 novembre 2013 à 19:01
La bibliothèque Dilib contient des commandes qui permettent de manipuler des flux de documents XML.
Elles peuvent se combiner avec des commandes de base d'Unix.
Extraction de corpus, la commande IstexGetCorpus
La commande IstexGetCorpus
permet de lancer des requêtes vers l'API ISTEX et de récupérer des ensembles de métadonnées.
Connaître le nombre de documents pertinents
Dans sa forme la plus simple, La commande IstexGetCorpus
permet de connaître le nombre de documents pertinents pour une requête donnée. Par exemple :
IstexGetCorpus -q rabelais
permet de récupérer un ensemble de 10 documents de métadonnées d'ISTEX. Plus précisément le résultat est de la forme :
5254 bytes retrieved { "total": 537, "hits": [ { "id": "a1886225a67f15e5da0b8ce6d494c2e9941632e8", "metadata": [ { "type": "mods", "mimetype": "application/mods+xml", "original": false, "uri": "https://api.istex.fr/a1886225a67f15e5da0b8ce6d494c2e9941632e8/metadata/mods" }, { "type": "xml", "mimetype": "application/xml", "original": true, "uri": "https://api.istex.fr/a1886225a67f15e5da0b8ce6d494c2e9941632e8/metadata/xml" } ] }, ...
Pour ne retenir que le nombre total, il suffit de combiner avec une commande grep. Par exemple :
IstexGetCorpus -q "rabelais" | grep total
Le résultat apparait ainsi
"total": 537,