Curation d'organismes sur des corpus CCSD/HAL

De Wicri Manuel

Cette page rassemble des informations utiles pour traiter les corpus issus du service Hyper article en ligne (HAL) du Centre pour la communication scientifique et directe (CCSD).

logo travaux Cette page est actuellement réduite à un ensemble de notes

Extraction des corpus et génération

Voir sur ce wiki : Hyper article en ligne

Procédure générale

Les mécanismes de curation actuellement implantés sont basées sur les zones tutelles des notices de métadonnées du CCSD.

...

Recherche sur les tutelles

Pour faire une recherche textuelle dans les tutelles, on peut extraire les zones tutelles et les filtrer par une commande telle que grep.

Le script ci dessous montre comment vérifier si l'UMR 5505 (IRIT) est présente dans les tutelles de la plateforme ArcheoLaboV1.

HfdCat ArcheoLaboV1/Data/Main/Curation/biblio.hfd  \
   | SgmlFast -s titleStmt                         \
   | SgmlSelect -s titleStmt/author/affiliation -p @2 -p @s1 \
   | SgmlFast -s tutelle | grep 5505 | grep UMR