Utilisations avancées sur des corpus ISTEX

De Wicri Manuel

Cette page introduit un ensemble de commandes qui fournissent des palliatifs pour des fonctions qui ne sont pas encore installées dans les serveurs d'exploration.

Recherche d'un auteur

Les fonctions de recherche sur index ne sont pas encore réalisées. Il est cependant relativement facile d'explorer des fichiers inverses par des commandes Unix.

Par exemple, pour trouver les auteurs dont le patronyme est « Martin », on peut utiliser ainsi les commandes grep et HfdCat :

HfdCat FraxinusV4/Data/Main/Exploration/Author.i.hfd | grep Martin

On obtient alors une sortie telle que :

001614	<idx><kw>Marie-Hélène Martin</kw><lc>mariehélène martin</lc><f>1</f><l><e>000249</e></l></idx>
001634	<idx><kw>Martin C. Michener</kw><lc>martin c michener</lc><f>1</f><l><e>000B39</e></l></idx>
001635	<idx><kw>Martin Erdelen</kw><lc>martin erdelen</lc><f>1</f><l><e>001021</e></l></idx>
001636	<idx><kw>Martin F. Quigley</kw><lc>martin f quigley</lc><f>1</f><l><e>000861</e></l></idx>
001637	<idx><kw>Martin H. Zimmermann</kw><lc>martin h zimmermann</lc><f>1</f><l><e>000029</e></l></idx>
001638	<idx><kw>Martin Hering</kw><lc>martin hering</lc><f>1</f><l><e>001492</e></l></idx>
001639	<idx><kw>Martin Hermy</kw><lc>martin hermy</lc><f>2</f><l><e>000D93</e><e>000F97</e></l></idx>

Recherche des ISSN associés à un auteur

Exemple, dans le serveur d'exploration sur Mozart, on recherche les ISSN associés à l'auteur « Mozart Ramos » (Pour accéder à la page de cet auteur dans l'étape Corpus du flux ISTEX).

En fin de page on trouve une succession de commandes permettant de récupérer la liste des références de cet auteur :

HfdIndexSelect -h $EXPLOR_AREA/Data/Istex/Corpus/Author.i  \
               -Sk "Mozart Ramos" \
        | HfdSelect -Kh $EXPLOR_AREA/Data/Istex/Corpus/biblio.hfd

La commande

 HfdIndexSelect -h $EXPLOR_AREA/Data/Istex/Corpus/Author.i -k "Mozart Ramos"

renvoie ici un enregistrement d'un fichier inverse :

<idx><kw>Mozart Ramos</kw><f>33</f><l><e>000B82</e><e>000C69</e><e>000C80</e> ...

L'option -S permet d'extraire les lés HFD des documents (en supprimant le balisage XML)

000B82
000C69
000C80
000D46
...

Cette liste de clé est donnée en entrée à la commande HfdSelect sur le HFD bibliographie.

On peut alors en extraire les ISSN par un appel à la commande SxmlSelect

 SxmlSelect                              \
    -g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno@type=ISSN/1  \
    -p @g1 -p @1

On obtient alors une liste de couples « ISSN <-> clé HFD »:

1386-1425       000B82
1386-1425       000B82
0020-7608       000C69
0020-7608       000C69

Cette liste peut ensuite être triée pour être passée à la commande IndexBuildRec qui va regrouper les clés HFD par ISSN. La suite de commande complète est maintenant :

 HfdIndexSelect -h $EXPLOR_AREA/Data/Istex/Corpus/Author.i              \
               -Sk "Mozart Ramos"                                       \
 | HfdSelect -Kh $EXPLOR_AREA/Data/Istex/Corpus/biblio.hfd       \
 | SxmlSelect                                                         \
    -g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno@type=ISSN/1  \
      record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno@type=eISSN/1  \
    -p @g1 -p @1   \
 | sort -u | IndexBuildRec