Utilisations avancées sur des corpus ISTEX
Cette page introduit un ensemble de commandes qui fournissent des palliatifs pour des fonctions qui ne sont pas encore installées dans les serveurs d'exploration.
Recherche d'un auteur
Les fonctions de recherche sur index ne sont pas encore réalisées. Il est cependant relativement facile d'explorer des fichiers inverses par des commandes Unix.
Par exemple, pour trouver les auteurs dont le patronyme est « Martin », on peut utiliser ainsi les commandes grep et HfdCat :
HfdCat FraxinusV4/Data/Main/Exploration/Author.i.hfd | grep Martin
On obtient alors une sortie telle que :
001614 <idx><kw>Marie-Hélène Martin</kw><lc>mariehélène martin</lc><f>1</f><l><e>000249</e></l></idx>
001634 <idx><kw>Martin C. Michener</kw><lc>martin c michener</lc><f>1</f><l><e>000B39</e></l></idx>
001635 <idx><kw>Martin Erdelen</kw><lc>martin erdelen</lc><f>1</f><l><e>001021</e></l></idx>
001636 <idx><kw>Martin F. Quigley</kw><lc>martin f quigley</lc><f>1</f><l><e>000861</e></l></idx>
001637 <idx><kw>Martin H. Zimmermann</kw><lc>martin h zimmermann</lc><f>1</f><l><e>000029</e></l></idx>
001638 <idx><kw>Martin Hering</kw><lc>martin hering</lc><f>1</f><l><e>001492</e></l></idx>
001639 <idx><kw>Martin Hermy</kw><lc>martin hermy</lc><f>2</f><l><e>000D93</e><e>000F97</e></l></idx>
Recherche des ISSN associés à un auteur
Exemple, dans le serveur d'exploration sur Mozart, on recherche les ISSN associés à l'auteur « Mozart Ramos » (Pour accéder à la page de cet auteur dans l'étape Corpus du flux ISTEX).
En fin de page on trouve une succession de commandes permettant de récupérer la liste des références de cet auteur :
HfdIndexSelect -h $EXPLOR_AREA/Data/Istex/Corpus/Author.i \ -Sk "Mozart Ramos" \ | HfdSelect -Kh $EXPLOR_AREA/Data/Istex/Corpus/biblio.hfd
La commande
HfdIndexSelect -h $EXPLOR_AREA/Data/Istex/Corpus/Author.i -k "Mozart Ramos"
renvoie ici un enregistrement d'un fichier inverse :
<idx><kw>Mozart Ramos</kw><f>33</f><l><e>000B82</e><e>000C69</e><e>000C80</e> ...
L'option -S permet d'extraire les lés HFD des documents (en supprimant le balisage XML)
000B82 000C69 000C80 000D46 ...
Cette liste de clé est donnée en entrée à la commande HfdSelect sur le HFD bibliographie.
On peut alors en extraire les ISSN par un appel à la commande SxmlSelect
SxmlSelect \ -g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno@type=ISSN/1 \ -p @g1 -p @1
On obtient alors une liste de couples « ISSN <-> clé HFD »:
1386-1425 000B82 1386-1425 000B82 0020-7608 000C69 0020-7608 000C69
Cette liste peut ensuite être triée pour être passée à la commande IndexBuildRec qui va regrouper les clés HFD par ISSN. La suite de commande complète est maintenant :
HfdIndexSelect -h $EXPLOR_AREA/Data/Istex/Corpus/Author.i \ -Sk "Mozart Ramos" \ | HfdSelect -Kh $EXPLOR_AREA/Data/Istex/Corpus/biblio.hfd \ | SxmlSelect \ -g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno@type=ISSN/1 \ record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno@type=eISSN/1 \ -p @g1 -p @1 \ | sort -u | IndexBuildRec