Utilisations avancées sur des corpus ISTEX : Différence entre versions

De Wicri Manuel
imported>Jacques Ducloy
(Recherche des ISSN associés à un auteur)
imported>Jacques Ducloy
(Recherche des ISSN associés à un auteur)
Ligne 35 : Ligne 35 :
 
                 -Sk "Mozart Ramos" \
 
                 -Sk "Mozart Ramos" \
 
         | HfdSelect -Kh $EXPLOR_AREA/Data/Istex/Corpus/biblio.hfd
 
         | HfdSelect -Kh $EXPLOR_AREA/Data/Istex/Corpus/biblio.hfd
 +
 +
La commande
 +
  HfdIndexSelect -h $EXPLOR_AREA/Data/Istex/Corpus/Author.i -k "Mozart Ramos"
 +
renvoie ici un enregistrement d'un fichier inverse :
 +
<idx><kw>Mozart Ramos</kw><f>33</f><l><e>000B82</e><e>000C69</e><e>000C80</e> ...
 +
L'option -S permet d'extraire les lés HFD des documents (en supprimant le balisage XML)
 +
000B82
 +
000C69
 +
000C80
 +
000D46
 +
...
 +
Cette liste de clé est donnée en entrée à la commande HfdSelect sur le HFD bibliographie.

Version du 15 février 2016 à 00:14

Cette page introduit un ensemble de commandes qui fournissent des palliatifs pour des fonctions qui ne sont pas encore installées dans les serveurs d'exploration.

Recherche d'un auteur

Les fonctions de recherche sur index ne sont pas encore réalisées. Il est cependant relativement facile d'explorer des fichiers inverses par des commandes Unix.

Par exemple, pour trouver les auteurs dont le patronyme est « Martin », on peut utiliser ainsi les commandes grep et HfdCat :

HfdCat FraxinusV4/Data/Main/Exploration/Author.i.hfd | grep Martin

On obtient alors une sortie telle que :

001614	<idx><kw>Marie-Hélène Martin</kw><lc>mariehélène martin</lc><f>1</f><l><e>000249</e></l></idx>
001634	<idx><kw>Martin C. Michener</kw><lc>martin c michener</lc><f>1</f><l><e>000B39</e></l></idx>
001635	<idx><kw>Martin Erdelen</kw><lc>martin erdelen</lc><f>1</f><l><e>001021</e></l></idx>
001636	<idx><kw>Martin F. Quigley</kw><lc>martin f quigley</lc><f>1</f><l><e>000861</e></l></idx>
001637	<idx><kw>Martin H. Zimmermann</kw><lc>martin h zimmermann</lc><f>1</f><l><e>000029</e></l></idx>
001638	<idx><kw>Martin Hering</kw><lc>martin hering</lc><f>1</f><l><e>001492</e></l></idx>
001639	<idx><kw>Martin Hermy</kw><lc>martin hermy</lc><f>2</f><l><e>000D93</e><e>000F97</e></l></idx>

Recherche des ISSN associés à un auteur

Exemple, dans le serveur d'exploration sur Mozart, on recherche les ISSN associés à l'auteur « Mozart Ramos » (Pour accéder à la page de cet auteur dans l'étape Corpus du flux ISTEX).

En fin de page on trouve une succession de commandes permettant de récupérer la liste des références de cet auteur :

HfdIndexSelect -h $EXPLOR_AREA/Data/Istex/Corpus/Author.i  \
               -Sk "Mozart Ramos" \
        | HfdSelect -Kh $EXPLOR_AREA/Data/Istex/Corpus/biblio.hfd

La commande

 HfdIndexSelect -h $EXPLOR_AREA/Data/Istex/Corpus/Author.i -k "Mozart Ramos"

renvoie ici un enregistrement d'un fichier inverse :

<idx><kw>Mozart Ramos</kw><f>33</f><l><e>000B82</e><e>000C69</e><e>000C80</e> ...

L'option -S permet d'extraire les lés HFD des documents (en supprimant le balisage XML)

000B82
000C69
000C80
000D46
...

Cette liste de clé est donnée en entrée à la commande HfdSelect sur le HFD bibliographie.