Utilisations avancées sur des corpus ISTEX : Différence entre versions

De Wicri Manuel
imported>Jacques Ducloy
(Recherche des ISSN associés à un auteur)
imported>Jacques Ducloy
m (11 révisions importées)
 
(6 révisions intermédiaires par le même utilisateur non affichées)
Ligne 19 : Ligne 19 :
 
</source>
 
</source>
 
==Recherche des ISSN associés à un auteur==
 
==Recherche des ISSN associés à un auteur==
Exemple, dans le serveur d'exploration sur Mozart, on recherche les ISSN associés à l'auteur « Mozart Ramos »
+
Exemple, dans le serveur d'exploration sur Mozart, on recherche les ISSN associés à l'auteur « Mozart Ramos » ({{Explor lien
{{Explor lien
 
 
   |wiki=    Wicri/Musique
 
   |wiki=    Wicri/Musique
 
   |area=    MozartV1
 
   |area=    MozartV1
Ligne 29 : Ligne 28 :
 
   |clé=    Mozart Ramos
 
   |clé=    Mozart Ramos
 
   |texte= Pour accéder à la page de cet auteur dans l'étape Corpus du flux ISTEX
 
   |texte= Pour accéder à la page de cet auteur dans l'étape Corpus du flux ISTEX
}}
+
}}).
 +
 
 +
En fin de page on trouve une succession de commandes permettant de récupérer la liste des références de cet auteur :
 +
 
 +
[[Dilib, module Hfd, commande HfdIndexSelect|HfdIndexSelect]] -h $EXPLOR_AREA/Data/Istex/Corpus/Author.i  \
 +
                -Sk "Mozart Ramos" \
 +
        | HfdSelect -Kh $EXPLOR_AREA/Data/Istex/Corpus/biblio.hfd
 +
 
 +
La commande
 +
  HfdIndexSelect -h $EXPLOR_AREA/Data/Istex/Corpus/Author.i -k "Mozart Ramos"
 +
renvoie ici un enregistrement d'un fichier inverse :
 +
<idx><kw>Mozart Ramos</kw><f>33</f><l><e>000B82</e><e>000C69</e><e>000C80</e> ...
 +
L'option -S permet d'extraire les lés HFD des documents (en supprimant le balisage XML)
 +
000B82
 +
000C69
 +
000C80
 +
000D46
 +
...
 +
Cette liste de clé est donnée en entrée à la commande HfdSelect sur le HFD bibliographie.
 +
 
 +
On peut alors en extraire les ISSN par un appel à la commande SxmlSelect
 +
 
 +
  SxmlSelect                              \
 +
    -g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno@type=ISSN/1  \
 +
    -p @g1 -p @1
 +
 
 +
On obtient alors une liste de couples « ISSN <-> clé HFD »:
 +
1386-1425      000B82
 +
1386-1425      000B82
 +
0020-7608      000C69
 +
0020-7608      000C69
 +
Cette liste peut ensuite être triée pour être passée à la commande IndexBuildRec qui va regrouper les clés HFD par ISSN. La suite de commande complète est maintenant :
 +
 
 +
  HfdIndexSelect -h $EXPLOR_AREA/Data/Istex/Corpus/Author.i              \
 +
                -Sk "Mozart Ramos"                                      \
 +
  | HfdSelect -Kh $EXPLOR_AREA/Data/Istex/Corpus/biblio.hfd      \
 +
  | SxmlSelect                                                        \
 +
    -g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno@type=ISSN/1  \
 +
      record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno@type=eISSN/1  \
 +
    -p @g1 -p @1  \
 +
  | sort -u | IndexBuildRec

Version actuelle datée du 24 juin 2017 à 18:18

Cette page introduit un ensemble de commandes qui fournissent des palliatifs pour des fonctions qui ne sont pas encore installées dans les serveurs d'exploration.

Recherche d'un auteur

Les fonctions de recherche sur index ne sont pas encore réalisées. Il est cependant relativement facile d'explorer des fichiers inverses par des commandes Unix.

Par exemple, pour trouver les auteurs dont le patronyme est « Martin », on peut utiliser ainsi les commandes grep et HfdCat :

HfdCat FraxinusV4/Data/Main/Exploration/Author.i.hfd | grep Martin

On obtient alors une sortie telle que :

001614	<idx><kw>Marie-Hélène Martin</kw><lc>mariehélène martin</lc><f>1</f><l><e>000249</e></l></idx>
001634	<idx><kw>Martin C. Michener</kw><lc>martin c michener</lc><f>1</f><l><e>000B39</e></l></idx>
001635	<idx><kw>Martin Erdelen</kw><lc>martin erdelen</lc><f>1</f><l><e>001021</e></l></idx>
001636	<idx><kw>Martin F. Quigley</kw><lc>martin f quigley</lc><f>1</f><l><e>000861</e></l></idx>
001637	<idx><kw>Martin H. Zimmermann</kw><lc>martin h zimmermann</lc><f>1</f><l><e>000029</e></l></idx>
001638	<idx><kw>Martin Hering</kw><lc>martin hering</lc><f>1</f><l><e>001492</e></l></idx>
001639	<idx><kw>Martin Hermy</kw><lc>martin hermy</lc><f>2</f><l><e>000D93</e><e>000F97</e></l></idx>

Recherche des ISSN associés à un auteur

Exemple, dans le serveur d'exploration sur Mozart, on recherche les ISSN associés à l'auteur « Mozart Ramos » (Pour accéder à la page de cet auteur dans l'étape Corpus du flux ISTEX).

En fin de page on trouve une succession de commandes permettant de récupérer la liste des références de cet auteur :

HfdIndexSelect -h $EXPLOR_AREA/Data/Istex/Corpus/Author.i  \
               -Sk "Mozart Ramos" \
        | HfdSelect -Kh $EXPLOR_AREA/Data/Istex/Corpus/biblio.hfd

La commande

 HfdIndexSelect -h $EXPLOR_AREA/Data/Istex/Corpus/Author.i -k "Mozart Ramos"

renvoie ici un enregistrement d'un fichier inverse :

<idx><kw>Mozart Ramos</kw><f>33</f><l><e>000B82</e><e>000C69</e><e>000C80</e> ...

L'option -S permet d'extraire les lés HFD des documents (en supprimant le balisage XML)

000B82
000C69
000C80
000D46
...

Cette liste de clé est donnée en entrée à la commande HfdSelect sur le HFD bibliographie.

On peut alors en extraire les ISSN par un appel à la commande SxmlSelect

 SxmlSelect                              \
    -g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno@type=ISSN/1  \
    -p @g1 -p @1

On obtient alors une liste de couples « ISSN <-> clé HFD »:

1386-1425       000B82
1386-1425       000B82
0020-7608       000C69
0020-7608       000C69

Cette liste peut ensuite être triée pour être passée à la commande IndexBuildRec qui va regrouper les clés HFD par ISSN. La suite de commande complète est maintenant :

 HfdIndexSelect -h $EXPLOR_AREA/Data/Istex/Corpus/Author.i              \
               -Sk "Mozart Ramos"                                       \
 | HfdSelect -Kh $EXPLOR_AREA/Data/Istex/Corpus/biblio.hfd       \
 | SxmlSelect                                                         \
    -g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno@type=ISSN/1  \
      record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno@type=eISSN/1  \
    -p @g1 -p @1   \
 | sort -u | IndexBuildRec