Discussion:Aussois
Le Serveur d'exploration sur Aussois a été initialisé dans un contexte de vacances (voir wicri-eau.fr:Utilisateur:Jacques Ducloy/Investigations aussoyennes sur les poissons acidophiles).
Sommaire
- 1 Pour les captures d'écran
- 2 Génération du serveur
- 3 Autour des ISSN et titres de revues
- 4 Identification des éditeurs
- 5 SxmlFindText pour rechercher les colloques
- 6 SxmlFindText pour la bibliographie sur Aussois en Maurienne
- 7 SxmlFindText pour les espèces arboricoles en Maurienne
- 8 Pays
- 9 Filtrage sur texte intégral à partir de l'étape Exploration
- 10 Problèmes à résoudre
- 11 Indicateurs de performance
- 12 Modèles améliorés dans le cadre du transfert
Pour les captures d'écran
Génération du serveur
Il a servi de jeu de test pour la commande wicri-outils.fr:Dilib, module Istex, génération des pages wiki.
- Wicri:AussoisV1 - introduction
- Wicri:AussoisV1/Paramètres, data - génération des données
- Wicri:AussoisV1/Paramètres, fr - génération de l'interface
- Wicri:AussoisV1/Paramètres, génération des cartes - génération de cartes géographiques
- Wicri:AussoisV1/Paramètres, templates size - paramétrage des modèles liés aux valeurs numériques
- Wicri:AussoisV1/Paramètres, template include
Autour des ISSN et titres de revues
Pour identifier les communautés présentes à Aussois, une première analyse a été réalisée à partir du fichier inverse des ISSN (sans manipulation informatique particulière).
Elaboration de la liste
Pour faciliter l'affichage d'une liste de titres (à la place des ISSN) un script a été réalisé :
HfdCat Data/Main/Corpus/biblio.hfd \
| SxmlSelect -g record/istex/metadata/mods/relatedItem@type=host/titleInfo/title/1 \
-g record/TEI/teiHeader/fileDesc/seriesStmt/idno/1 -p "<w><t>@g1</t><i>@g2</i></w>" -p @1 \
| sort | IndexBuildRec | SxmlSelect -g idx/f/1 -g idx/k -p @g1 -p @g2 | sort -rn \
| SxmlSelect -g k/w/t/1 -g k/w/i/1 \
-p "* ''@g1'' ({{Explor lien |wiki= Wicri/France \
|area= AussoisV1 |flux= Main |étape= Exploration \
|type= indexItem |index= ISSN.i |clé= @g2 | texte=@g2}} - @1 références)"
Elle génère :
|
Problèmes sur métadonnées liées aux publications en séries
Cet exercice a permis de mettre en évidence quelques problèmes de repérage des revues :
- Les Lecture notes in computer science figurent en première position des ISSN et disparaissent de l'extraction par titre.
- La fréquence de la revue Journal of Geophysical Research: Atmospheres marque un décalage de 8 références entre l'ISSN et le titre.
- Les Lecture notes in physics avec leurs 20 références disparaissent de l'extraction par titre.
Nouvelle version
Avec quelques développements (un élément sourceDesc/biblStruct a été généré à partir de celui fourni par ISTEX), un nouveau script a été testé :
HfdCat $EXPLOR_AREA/Data/Main/Corpus/biblio.hfd \
| SxmlSelect -g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/title/1 \
-g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno@type=ISSN/1 \
-p "<w><t>@g1</t><i>@g2</i></w>" -p @1 \
| sort | IndexBuildRec | SxmlSelect -g idx/f/1 -g idx/k -p @g1 -p @g2 | sort -rn \
| SxmlSelect -g k/w/t/1 -g k/w/i/1 \
-p "* ''@g1'' ({{Explor lien |wiki= Wicri/France \
|area= AussoisV1 |flux= Main |étape= Exploration \
|type= indexItem |index= ISSN.i |clé= @g2 | texte=@g2}} - @1 références)"
Il génère alors :
... |
Identification des éditeurs
HfdCat $EXPLOR_AREA/Data/Main/Corpus/biblio.hfd \
| SxmlSelect -g record/istex/corpusName/1 \
-g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno@type=ISSN/1 \
-p "<w><t>@g1</t><i>@g2</i></w>" -p @1 \
| sort | IndexBuildRec | SxmlSelect -g idx/f/1 -g idx/k -p @g1 -p @g2 | sort -rn \
| SxmlSelect -g k/w/t/1 -g k/w/i/1 \
-p "* ''@g1'' ({{Explor lien |wiki= Wicri/France \
|area= AussoisV1 |flux= Main |étape= Exploration \
|type= indexItem |index= ISSN.i |clé= @g2 | texte=@g2}} - @1 références)"
SxmlFindText pour rechercher les colloques
SxmlFindText est une commande Dilib qui permet de rechercher des termes ou des expressions régulières dans un ensemble de fichiers. Elle a été utilisée pour rechercher des références de colloques.
L'idée générale est que la citation d'un colloque est souvent de la forme « ville ... date ».
Pour repérer des colloques ayant eu lieu en 1970, on peut utiliser un script tel que :
HfdCat AussoisV1/Import/IstexRepository.hfd | SxmlFindText -s Aussois -b 50 -a 50 | grep 1970
On obtient alors une série de lignes telles que
000C40 1/11/4/2/1/1/452/3 istex/fulltext/istex:fulltextTEI/text/body/div/p[452]/l[3] 66 onference on Charge, Spin and Momentum Densities, Aussois , France, 9-12 September 1970;
Elles sont composées de zone successives :
Numéro HFD de document | 000C40
|
SxPath numérique (par position) | 1/11/4/2/1/1/452/3
|
Xpath par tag et rang | istex/fulltext/istex:fulltextTEI/text/body/div/p[452]/l[3]
|
offset de la chaîne dans l'élément XML | 66
|
chaîne qui précède la chaîne Aussois | onference on Charge, Spin and Momentum Densities,
|
La chaîne reconnue | Aussois
|
chaîne qui suit la chaîne Aussois | , France, 9-12 September 1970;
|
En jouant sur les options after et before (et sur le grep) on repère « à la main » les occurrences pertinentes.
Le numéro interne permet d'accéder au document (et donc au pdf correspondant).
SxmlFindText pour la bibliographie sur Aussois en Maurienne
Voir la page Wicri:Maurienne.
SxmlFindText pour les espèces arboricoles en Maurienne
HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd \
| SxmlFindText -D $EXPLOR_AREA/Maurienne.dict \
| grep -v Aussois \
| SxmlSelect -p @1 | sort -u \
| HfdSelect -Kh $EXPLOR_AREA/Import/IstexRepository.hfd \
| SxmlFindText -lD AussoisV1/treeEurope.w1.dict -B AussoisV1/treeEurope.bi.dict \
| SxmlSelect -p @5 -p @1 | sort -u | IndexBuildRec | SxmlSelect -g idx/f/1 -p @g1 -g idx/k/1 -p @g2 | sort -rn
Pays
- France (399)
- États-Unis (155)
- Allemagne (149)
- Royaume-Uni (101)
- Italie (59)
- Suisse (44)
- Russie (40)
- Pays-Bas (36)
- Espagne (30)
- Canada (30)
- Brésil (30)
- Japon (29)
- Belgique (26)
- Suède (17)
- République populaire de Chine (17)
- Pologne (16)
- Autriche (15)
- Danemark (14)
- Argentine (14)
- Finlande (11)
- Portugal (10)
- Inde (10)
- Lettonie (8)
- Israël (8)
- Australie (7)
- Roumanie (6)
- Grèce (6)
- Nouvelle-Zélande (4)
- Ukraine (3)
- Hongrie (3)
- Corée du Sud (3)
- Chili (3)
- Bulgarie (3)
- Thaïlande (2)
- Tchécoslovaquie (2)
- Taïwan (2)
- République tchèque (2)
- Norvège (2)
- Mexique (2)
- Irlande (pays) (2)
- Iran (2)
- Estonie (2)
- Algérie (2)
- Afrique du Sud (2)
- Turquie (1)
- Sénégal (1)
- Slovénie (1)
- Slovaquie (1)
- Namibie (1)
- Maroc (1)
Filtrage sur texte intégral à partir de l'étape Exploration
HfdIndexSelect -h $EXPLOR_AREA/Data/Main/Exploration/AffPays.i \
-Sk "Brésil" \
| HfdSelect -Kh $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd \
| SgmlFast -G publicationStmt \
| SxmlSelect -g publicationStmt/idno@type=RBID/1 -p @g1 \
| HfdIndexSelect -ISh $EXPLOR_AREA/Data/Main/Corpus/RBID.i \
| HfdSelect -Kh $EXPLOR_AREA/Import/IstexRepository.hfd \
| grep Aly | SxmlFindText -s Aussois -b 20 -a50
Problèmes à résoudre
- Universität Osnabrück - ??? Munster - résolu
Indicateurs de performance
Voir : Discussion Wicri:AussoisV1