Visite Ticri CIDE : Différence entre versions

De CIDE
imported>Jacques Ducloy
(Les serveurs d'exploration)
imported>Jacques Ducloy
 
(36 révisions intermédiaires par le même utilisateur non affichées)
Ligne 1 : Ligne 1 :
{{Titre page article|titre=Visite guidée du wiki Ticri/CIDE}}Cette page est principalement destinée aux personnes impliqués dans des activités en rapport avec ce wiki (Ticri/CIDE), et notamment les :
+
{{Titre page article|titre=Visite guidée du wiki Ticri/CIDE}}Cette page a été initialement rédigée pour personnes impliqués dans des activités en rapport avec ce wiki (Ticri/CIDE), et notamment les :
* [[TD Master 2 Documentation numérique (Université de Lorraine 2016)|les étudiants en Master 2 Documentation numérique de l'Université de Lorraine]],  
+
* les étudiants en Master 2
* [[CIDE:Expérimenter l'épistémè numérique avec ISTEX, l'atelier|les participants à l'atelier « ''Expérimenter l'épistémè numérique avec ISTEX'' »]].
+
** [[TD Master 2 Documentation numérique (Université de Lorraine 2016)|Documentation numérique de l'Université de Lorraine]],  
 +
** [[TD Master 2 (Université Paris 8, 2016)|Gestion Stratégique l'Information  (GSI) et Analyse et Valorisation des Usages Numériques (AVUN) de l'Université Paris 8]].
 +
* [[CIDE:Expérimenter l'épistémè numérique avec ISTEX, l'atelier|les participants à l'atelier « ''Expérimenter l'épistémè numérique avec ISTEX'' »]],
 +
Elle est plutôt destinée à un public ayant une culture initiale dans le document numérique.
 
==Le wiki Ticri/CIDE==
 
==Le wiki Ticri/CIDE==
 
Le contenu éditorial du wiki Ticri/CIDE est principalement centré sur la valorisations des actes des colloques [[CIDE]]. On y trouve notamment :
 
Le contenu éditorial du wiki Ticri/CIDE est principalement centré sur la valorisations des actes des colloques [[CIDE]]. On y trouve notamment :
 
* des '''articles en texte intégral''' « stucturé wiki » comme par exemple :
 
* des '''articles en texte intégral''' « stucturé wiki » comme par exemple :
 
** l'article de la toute première communication à [[Rabat]] en 1998 : [[CIDE (1998) Richy|Édition comparative et hypertextuelle]] ([[Hélène Richy]], [[Jacques André (informaticien)|Jacques André]]),
 
** l'article de la toute première communication à [[Rabat]] en 1998 : [[CIDE (1998) Richy|Édition comparative et hypertextuelle]] ([[Hélène Richy]], [[Jacques André (informaticien)|Jacques André]]),
 +
[[File:LogoCIDE19.jpg|120px|right|link=CIDE 2016 Athènes]]
 
* l'annonce, le programme et les comités associés aux différents colloques, comme par exemple :
 
* l'annonce, le programme et les comités associés aux différents colloques, comme par exemple :
** [[CIDE 2011 Rabat|CIDE.14 (Rabat)]] - 2011.
+
** [[CIDE 2011 Rabat|CIDE.14 (Rabat)]] - 2011 ;
 +
** [[CIDE 2016 Athènes|CIDE.19 (Athènes)]] - 2016.
 
* des articles d'accompagnement dans une approche encyclopédique, par exemple :
 
* des articles d'accompagnement dans une approche encyclopédique, par exemple :
 
** [[Rabat|Une brève présentation de la ville de Rabat dans une perspective document numérique]].
 
** [[Rabat|Une brève présentation de la ville de Rabat dans une perspective document numérique]].
Ligne 16 : Ligne 21 :
 
* des articles à l'état de copier/coller à partir d'un PDF. Ils sont indexés par la catégorie :
 
* des articles à l'état de copier/coller à partir d'un PDF. Ils sont indexés par la catégorie :
 
** [[:Catégorie:CIDE article en texte brut|CIDE article en texte brut]]
 
** [[:Catégorie:CIDE article en texte brut|CIDE article en texte brut]]
** Ils seront utilisés dans le cadre de travaux pratiques !
+
** Ils seront utilisés dans le cadre de travaux pratiques en Master 1 !
  
 
==Terminologies, catégories et relations sémantiques==
 
==Terminologies, catégories et relations sémantiques==
Ligne 68 : Ligne 73 :
 
|-
 
|-
 
|}
 
|}
Le réseau Wicri est conçu comme un espace partageable par « n'importe quelle communauté scientifique ». Il est organisé à la façon d'une collection d'encyclopédies thématiques (pour aller par exemple sur le wiki [[wicri-terre.fr:Accueil|Wicri/Terre]] ou [[wicri-musique.fr:Accueil|Wicri/Musique]]) ou de guides régionaux.
+
Le réseau Wicri est conçu comme un espace partageable par « n'importe quelle communauté scientifique ». Il est organisé à la façon d'une collection d'encyclopédies thématiques (voir, par exemple, le wiki [[wicri-terre.fr:Accueil|Wicri/Terre]] ou [[wicri-musique.fr:Accueil|Wicri/Musique]]) ou de guides régionaux.
 
;Un même sujet peut être traité de façon différente sur différents wikis.
 
;Un même sujet peut être traité de façon différente sur différents wikis.
 
La ville de Pittsburgh a servi d'exemple pour une publication.
 
La ville de Pittsburgh a servi d'exemple pour une publication.
Ligne 83 : Ligne 88 :
  
 
==Les serveurs d'exploration==
 
==Les serveurs d'exploration==
Les [[serveur d'exploration|serveurs d'exploration]] sont des outils en cours de développement pour donner accès, dans un mode exploratoire, à une large bibliographie sur un sujet donné.
+
Les [[serveur d'exploration|serveurs d'exploration]] sont des outils en cours de développement pour donner accès, dans un mode exploratoire, à une large bibliographie sur un sujet donné. On trouvera de nombreux exemples dans le réseau Wicri.
  
On trouvera de nombreux exemples dans le réseau Wicri.
+
Ces serveur d'exploration sont notamment utilisés dans les travaux dirigés en Master 2 « sciences de l'information ».
  
 
Un exemple d'introduction est donné sur Wicri/France avec le village d'Aussois pour lequel on a étudié le rayonnement international à partir de 1700 publications extraites d'[[ISTEX]]. ''[[wicri-france.fr:Aussois|Pour aller sur la page Aussois du wiki Wicri/France]]''.
 
Un exemple d'introduction est donné sur Wicri/France avec le village d'Aussois pour lequel on a étudié le rayonnement international à partir de 1700 publications extraites d'[[ISTEX]]. ''[[wicri-france.fr:Aussois|Pour aller sur la page Aussois du wiki Wicri/France]]''.
 +
===Exemples de navigation autour de la TEI===
  
 
{|align="right"
 
{|align="right"
Ligne 96 : Ligne 102 :
 
|-
 
|-
 
|
 
|
{{Explor plateforme TeiVM2/Carte France Regions 2016|taille=250}}
+
{{Explor plateforme TeiVM2/Carte France Regions 2016|taille=300}}
 
|-
 
|-
 
|Projection de l'activité sur la TEI en France  
 
|Projection de l'activité sur la TEI en France  
 
|-
 
|-
 
|}
 
|}
|                       
+
|             
 
|-
 
|-
 
|}
 
|}
Ligne 110 : Ligne 116 :
 
* en cliquant sur les cercles on peut naviguer dans les bibliographies associées sur le serveur ;
 
* en cliquant sur les cercles on peut naviguer dans les bibliographies associées sur le serveur ;
 
* en cliquant sur les toponymes, on peut consulter les pages sur le wiki.
 
* en cliquant sur les toponymes, on peut consulter les pages sur le wiki.
 +
Sur les pages des serveurs, on trouve des cartouches tels que le suivant :
 
{{Explor bandeau flux|type=IstexMulti|code=Istex|path=TeiVM2}}
 
{{Explor bandeau flux|type=IstexMulti|code=Istex|path=TeiVM2}}
 +
Les 3 dernières icones donnent accès à des moteurs de navigation portant sur 3 étapes du traitement des données.
 +
* La première étape (dite Corpus, matérialisée par un CD-ROM) donne accès à des notices brutes. On y trouve notamment un {{Explor lien|wiki=Ticri/CIDE|area=TeiVM2|url=Istex/Corpus/indexHead.php?index=AutAff.i|texte=index des formes simplifiées des noms d'auteurs avec leurs affiliations initiales.}}
 +
* La deuxième étape (Curation avec un panneau H pour hôpital) bénéficie d'une première curation des données . On y trouve notamment un {{Explor lien|wiki=Ticri/CIDE|area=TeiVM2|url=Istex/Curation/indexHead.php?index=AffPaycInc.i|texte=index des pays non reconnus}}.
 +
* La troisième étape (Checkpoint) étape donne accès aux données nettoyées avant leur fusion dans le flux final. On y trouve des index classiques comme {{Explor lien|wiki=Ticri/CIDE|area=TeiVM2|url=Istex/Checkpoint/indexHead.php?index=Author.i|texte=auteur}}, {{Explor lien|wiki=Ticri/CIDE|area=TeiVM2|url=Istex/Checkpoint/indexHead.php?index=AutOrg.i|texte=affiliation}} ou {{Explor lien|wiki=Ticri/CIDE|area=TeiVM2|url=Istex/Checkpoint/indexHead.php?index=Pays.i|texte=pays}}.
 +
Pour faciliter une vision globale, la page d'accueil du serveur contient également des têtes de listes d'index, comme par exemple :
 +
{{Début 3 colonnes}}
 +
;Auteurs:
 +
{{TeiVM2, include|section=auteurs}}
 +
{{Saut 3 colonnes}}
 +
;Région:
 +
{{TeiVM2, include|section=region}}
 +
{{Saut 3 colonnes}}
 +
;ISSN/revue:
 +
{{TeiVM2, include|section=ISSN}}
 +
{{Fin 3 colonnes}}
 +
{{clr}}
 +
A chaque élément sont associés 2 liens : vers la page du wiki, et un lien (sur le nombre d’occurrences) vers le serveur d'exploration.
 +
===Pour aller plus loin : la bibliothèque de composants XML===
 +
Les plateformes de curation et d'exploration sont en grande partie réalisées par une bibliothèque de composants XML nommée DILIB (dans un environnement Unix). Ces composants peuvent être utilisés pour affiner des recherches.
 +
 +
Voici un exemple de code shell unix qui a été utilisé pour analyser les endroits ou la ville de Rabat était mentionnée dans le serveur d'exploration sur l'OCR.
 +
<source lang="sh">
 +
  HfdCat Import/IstexRepository.hfd  \
 +
      | grep Rabat                    \
 +
      | SxmlFindText -b 20 -a 10 -s Rabat
 +
</source> 
 +
La première ligne entraîne une exploration complète des 6406 documents ISTEX sur l'OCR. La commande grep est un accélérateur de sélection sur la présence de Rabat, n'importe où, dans un document. La troisième (SxmlFindText) demande de rechercher toutes les occurrences de la chaîne « Rabat » et d'afficher 20 caractères avant ( -b pour before) et 10 après.
 +
 +
Le résultat a l'allure suivante :
 +
<small>
 +
<pre>
 +
...
 +
001105 1/18/2/4/4 istex/metadata/mods/name[2]/affiliation[2] 46 ity Soussi, BP 713,  Rabat  , Morocco
 +
...
 +
003A76 1/14/3/2/1/1/2767/1 istex/fulltext/istex:fulltextTEI/text/body/div/p[2767]/l 53 apres le sommet de  Rabat  R. Defense nat., F
 +
</pre>
 +
</small>
 +
Pour une occurrence de Rabat, il donne :
 +
* un numéro interne de document
 +
* un chemin (de type xPath) absolu
 +
* un chemin xPath relatif
 +
* l'offset de la chaîne reconnue
 +
* 20 caractères avant
 +
* Rabat
 +
* 10 caractères après
 +
On peut en déduire que le document de numéro interne 1105 est relatif à un document publié par un auteur de Rabat. En revanche le contexte de celui dont la clé est 003A76 est totalement différent.
 +
 +
Une formation de quelques jours suffit pour permettre à un « ingénieur documentaliste » de faire des filtrages simples (mais instructifs) sur le texte intégral.
 +
 +
===Quelques exemples de serveur===
 +
;Sur ce wiki (Ticri/CIDE):
 +
* [[Serveur d'exploration sur l'OCR]],
 +
* [[Serveur d'exploration sur les dispositifs haptiques]],
 +
* [[Serveur d'exploration sur la télématique]],
 +
* [[Serveur d'exploration sur la TEI]],
 +
* [[Épistémè|Serveur d'exploration Épistémè]].
 +
;Dans le réseau Wicri:
 +
* Sur le wiki '''[[wicri-musique.fr:Serveur d'exploration|Wicri/Musique]]''' :
 +
** sur des compositeurs [[wicri-musique.fr:Serveur d'exploration sur Mozart|Mozart]],  [[wicri-musique.fr:Serveur d'exploration sur Monteverdi|Monteverdi]], [[wicri-musique.fr:Serveur d'exploration sur Heinrich Schütz|Heinrich Schütz]],
 +
** sur des types d’œuvres musicales : [[wicri-musique.fr:Serveur d'exploration sur le Magnificat|Magnificat]], [[wicri-musique.fr:Serveur d'exploration sur l'opéra|opéra]], [[wicri-musique.fr:Dies iræ]].
 +
* Sur le wiki '''[[wicri-terre.fr:Serveur d'exploration|Wicri/Terre]]''' :
 +
** des éléments chimiques : [[wicri-terre.fr:Serveur d'exploration sur le cadmium|cadmium]], [[wicri-terre.fr:Serveur d'exploration sur le gallium|gallium]], [[wicri-terre.fr:Serveur d'exploration sur l'indium|indium]], [[wicri-terre.fr:Serveur d'exploration sur le thulium|thulium]] ;
 +
** en relation avec [[wicri-france.fr:Serveur d'exploration|Wicri/France]], le [[wicri-terre.fr:Serveur d'exploration sur le cuivre en France|Serveur d'exploration sur le cuivre en France]],
 +
** en relation avec [[wicri-lor.fr:Serveur d'exploration|Wicri/Lorraine]], un laboratoire, le [[wicri-terre.fr:Serveur d'exploration sur le LRGP|Laboratoire réactions et génie des procédés]] (LRGP).
  
 
==Voir aussi==
 
==Voir aussi==
 
;Notes:
 
;Notes:
 
<references/>
 
<references/>

Version actuelle datée du 3 février 2017 à 09:31

Visite guidée du wiki Ticri/CIDE


 
 

Cette page a été initialement rédigée pour personnes impliqués dans des activités en rapport avec ce wiki (Ticri/CIDE), et notamment les :

Elle est plutôt destinée à un public ayant une culture initiale dans le document numérique.

Le wiki Ticri/CIDE

Le contenu éditorial du wiki Ticri/CIDE est principalement centré sur la valorisations des actes des colloques CIDE. On y trouve notamment :

LogoCIDE19.jpg
l'icône la plus fréquente sur un wiki !

Le wiki Ticri/CIDE utilise MediaWiki, le même moteur que celui de Wikipédia.

Comme pour Wikipédia, ce wiki ressemble parfois à une « zone urbaine en cours de rénovation avec de nombreux chantiers ». On trouve par exemple :

  • des articles à l'état de copier/coller à partir d'un PDF. Ils sont indexés par la catégorie :

Terminologies, catégories et relations sémantiques

Le wiki Wicri/CIDE utilise les fonctionnalités offertes par les catégories de MediaWiki. Elles permettent de définir un thésaurus. Une solution retenue sur le réseau Wicri est l'utilisation du thesaurus EuroVoc. Voici un extrait autour de la Reconnaissance optique de caractères :

Catégorie:Gestion électronique des documents - alignée EuroVoc
> Catégorie:Reconnaissance optique de caractères - alignée EuroVoc
> Catégorie:Problèmes de reconnaissance optique de caractères - spécifique CIDE

Il utilise également les attributs sémantiques de Semantic MediaWiki. Par exemple, il existe un attribut « A pour intervenant » qui lie un colloque CIDE à ses intervenants. Cet attribut permet de retrouver, pour un auteur, la liste des manifestations où il est intervenu.

Par exemple, pour l'auteur « Éric Trupin »,

la requête :
{{#ask:[[A pour intervenant::Éric Trupin]]
| format=ol
| ?A pour titre=titre :
| sep=,_ 
| headers=hide
| intro=Éric Trupin est intervenu à :_ }}
  a pour résultat :
Éric Trupin est intervenu à :
  1. CIDE 1998 Rabat (Document électronique)
  2. CIDE 2001 Toulouse (Document et sciences cognitives)
  3. CIDE 2002 Hammamet (Document pédagogique et mobile)
  4. CIDE 2005 Beyrouth (Le Multulinguisme)

Le réseau Wicri

 

WicriRéseauGabarit3.png

Pour aller sur Wicri/Wicri (fr)

Pour aller sur le wiki d'accueil du domaine lorexplor.ixtex.fr (fr)

Pour aller sur le pool d'images du réseau Wicri sur le domaine lorexplor.istex.fr

Pour aller sur le wiki d'accueil du réseau Wicri sur le domaine wicri-demo.istex.fr

Pour aller sur le pool d'images du réseau Wicri sur le domaine wicri-demo.istex.fr

Pour aller sur le wiki de service Wicri/Manuel (fr)

Pour aller sur le wiki de service Wicri/Base 1.28 (fr)

Pour aller sur le wiki de service Wicri/Base 1.31 (fr)

Pour aller sur le wiki de service Wicri/Métadonnées (fr)

Pour aller sur Wicri/Outils (fr)

Pour aller sur Wicri/Archéologie (fr)

Pour aller sur le wiki Wicri/Arts (fr)

Pour aller sur le wiki Wicri/Musique (fr)

Pour aller sur Wicri/Ingénierie (fr)

Pour aller sur Wicri/Informatique (fr)

Pour aller sur Wicri/Sic (fr)

Pour aller sur le wiki Wicri/Histoire des sciences (fr)

Pour aller sur le wiki Wicri/Histoire de l'IST (fr)

Pour aller sur Wicri/Linguistique (fr)

Pour aller sur Wicri/Mathématiques (fr)

Pour aller sur Wicri/Santé (fr)

Pour aller sur le wiki Wicri/Psychologie (fr)

Pour aller sur Wicri/Biomasse (fr)

Pour aller sur Wicri/Eau (fr)

Pour aller sur Wicri/Bois et forêts (fr)

Pour aller sur Wicri/Terre (fr)

Pour aller sur Wicri/Sols urbains (fr)

Pour aller sur Wicri/Agronomie (fr)

Pour lire les Mots de  l'Agronomie (fr)

Pour aller sur le wiki du réseau Médici (fr)

Pour aller sur le wiki des émérites de Lorraine (fr)

Pour aller sur Wicri/Artist (fr)

Pour aller sur Wic/Sic/Cide (fr)

Pour aller sur Wic/Sic/H2PTM (fr)

Pour aller sur Wicri Sic/VSST (fr)

Pour aller sur Wicri Musique/Musamat (fr)

Pour aller sur Wicri/Afrique (fr)

Pour aller sur Wicri/Amérique (fr)

Pour aller sur Wicri/Asie (fr)

Pour aller sur Wicri/Europe (fr)

Pour aller sur Wicri/Océanie (fr)

Pour aller sur Wicri/Belgique (fr)

Pour aller sur Wicri/Allemagne (fr)

Pour aller sur Wicri/France (fr)

Pour aller sur Wicri/Luxembourg (fr)

Pour aller sur Wicri/Francophonie (fr)

Pour aller sur Wicri/Maroc (fr)

Pour aller sur Wicri/Brésil (fr)

Pour aller sur Wicri/Canada (fr)

Pour aller sur Wicri/Grande Région (fr)

Pour aller sur Wicri/Rhénanie-Palatinat (fr)

Pour aller sur Wicri/Sarre (fr)

Pour aller sur Wicri/Wallonie (fr)

Pour aller sur Wicri/Chanson de Roland (fr)

Pour aller sur Wicri/Grand Est (fr)

Pour aller sur Wicri/Grand Est (fr)

Pour aller sur Wicri/Alsace (fr)

Pour aller sur Wicri/Lorraine (fr)

Pour aller sur Wicri/Histoire Lorraine (fr)

Pour aller sur Wicri Lorraine/Bul Nancy (fr)

Pour aller sur Wicri/Nancy (fr)

Pour aller sur Wicri/Île-de-France (fr)

Les wikis communs en français
 

Le réseau Wicri est conçu comme un espace partageable par « n'importe quelle communauté scientifique ». Il est organisé à la façon d'une collection d'encyclopédies thématiques (voir, par exemple, le wiki Wicri/Terre ou Wicri/Musique) ou de guides régionaux.

Un même sujet peut être traité de façon différente sur différents wikis.

La ville de Pittsburgh a servi d'exemple pour une publication.

Pour le même article, on peut constater des différences significatives de l'indexation sémantique [1] :

Pourquoi Ticri/CIDE ?

Les wikis communs ont un nom de code préfixé par Wicri, exemple : Wicri/Musique.

Le wiki Ticri/CIDE n'est pas un « wiki commun » mais celui d'une communauté scientifique spécialisée. Cette communauté s'investit dans une problématique qui relève des « TIC pour la recherche et l'innovation » (Ticri). Le wiki commun des TICRI a pour code « Wicri/Ticri », le wiki « associé » des colloques CIDE a pour nom de code : Ticri/CIDE.

Les serveurs d'exploration

Les serveurs d'exploration sont des outils en cours de développement pour donner accès, dans un mode exploratoire, à une large bibliographie sur un sujet donné. On trouvera de nombreux exemples dans le réseau Wicri.

Ces serveur d'exploration sont notamment utilisés dans les travaux dirigés en Master 2 « sciences de l'information ».

Un exemple d'introduction est donné sur Wicri/France avec le village d'Aussois pour lequel on a étudié le rayonnement international à partir de 1700 publications extraites d'ISTEX. Pour aller sur la page Aussois du wiki Wicri/France.

Exemples de navigation autour de la TEI

 
Projection de l'activité sur la TEI en France
             

Ce wiki contient un exemple assez simple sur la Text Encoding Initiative (TEI).

Sur la carte de droite, on trouve des projections des activités scientifiques autour de la TEI dans les laboratoires français.

  • en cliquant sur les cercles on peut naviguer dans les bibliographies associées sur le serveur ;
  • en cliquant sur les toponymes, on peut consulter les pages sur le wiki.

Sur les pages des serveurs, on trouve des cartouches tels que le suivant :

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux ISTEX

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Les 3 dernières icones donnent accès à des moteurs de navigation portant sur 3 étapes du traitement des données.

Pour faciliter une vision globale, la page d'accueil du serveur contient également des têtes de listes d'index, comme par exemple :

Auteurs
  1. Susan Hockey (16)
  2. Laurent Romary (16)
  3. Michael Sperberg-McQueen (13)
  4. Lou Burnard (12)
  5. Nancy Ide (11)
  6. David T. Barnard (6)
  7. Susan Schreibman (5)
  8. Jean Véronis (4)
  9. Fotis Jannidis (4)
  10. Claire Warwick (4)
  11. Alejandro Bia (4)
  12. Willard Mccarty (3)
  13. Thomas N. Corns (3)
  14. Stig Johansson (3)
  15. Ron Van Den Branden (3)
 
Région
  1. Angleterre (56)
  2. État de New York (24)
  3. Oxfordshire (24)
  4. Grand Londres (22)
  5. New Jersey (19)
  6. Illinois (14)
  7. Grand Est (14)
  8. Lorraine (région) (13)
  9. Rhône-Alpes (12)
  10. Auvergne-Rhône-Alpes (12)
  11. Pennsylvanie (11)
  12. Massachusetts (11)
  13. Provence-Alpes-Côte d'Azur (10)
  14. Maryland (10)
  15. Île-de-France (9)
 
ISSN/revue
  1. Literary and linguistic computing (168)
  2. 0010-4817 (79)
  3. Lecture Notes in Computer Science (66)
  4. Lit Linguist Computing (61)
  5. Comput Hum (46)
  6. 1572-8412 (46)
  7. Library Hi Tech (23)
  8. 1065-075X (14)
  9. 1532-2890 (13)
  10. Journal of the American Society for Information Science and Technology (13)
  11. Microform and Imaging Review (11)
  12. Program (revue) (11)
  13. 1741-4113 (10)
  14. The Electronic Library (10)
  15. ACALIB (9)

A chaque élément sont associés 2 liens : vers la page du wiki, et un lien (sur le nombre d’occurrences) vers le serveur d'exploration.

Pour aller plus loin : la bibliothèque de composants XML

Les plateformes de curation et d'exploration sont en grande partie réalisées par une bibliothèque de composants XML nommée DILIB (dans un environnement Unix). Ces composants peuvent être utilisés pour affiner des recherches.

Voici un exemple de code shell unix qui a été utilisé pour analyser les endroits ou la ville de Rabat était mentionnée dans le serveur d'exploration sur l'OCR.

  HfdCat Import/IstexRepository.hfd   \
      | grep Rabat                    \
      | SxmlFindText -b 20 -a 10 -s Rabat

La première ligne entraîne une exploration complète des 6406 documents ISTEX sur l'OCR. La commande grep est un accélérateur de sélection sur la présence de Rabat, n'importe où, dans un document. La troisième (SxmlFindText) demande de rechercher toutes les occurrences de la chaîne « Rabat » et d'afficher 20 caractères avant ( -b pour before) et 10 après.

Le résultat a l'allure suivante :

 ...
001105 1/18/2/4/4 istex/metadata/mods/name[2]/affiliation[2] 46	ity Soussi, BP 713,   Rabat  , Morocco
 ...
003A76	1/14/3/2/1/1/2767/1 istex/fulltext/istex:fulltextTEI/text/body/div/p[2767]/l 53	apres le sommet de   Rabat  R. Defense nat., F

Pour une occurrence de Rabat, il donne :

  • un numéro interne de document
  • un chemin (de type xPath) absolu
  • un chemin xPath relatif
  • l'offset de la chaîne reconnue
  • 20 caractères avant
  • Rabat
  • 10 caractères après

On peut en déduire que le document de numéro interne 1105 est relatif à un document publié par un auteur de Rabat. En revanche le contexte de celui dont la clé est 003A76 est totalement différent.

Une formation de quelques jours suffit pour permettre à un « ingénieur documentaliste » de faire des filtrages simples (mais instructifs) sur le texte intégral.

Quelques exemples de serveur

Sur ce wiki (Ticri/CIDE)
Dans le réseau Wicri

Voir aussi

Notes
  1. Visible dans les boîtes en fin de page.