Visite Ticri CIDE : Différence entre versions
imported>Jacques Ducloy |
imported>Jacques Ducloy |
||
(52 révisions intermédiaires par le même utilisateur non affichées) | |||
Ligne 1 : | Ligne 1 : | ||
− | {{Titre page article | + | {{Titre page article|titre=Visite guidée du wiki Ticri/CIDE}}Cette page a été initialement rédigée pour personnes impliqués dans des activités en rapport avec ce wiki (Ticri/CIDE), et notamment les : |
− | + | * les étudiants en Master 2 | |
− | }} | + | ** [[TD Master 2 Documentation numérique (Université de Lorraine 2016)|Documentation numérique de l'Université de Lorraine]], |
− | Cette page | + | ** [[TD Master 2 (Université Paris 8, 2016)|Gestion Stratégique l'Information (GSI) et Analyse et Valorisation des Usages Numériques (AVUN) de l'Université Paris 8]]. |
− | * [[TD Master 2 Documentation numérique (Université de Lorraine 2016)| | + | * [[CIDE:Expérimenter l'épistémè numérique avec ISTEX, l'atelier|les participants à l'atelier « ''Expérimenter l'épistémè numérique avec ISTEX'' »]], |
+ | Elle est plutôt destinée à un public ayant une culture initiale dans le document numérique. | ||
==Le wiki Ticri/CIDE== | ==Le wiki Ticri/CIDE== | ||
− | Le wiki Ticri/CIDE | + | Le contenu éditorial du wiki Ticri/CIDE est principalement centré sur la valorisations des actes des colloques [[CIDE]]. On y trouve notamment : |
− | * des articles en texte intégral « stucturé wiki » comme par exemple : | + | * des '''articles en texte intégral''' « stucturé wiki » comme par exemple : |
** l'article de la toute première communication à [[Rabat]] en 1998 : [[CIDE (1998) Richy|Édition comparative et hypertextuelle]] ([[Hélène Richy]], [[Jacques André (informaticien)|Jacques André]]), | ** l'article de la toute première communication à [[Rabat]] en 1998 : [[CIDE (1998) Richy|Édition comparative et hypertextuelle]] ([[Hélène Richy]], [[Jacques André (informaticien)|Jacques André]]), | ||
+ | [[File:LogoCIDE19.jpg|120px|right|link=CIDE 2016 Athènes]] | ||
* l'annonce, le programme et les comités associés aux différents colloques, comme par exemple : | * l'annonce, le programme et les comités associés aux différents colloques, comme par exemple : | ||
− | ** [[CIDE 2011 Rabat|CIDE.14 (Rabat)]] - 2011. | + | ** [[CIDE 2011 Rabat|CIDE.14 (Rabat)]] - 2011 ; |
+ | ** [[CIDE 2016 Athènes|CIDE.19 (Athènes)]] - 2016. | ||
* des articles d'accompagnement dans une approche encyclopédique, par exemple : | * des articles d'accompagnement dans une approche encyclopédique, par exemple : | ||
− | ** Une brève présentation de la ville de | + | ** [[Rabat|Une brève présentation de la ville de Rabat dans une perspective document numérique]]. |
[[Fichier:Panneau travaux.png|150px|thumb|l'icône la plus fréquente sur un wiki !]] | [[Fichier:Panneau travaux.png|150px|thumb|l'icône la plus fréquente sur un wiki !]] | ||
+ | Le wiki Ticri/CIDE utilise [[MediaWiki]], le même moteur que celui de [[Wikipédia]]. | ||
+ | |||
Comme pour Wikipédia, ce wiki ressemble parfois à une « zone urbaine en cours de rénovation avec de nombreux chantiers ». On trouve par exemple : | Comme pour Wikipédia, ce wiki ressemble parfois à une « zone urbaine en cours de rénovation avec de nombreux chantiers ». On trouve par exemple : | ||
* des articles à l'état de copier/coller à partir d'un PDF. Ils sont indexés par la catégorie : | * des articles à l'état de copier/coller à partir d'un PDF. Ils sont indexés par la catégorie : | ||
** [[:Catégorie:CIDE article en texte brut|CIDE article en texte brut]] | ** [[:Catégorie:CIDE article en texte brut|CIDE article en texte brut]] | ||
− | ** Ils seront utilisés dans le cadre de travaux pratiques ! | + | ** Ils seront utilisés dans le cadre de travaux pratiques en Master 1 ! |
==Terminologies, catégories et relations sémantiques== | ==Terminologies, catégories et relations sémantiques== | ||
Ligne 23 : | Ligne 28 : | ||
:: > '''[[:Catégorie:Reconnaissance optique de caractères]]''' - ''alignée EuroVoc'' | :: > '''[[:Catégorie:Reconnaissance optique de caractères]]''' - ''alignée EuroVoc'' | ||
::: > [[:Catégorie:Problèmes de reconnaissance optique de caractères]] - ''spécifique CIDE'' | ::: > [[:Catégorie:Problèmes de reconnaissance optique de caractères]] - ''spécifique CIDE'' | ||
− | Il utilise également les attributs sémantiques de [[Semantic MediaWiki]]. Par exemple, il existe un attribut « [[Attribut:A pour intervenant|A pour intervenant]] » qui lie un colloque CIDE à ses intervenants. | + | Il utilise également les attributs sémantiques de [[Semantic MediaWiki]]. Par exemple, il existe un attribut « [[Attribut:A pour intervenant|A pour intervenant]] » qui lie un colloque CIDE à ses intervenants. Cet attribut permet de retrouver, pour un auteur, la liste des manifestations où il est intervenu. |
− | {{ | + | |
+ | Par exemple, pour l'auteur « [[Éric Trupin]] », | ||
+ | {{Début 2 colonnes}} | ||
+ | la requête :<hr/> | ||
+ | <source lang="php"> | ||
+ | {{#ask:[[A pour intervenant::Éric Trupin]] | ||
+ | | format=ol | ||
+ | | ?A pour titre=titre : | ||
+ | | sep=,_ | ||
+ | | headers=hide | ||
+ | | intro=Éric Trupin est intervenu à :_ }} | ||
+ | </source> | ||
+ | {{Saut 2 colonnes}} | ||
+ | a pour résultat :<hr/> | ||
+ | {{#ask:[[A pour intervenant::Éric Trupin]] | ||
+ | | format=ol | ||
+ | | ?A pour titre=titre : | ||
+ | | sep=,_ | ||
+ | | headers=hide | ||
+ | | intro=Éric Trupin est intervenu à :_ }} | ||
+ | {{Fin 2 colonnes}} | ||
==Le réseau Wicri== | ==Le réseau Wicri== | ||
Ligne 48 : | Ligne 73 : | ||
|- | |- | ||
|} | |} | ||
− | Le | + | Le réseau Wicri est conçu comme un espace partageable par « n'importe quelle communauté scientifique ». Il est organisé à la façon d'une collection d'encyclopédies thématiques (voir, par exemple, le wiki [[wicri-terre.fr:Accueil|Wicri/Terre]] ou [[wicri-musique.fr:Accueil|Wicri/Musique]]) ou de guides régionaux. |
;Un même sujet peut être traité de façon différente sur différents wikis. | ;Un même sujet peut être traité de façon différente sur différents wikis. | ||
La ville de Pittsburgh a servi d'exemple pour une publication. | La ville de Pittsburgh a servi d'exemple pour une publication. | ||
− | * sur ce wiki, au moment où cette page est rédigée, la [[Pittsburgh|page Pittsburgh]] est une simple « entrée de glossaire », avec un contenu limité à des liens. | + | * sur ce wiki, au moment où cette page est rédigée, la [[Pittsburgh|page Pittsburgh]] est une simple « entrée de glossaire », avec un contenu limité à des liens, |
− | + | * sur le wiki Wicri/Eau, cette page décrit la [[wicri-eau.fr:Pittsburgh|situation hydrographique de Pittsburgh]]. | |
+ | Pour le même article, on peut constater des différences significatives de l'indexation sémantique <ref>Visible dans les boîtes en fin de page.</ref> : | ||
* Sur ce wiki : [[Alain Bonardi]], [[CIDE (2007) Bonardi|Le patch comme document numérique : support de création et de constitution de connaissances]] | * Sur ce wiki : [[Alain Bonardi]], [[CIDE (2007) Bonardi|Le patch comme document numérique : support de création et de constitution de connaissances]] | ||
* Sur le wiki Wicri/Musique : [[wicri-musique.fr:CIDE (2007) Bonardi|CIDE (2007) Bonardi]]. | * Sur le wiki Wicri/Musique : [[wicri-musique.fr:CIDE (2007) Bonardi|CIDE (2007) Bonardi]]. | ||
+ | ;Pourquoi Ticri/CIDE ?: | ||
+ | Les wikis communs ont un nom de code préfixé par Wicri, exemple : Wicri/Musique. | ||
+ | |||
+ | Le wiki Ticri/CIDE n'est pas un « wiki commun » mais celui d'une communauté scientifique spécialisée. Cette communauté s'investit dans une problématique qui relève des « TIC pour la recherche et l'innovation » (Ticri). Le wiki commun des TICRI a pour code « Wicri/Ticri », le wiki « associé » des colloques CIDE a pour nom de code : Ticri/CIDE. | ||
{{clr}} | {{clr}} | ||
==Les serveurs d'exploration== | ==Les serveurs d'exploration== | ||
− | Les [[serveur d'exploration|serveurs d'exploration]] sont des outils en cours de développement pour donner accès, dans un mode exploratoire, à une large bibliographie sur un sujet donné. | + | Les [[serveur d'exploration|serveurs d'exploration]] sont des outils en cours de développement pour donner accès, dans un mode exploratoire, à une large bibliographie sur un sujet donné. On trouvera de nombreux exemples dans le réseau Wicri. |
− | + | Ces serveur d'exploration sont notamment utilisés dans les travaux dirigés en Master 2 « sciences de l'information ». | |
Un exemple d'introduction est donné sur Wicri/France avec le village d'Aussois pour lequel on a étudié le rayonnement international à partir de 1700 publications extraites d'[[ISTEX]]. ''[[wicri-france.fr:Aussois|Pour aller sur la page Aussois du wiki Wicri/France]]''. | Un exemple d'introduction est donné sur Wicri/France avec le village d'Aussois pour lequel on a étudié le rayonnement international à partir de 1700 publications extraites d'[[ISTEX]]. ''[[wicri-france.fr:Aussois|Pour aller sur la page Aussois du wiki Wicri/France]]''. | ||
+ | ===Exemples de navigation autour de la TEI=== | ||
{|align="right" | {|align="right" | ||
Ligne 71 : | Ligne 102 : | ||
|- | |- | ||
| | | | ||
− | {{Explor plateforme TeiVM2/Carte France Regions 2016|taille= | + | {{Explor plateforme TeiVM2/Carte France Regions 2016|taille=300}} |
|- | |- | ||
|Projection de l'activité sur la TEI en France | |Projection de l'activité sur la TEI en France | ||
|- | |- | ||
|} | |} | ||
− | | | + | | |
|- | |- | ||
|} | |} | ||
Ligne 85 : | Ligne 116 : | ||
* en cliquant sur les cercles on peut naviguer dans les bibliographies associées sur le serveur ; | * en cliquant sur les cercles on peut naviguer dans les bibliographies associées sur le serveur ; | ||
* en cliquant sur les toponymes, on peut consulter les pages sur le wiki. | * en cliquant sur les toponymes, on peut consulter les pages sur le wiki. | ||
+ | Sur les pages des serveurs, on trouve des cartouches tels que le suivant : | ||
+ | {{Explor bandeau flux|type=IstexMulti|code=Istex|path=TeiVM2}} | ||
+ | Les 3 dernières icones donnent accès à des moteurs de navigation portant sur 3 étapes du traitement des données. | ||
+ | * La première étape (dite Corpus, matérialisée par un CD-ROM) donne accès à des notices brutes. On y trouve notamment un {{Explor lien|wiki=Ticri/CIDE|area=TeiVM2|url=Istex/Corpus/indexHead.php?index=AutAff.i|texte=index des formes simplifiées des noms d'auteurs avec leurs affiliations initiales.}} | ||
+ | * La deuxième étape (Curation avec un panneau H pour hôpital) bénéficie d'une première curation des données . On y trouve notamment un {{Explor lien|wiki=Ticri/CIDE|area=TeiVM2|url=Istex/Curation/indexHead.php?index=AffPaycInc.i|texte=index des pays non reconnus}}. | ||
+ | * La troisième étape (Checkpoint) étape donne accès aux données nettoyées avant leur fusion dans le flux final. On y trouve des index classiques comme {{Explor lien|wiki=Ticri/CIDE|area=TeiVM2|url=Istex/Checkpoint/indexHead.php?index=Author.i|texte=auteur}}, {{Explor lien|wiki=Ticri/CIDE|area=TeiVM2|url=Istex/Checkpoint/indexHead.php?index=AutOrg.i|texte=affiliation}} ou {{Explor lien|wiki=Ticri/CIDE|area=TeiVM2|url=Istex/Checkpoint/indexHead.php?index=Pays.i|texte=pays}}. | ||
+ | Pour faciliter une vision globale, la page d'accueil du serveur contient également des têtes de listes d'index, comme par exemple : | ||
+ | {{Début 3 colonnes}} | ||
+ | ;Auteurs: | ||
+ | {{TeiVM2, include|section=auteurs}} | ||
+ | {{Saut 3 colonnes}} | ||
+ | ;Région: | ||
+ | {{TeiVM2, include|section=region}} | ||
+ | {{Saut 3 colonnes}} | ||
+ | ;ISSN/revue: | ||
+ | {{TeiVM2, include|section=ISSN}} | ||
+ | {{Fin 3 colonnes}} | ||
+ | {{clr}} | ||
+ | A chaque élément sont associés 2 liens : vers la page du wiki, et un lien (sur le nombre d’occurrences) vers le serveur d'exploration. | ||
+ | ===Pour aller plus loin : la bibliothèque de composants XML=== | ||
+ | Les plateformes de curation et d'exploration sont en grande partie réalisées par une bibliothèque de composants XML nommée DILIB (dans un environnement Unix). Ces composants peuvent être utilisés pour affiner des recherches. | ||
+ | |||
+ | Voici un exemple de code shell unix qui a été utilisé pour analyser les endroits ou la ville de Rabat était mentionnée dans le serveur d'exploration sur l'OCR. | ||
+ | <source lang="sh"> | ||
+ | HfdCat Import/IstexRepository.hfd \ | ||
+ | | grep Rabat \ | ||
+ | | SxmlFindText -b 20 -a 10 -s Rabat | ||
+ | </source> | ||
+ | La première ligne entraîne une exploration complète des 6406 documents ISTEX sur l'OCR. La commande grep est un accélérateur de sélection sur la présence de Rabat, n'importe où, dans un document. La troisième (SxmlFindText) demande de rechercher toutes les occurrences de la chaîne « Rabat » et d'afficher 20 caractères avant ( -b pour before) et 10 après. | ||
+ | |||
+ | Le résultat a l'allure suivante : | ||
+ | <small> | ||
+ | <pre> | ||
+ | ... | ||
+ | 001105 1/18/2/4/4 istex/metadata/mods/name[2]/affiliation[2] 46 ity Soussi, BP 713, Rabat , Morocco | ||
+ | ... | ||
+ | 003A76 1/14/3/2/1/1/2767/1 istex/fulltext/istex:fulltextTEI/text/body/div/p[2767]/l 53 apres le sommet de Rabat R. Defense nat., F | ||
+ | </pre> | ||
+ | </small> | ||
+ | Pour une occurrence de Rabat, il donne : | ||
+ | * un numéro interne de document | ||
+ | * un chemin (de type xPath) absolu | ||
+ | * un chemin xPath relatif | ||
+ | * l'offset de la chaîne reconnue | ||
+ | * 20 caractères avant | ||
+ | * Rabat | ||
+ | * 10 caractères après | ||
+ | On peut en déduire que le document de numéro interne 1105 est relatif à un document publié par un auteur de Rabat. En revanche le contexte de celui dont la clé est 003A76 est totalement différent. | ||
+ | |||
+ | Une formation de quelques jours suffit pour permettre à un « ingénieur documentaliste » de faire des filtrages simples (mais instructifs) sur le texte intégral. | ||
+ | |||
+ | ===Quelques exemples de serveur=== | ||
+ | ;Sur ce wiki (Ticri/CIDE): | ||
+ | * [[Serveur d'exploration sur l'OCR]], | ||
+ | * [[Serveur d'exploration sur les dispositifs haptiques]], | ||
+ | * [[Serveur d'exploration sur la télématique]], | ||
+ | * [[Serveur d'exploration sur la TEI]], | ||
+ | * [[Épistémè|Serveur d'exploration Épistémè]]. | ||
+ | ;Dans le réseau Wicri: | ||
+ | * Sur le wiki '''[[wicri-musique.fr:Serveur d'exploration|Wicri/Musique]]''' : | ||
+ | ** sur des compositeurs [[wicri-musique.fr:Serveur d'exploration sur Mozart|Mozart]], [[wicri-musique.fr:Serveur d'exploration sur Monteverdi|Monteverdi]], [[wicri-musique.fr:Serveur d'exploration sur Heinrich Schütz|Heinrich Schütz]], | ||
+ | ** sur des types d’œuvres musicales : [[wicri-musique.fr:Serveur d'exploration sur le Magnificat|Magnificat]], [[wicri-musique.fr:Serveur d'exploration sur l'opéra|opéra]], [[wicri-musique.fr:Dies iræ]]. | ||
+ | * Sur le wiki '''[[wicri-terre.fr:Serveur d'exploration|Wicri/Terre]]''' : | ||
+ | ** des éléments chimiques : [[wicri-terre.fr:Serveur d'exploration sur le cadmium|cadmium]], [[wicri-terre.fr:Serveur d'exploration sur le gallium|gallium]], [[wicri-terre.fr:Serveur d'exploration sur l'indium|indium]], [[wicri-terre.fr:Serveur d'exploration sur le thulium|thulium]] ; | ||
+ | ** en relation avec [[wicri-france.fr:Serveur d'exploration|Wicri/France]], le [[wicri-terre.fr:Serveur d'exploration sur le cuivre en France|Serveur d'exploration sur le cuivre en France]], | ||
+ | ** en relation avec [[wicri-lor.fr:Serveur d'exploration|Wicri/Lorraine]], un laboratoire, le [[wicri-terre.fr:Serveur d'exploration sur le LRGP|Laboratoire réactions et génie des procédés]] (LRGP). | ||
+ | |||
==Voir aussi== | ==Voir aussi== | ||
;Notes: | ;Notes: | ||
<references/> | <references/> |
Version actuelle datée du 3 février 2017 à 09:31
Visite guidée du wiki Ticri/CIDE
Cette page a été initialement rédigée pour personnes impliqués dans des activités en rapport avec ce wiki (Ticri/CIDE), et notamment les :
- les étudiants en Master 2
- les participants à l'atelier « Expérimenter l'épistémè numérique avec ISTEX »,
Elle est plutôt destinée à un public ayant une culture initiale dans le document numérique.
Sommaire
Le wiki Ticri/CIDE
Le contenu éditorial du wiki Ticri/CIDE est principalement centré sur la valorisations des actes des colloques CIDE. On y trouve notamment :
- des articles en texte intégral « stucturé wiki » comme par exemple :
- l'article de la toute première communication à Rabat en 1998 : Édition comparative et hypertextuelle (Hélène Richy, Jacques André),
- l'annonce, le programme et les comités associés aux différents colloques, comme par exemple :
- CIDE.14 (Rabat) - 2011 ;
- CIDE.19 (Athènes) - 2016.
- des articles d'accompagnement dans une approche encyclopédique, par exemple :
Le wiki Ticri/CIDE utilise MediaWiki, le même moteur que celui de Wikipédia.
Comme pour Wikipédia, ce wiki ressemble parfois à une « zone urbaine en cours de rénovation avec de nombreux chantiers ». On trouve par exemple :
- des articles à l'état de copier/coller à partir d'un PDF. Ils sont indexés par la catégorie :
- CIDE article en texte brut
- Ils seront utilisés dans le cadre de travaux pratiques en Master 1 !
Terminologies, catégories et relations sémantiques
Le wiki Wicri/CIDE utilise les fonctionnalités offertes par les catégories de MediaWiki. Elles permettent de définir un thésaurus. Une solution retenue sur le réseau Wicri est l'utilisation du thesaurus EuroVoc. Voici un extrait autour de la Reconnaissance optique de caractères :
- Catégorie:Gestion électronique des documents - alignée EuroVoc
- > Catégorie:Reconnaissance optique de caractères - alignée EuroVoc
- > Catégorie:Problèmes de reconnaissance optique de caractères - spécifique CIDE
- > Catégorie:Reconnaissance optique de caractères - alignée EuroVoc
Il utilise également les attributs sémantiques de Semantic MediaWiki. Par exemple, il existe un attribut « A pour intervenant » qui lie un colloque CIDE à ses intervenants. Cet attribut permet de retrouver, pour un auteur, la liste des manifestations où il est intervenu.
Par exemple, pour l'auteur « Éric Trupin »,
la requête :{{#ask:[[A pour intervenant::Éric Trupin]]
| format=ol
| ?A pour titre=titre :
| sep=,_
| headers=hide
| intro=Éric Trupin est intervenu à :_ }}
|
a pour résultat : Éric Trupin est intervenu à :
|
Le réseau Wicri
|
Le réseau Wicri est conçu comme un espace partageable par « n'importe quelle communauté scientifique ». Il est organisé à la façon d'une collection d'encyclopédies thématiques (voir, par exemple, le wiki Wicri/Terre ou Wicri/Musique) ou de guides régionaux.
- Un même sujet peut être traité de façon différente sur différents wikis.
La ville de Pittsburgh a servi d'exemple pour une publication.
- sur ce wiki, au moment où cette page est rédigée, la page Pittsburgh est une simple « entrée de glossaire », avec un contenu limité à des liens,
- sur le wiki Wicri/Eau, cette page décrit la situation hydrographique de Pittsburgh.
Pour le même article, on peut constater des différences significatives de l'indexation sémantique [1] :
- Sur ce wiki : Alain Bonardi, Le patch comme document numérique : support de création et de constitution de connaissances
- Sur le wiki Wicri/Musique : CIDE (2007) Bonardi.
- Pourquoi Ticri/CIDE ?
Les wikis communs ont un nom de code préfixé par Wicri, exemple : Wicri/Musique.
Le wiki Ticri/CIDE n'est pas un « wiki commun » mais celui d'une communauté scientifique spécialisée. Cette communauté s'investit dans une problématique qui relève des « TIC pour la recherche et l'innovation » (Ticri). Le wiki commun des TICRI a pour code « Wicri/Ticri », le wiki « associé » des colloques CIDE a pour nom de code : Ticri/CIDE.
Les serveurs d'exploration
Les serveurs d'exploration sont des outils en cours de développement pour donner accès, dans un mode exploratoire, à une large bibliographie sur un sujet donné. On trouvera de nombreux exemples dans le réseau Wicri.
Ces serveur d'exploration sont notamment utilisés dans les travaux dirigés en Master 2 « sciences de l'information ».
Un exemple d'introduction est donné sur Wicri/France avec le village d'Aussois pour lequel on a étudié le rayonnement international à partir de 1700 publications extraites d'ISTEX. Pour aller sur la page Aussois du wiki Wicri/France.
|
Ce wiki contient un exemple assez simple sur la Text Encoding Initiative (TEI).
Sur la carte de droite, on trouve des projections des activités scientifiques autour de la TEI dans les laboratoires français.
- en cliquant sur les cercles on peut naviguer dans les bibliographies associées sur le serveur ;
- en cliquant sur les toponymes, on peut consulter les pages sur le wiki.
Sur les pages des serveurs, on trouve des cartouches tels que le suivant :
Les 3 dernières icones donnent accès à des moteurs de navigation portant sur 3 étapes du traitement des données.
- La première étape (dite Corpus, matérialisée par un CD-ROM) donne accès à des notices brutes. On y trouve notamment un index des formes simplifiées des noms d'auteurs avec leurs affiliations initiales.
- La deuxième étape (Curation avec un panneau H pour hôpital) bénéficie d'une première curation des données . On y trouve notamment un index des pays non reconnus.
- La troisième étape (Checkpoint) étape donne accès aux données nettoyées avant leur fusion dans le flux final. On y trouve des index classiques comme auteur, affiliation ou pays.
Pour faciliter une vision globale, la page d'accueil du serveur contient également des têtes de listes d'index, comme par exemple :
A chaque élément sont associés 2 liens : vers la page du wiki, et un lien (sur le nombre d’occurrences) vers le serveur d'exploration.
Pour aller plus loin : la bibliothèque de composants XML
Les plateformes de curation et d'exploration sont en grande partie réalisées par une bibliothèque de composants XML nommée DILIB (dans un environnement Unix). Ces composants peuvent être utilisés pour affiner des recherches.
Voici un exemple de code shell unix qui a été utilisé pour analyser les endroits ou la ville de Rabat était mentionnée dans le serveur d'exploration sur l'OCR.
HfdCat Import/IstexRepository.hfd \
| grep Rabat \
| SxmlFindText -b 20 -a 10 -s Rabat
La première ligne entraîne une exploration complète des 6406 documents ISTEX sur l'OCR. La commande grep est un accélérateur de sélection sur la présence de Rabat, n'importe où, dans un document. La troisième (SxmlFindText) demande de rechercher toutes les occurrences de la chaîne « Rabat » et d'afficher 20 caractères avant ( -b pour before) et 10 après.
Le résultat a l'allure suivante :
... 001105 1/18/2/4/4 istex/metadata/mods/name[2]/affiliation[2] 46 ity Soussi, BP 713, Rabat , Morocco ... 003A76 1/14/3/2/1/1/2767/1 istex/fulltext/istex:fulltextTEI/text/body/div/p[2767]/l 53 apres le sommet de Rabat R. Defense nat., F
Pour une occurrence de Rabat, il donne :
- un numéro interne de document
- un chemin (de type xPath) absolu
- un chemin xPath relatif
- l'offset de la chaîne reconnue
- 20 caractères avant
- Rabat
- 10 caractères après
On peut en déduire que le document de numéro interne 1105 est relatif à un document publié par un auteur de Rabat. En revanche le contexte de celui dont la clé est 003A76 est totalement différent.
Une formation de quelques jours suffit pour permettre à un « ingénieur documentaliste » de faire des filtrages simples (mais instructifs) sur le texte intégral.
Quelques exemples de serveur
- Sur ce wiki (Ticri/CIDE)
- Serveur d'exploration sur l'OCR,
- Serveur d'exploration sur les dispositifs haptiques,
- Serveur d'exploration sur la télématique,
- Serveur d'exploration sur la TEI,
- Serveur d'exploration Épistémè.
- Dans le réseau Wicri
- Sur le wiki Wicri/Musique :
- sur des compositeurs Mozart, Monteverdi, Heinrich Schütz,
- sur des types d’œuvres musicales : Magnificat, opéra, wicri-musique.fr:Dies iræ.
- Sur le wiki Wicri/Terre :
- des éléments chimiques : cadmium, gallium, indium, thulium ;
- en relation avec Wicri/France, le Serveur d'exploration sur le cuivre en France,
- en relation avec Wicri/Lorraine, un laboratoire, le Laboratoire réactions et génie des procédés (LRGP).
Voir aussi
- Notes
- ↑ Visible dans les boîtes en fin de page.