Nuvola apps important.png Attention, suite à une faille de sécurité, les liens vers les serveurs d'exploration sont désactivés.

-

Serveur d'exploration sur l'hypertexte (maquette 2012)

De H2PTM
Révision datée du 22 septembre 2015 à 10:57 par imported>Jacques Ducloy
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)
Cette icône symbolyse un musée Musée du wiki H2PTM
Cette page fait référence à une ancienne expérimentation.

L'expérimentation en cours est le Serveur d'exploration hypertexte et hypermédia.

Cette page introduit une expérimentation en cours sur la génération automatique d'un système de navigation hypertexte à partir d'un ensemble de corpus. Cet ensemble de données est lui-même centré sur la thématique cœur de ce wiki : l'hypertexte.

Ce type de service web vise par exemple à aider un spécialiste à situer l'activité de la communauté H2PTM dans le contexte international de l'hypertexte.

Cette expérimentation est également un test de faisabilité sur l'apport des wikis sémantiques pour la curation et l'exploration des données de la recherche. Le cadre de ce premier test est relativement limité : homogénéisation des noms de pays d'affiliations sur quatre corpus de données pour alimenter un serveur d'investigation. Il constitue de fait la première étape d'une réflexion sur l'évolution du réseau Wicri en relation avec le projet ISTEX.

Une deuxième étape est en cours de développement (voir Serveur d'exploration sur l'hypertexte).

Les serveurs d'investigation

Dans la terminologie Dilib, un serveur d'investigation est un site web qui permet d'explorer un ensemble de ressources, éventuellement hétérogènes. Il s'agit en fait d'un système de recherche d'information doté d'outils infométriques qui vont offrir divers chemins de navigation. La figure ci-dessous montre une copie d'écran de visualisation des relations entre affiliations françaises et luxembourgeoises.

élément d'analyse d'une association (France et Luxembourg)

D'un point de vue technique, un tel ensemble est réalisé par assemblage de composants de base, ce qui donne une forte flexibilité.

Un élément important de la démarche est l'utilisation de ressources hétérogènes et de structuration variable. Par exemple, dans l'application actuelle 4 sources de données sont utilisées. Ceci implique une phase préalable de curation de données.

projet de chaîne de génération

La figure ci-dessus donne une première idée de l'application visée.

Avant de servir à produire des résultats, le serveur d'investigation va déjà servir à réaliser diverses opérations de curation de données, et par exemple :

  • homogénéisation des structures vers un format pivot (ici la TEI),
  • homogénéisation des éléments décrivant le réseau d'acteurs depuis les notions géographiques jusqu'aux auteurs en passant par les affiliations,
  • homogénéisation des éléments d'indexation.

Un premier exemple d'investigation

Cette application est en démarrage et se limite encore à quelques tests de faisabilité. Le point d'entrée de la dernière version est :

Cela dit, elle peut déjà être utilisée pour des analyses simples. Voici par exemple des premiers éléments sur l'hypertexte au Brésil.

Voir aussi :

Les corpus

Pour cette expérimentation ({{formatnum5000}} références), des corpus ont été constitués à partir d'une requête élémentaire, « présence du terme hypertext » dans différentes sources d'information :

  • les bases Pascal et Francis de l'Inist, via le serveur Stanalyst (2763 notices),
  • le service Hal du CCSD (143 notices),
  • les bases PubMed et PubMed Central de la NLM (respectivement 769 et 1374 notices ou documents).

Les bases Pascal et Francis

Le service Stanalyst permet notamment d'extraire des corpus sous deux formats :

  • le format standard, basé sur la norme ISO 2709, avec une adaptation Xml.
  • un format d'édition dit « format serveur ».

Les notices de l'Inist donnent les affiliations de tous les auteurs et bénéficient d'une indexation contrôlée.

Les bases PubMed et PubMed Central

Ces bases sont accessibles au public à partir du site de la NLM.

Premiers exemples d'interactions entre le réseau Wicri et les serveurs

Curation des noms de pays

La génération des serveurs utilise des tables qui sont construites et mises à jour dans le réseau Wicri. Par exemple la curation des pays utilise les tables contenues dans deux pages du wiki Wicri/Métadonnées :

  • La codification ISO 3166-1 qui donne les codes ISO des noms de pays et une correspondance avec la forme littérale utilisée sur Wicri (et sur Wikipédia).
  • Une Table des noms de pays en anglais, utilisée notamment pour PubMed et PubMed Central qui n'utilisent pas les codes ISO.

Sur l'espace Curation du serveur d'investigation on peut alors évaluer les mécanismes de reconnaissance, voir par exemple les 2 listes :

Régions identifiées dans le serveur

Cette liste a été produite par l'exécution d'une commande sur le serveur d'investigation. Pour les régions en bleu l'appel d'un modèle permet également de générer un lien sur le serveur (voir pour la Lorraine).

Alsace, Angleterre, Aquitaine, Auvergne, Basse-Normandie, Bourgogne, Grand Londres, Haute-Normandie, Languedoc-Roussillon, Latium, Lorraine, Midi-Pyrénées, Nord-Pas-de-Calais, Pays de la Loire, Picardie, Poitou-Charentes, Provence-Alpes-Côte d'Azur, Rhône-Alpes, Région Bretagne, Région Centre, Utah, Île-de-France,

Voir aussi