Nuvola apps important.png Attention, suite à une faille de sécurité, les liens vers les serveurs d'exploration sont désactivés.

-

Serveur d'exploration sur l'hypertexte

De H2PTM
Révision datée du 2 octobre 2015 à 08:50 par imported>Jacques Ducloy (Expérimenter de nouveaux modes de navigation)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)
Cette icône symbolyse un musée Musée du wiki H2PTM
Cette page fait référence à une ancienne expérimentation.

L'expérimentation en cours est le « Serveur d'exploration hypertexte et hypermédia ».

Cette page introduit un serveur d'exploration centré sur la thématique cœur de ce wiki : l'hypertexte. Ce type de service web vise par exemple à aider un spécialiste à situer l'activité de la communauté H2PTM dans le contexte international de l'hypertexte.

Cette expérimentation est également un test de faisabilité sur l'apport des wikis sémantiques pour la curation et l'exploration des données de la recherche. Cette réflexion sur l'évolution du réseau Wicri bénéficie du soutien du projet ISTEX.

Objectifs

Expérimenter l'ensemble de la chaîne numérique

WicriIstex.png

Ce serveur complète les services disponibles sur le wiki pour offrir des mécanismes d'exploration de corpus dans les thématiques de l'hypertexte.

Le wiki met en ligne des informations validées par des experts :

  • des articles issus des actes H2PTM, en résumé ou en texte intégral,
  • des documents complémentaires, par exemple des rapports de stage (ou cette page),
  • un ensemble de pages exprimant des relations sémantiques sur les comités scientifiques, les auteurs, les affiliations etc. Toutes ces relations sont créées et validées par des experts,
  • des informations de synthèse ou simplement complémentaires.

Le serveur met en ligne des informations brutes de provenances hétérogènes. Elles proviennent de sources différentes qui sont organisées en flux de données pour produire des sites d'exploration ou d'analyse. Ces données font l'objet de traitements de curation à l'aide d'informations sémantiques provenant des wikis.

Avec ses deux composantes (wikis et serveur d'exploration), le wiki H2PTM donne à tout lecteur un accès à des ressources éditoriales. Un lecteur averti pourra explorer les connaissances en naviguant dans les relations sémantiques ou en explorant les sites bibliographiques. Un contributeur averti pourra améliorer l'environnement sémantique utilisé dans les sites d'explorations ou de curation pour mettre en relief de nouvelles informations. Celles-ci pourront alors servir à exprimer de nouvelles connaissances.

Expérimenter de nouveaux modes de navigation

élément d'analyse d'une association (France et Luxembourg)

Les serveurs d'explorations sont destinés à accueillir un ensemble varié de mécanismes d'exploration de connaissances. Dans la phase actuelle, ils n'en contiennent qu'un échantillon, à titre de démonstration.

Par exemple, de simples listes de descripteurs triés par ordre de fréquence décroissantes permettent de se faire une idée sur un sujet donné.

On peut ainsi comparer la répartition des pays privilégiés respectivement sur les bases Pascal/Francis, PubMed et ISTEX.

On peut associer ce type de liste à un élément, par exemple à un auteur. Voici par exemple, à la suite de la bibliographie proprement dite, le profil thématique de Vincent Quint sur le Zoom France[1].

Enfin, dans le cadre de l'évolution du projet LorExplor, il sera possible d'introduire des outils graphiques ou statistiques. A titre d'exemple de faisabilité[2], il est possible de visualiser une association, comme celle qui relient Automatisation et terminologie sur le Zoom France. Un exemple d'algorithme de clusterisation est en début de mise au point (Voir par exemple une classification sur les auteurs du Zoom France avec la distance dite des cosinus.).

Expérimenter les wikis sémantiques pour la curation des données

projet de chaîne de génération

Les données doivent être traitées pour devenir interopérables. Il s'agit généralement de les ramener à une forme canonique. Par exemple, pour un nom de pays comme l'Allemagne, une mention d'affiliation peut prendre des formes très diverses et par exemple :

La plateforme HypertextV5

La plateforme ayant pour nom de code HypertextV5 (version 5) réunit un ensemble de flux de données pour constituer un site d'exploration. A partir de ce site, 3 extractions permettent des analyses plus fines sur des zones géographiques et une autre sur la thématique WWW.

Le tableau qui suit résume les étapes d'élaboration de ce site d'exploration à l'aide d'icônes cliquables.

Logo Paris tram ligne1.svg
Pascal
Francis

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux Pascal / Francis

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de confluence / dédoublonnage

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite un ensemble de 2725 notices extraites des bases Pascal et Francis
Logo Paris tram ligne2.svg

HAL

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux Hal Ccsd

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite un ensemble de 135 notices extraites de Hyper article en ligne (HAL)[4]
Logo Paris tram ligne3.svg
Medline

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux PubMed/Medline

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 769 documents en provenance de la base PubMed (MEDLINE).
Logo Paris tram ligne4.svg
PubMed
Central

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 1373 documents en provenance de l'archive PubMed Central.
Logo Paris tram ligne5.svg
Convergence NCBI
Logo Paris tram ligne3.svg
Logo Paris tram ligne4.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de confluence / dédoublonnage

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux fusionne les 2 flux précédents. A terme, il s'agit de fusionner les doublons avec un enrichissement mutuel.
Logo Paris tram ligne6.svg
H2PTM

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux constitué de documents venant du réseau Wicri

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux vise à introduire dans le serveur les documents qui proviennent de ce wiki - il n'est pas encore opérationnel.
Logo Paris tram ligne7.svg
ISTEX

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux ISTEX

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux introduit un corpus d'environ 5000 notices ISTEX (provenant en très grande majorité de Springer)
Flux principal
Logo Paris tram ligne1.svg
Logo Paris tram ligne2.svg
Logo Paris tram ligne5.svg
Logo Paris tram ligne6.svg
Logo Paris tram ligne7.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux de convergence qui donne accès au serveur

Pour aller sur l'étape de confluence / dédoublonnage

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux regroupe les 10 000 notices sur la thématique Hypertexte
Zoom France

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce zoom permet une analyse plus fine de 540 articles produits par des chercheurs ayant une affiliation française
Zoom Allemagne

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce zoom permet une analyse plus fine de 850 articles produits par des chercheurs ayant une affiliation en Allemagne.
Zoom USA

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce zoom permet une analyse plus fine de 540 articles produits par des chercheurs ayant une affiliation des USA.
Zoom WWW

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce zoom permet une analyse plus fine de 500 articles autour de WWW

Anciennes versions

version du 25 février 2014

Explications complémentaires

icône signification
Pour aller directement sur le site d'exploration du serveur de la plateforme HypertextV5 Cette icône identifie l'étape qui permet de naviguer dans l'ensemble des 10 000 notices bibliographiques issues des différents corpus.
Pour aller sur la page d'introduction du flux principal de confluence Cette icône identifie le flux principal (Main) d'un serveur d'exploration. Ce flux se compose d'une étape de fusion, suivie d'une de curation pour produire le site d'exploration. Au moment de la rédaction de ce paragraphe, il n'y a pas encore de traitements de curation installés sur ce flux.
Pour aller, à titre d'exemple, sur l'étape Corpus du flux Pascal/Francis Cette icône identifie la première étape d'un flux. Cette étape se limite généralement à un reformatage en TEI. A noter sur ce serveur :
  • Pour le flux PascalFrancis, un index qui regroupe, pour une personne, ses diverses graphies et les affiliations associées voir l'index et l'entrée l'entrée Crehange M
Pour aller, à titre d'exemple, sur l'étape de dédoublonnage du flux Pascal/francis Cette icône indique une étape de confluence. Dans le cas du flux Pascal/Francis, il s'agit surtout de dédoublonner les notices Pascal et Francis. On peut comparer le nombre de documents dans l'étape Corpus, puis dans l'étape Merge de ce flux.
Pour aller, par exemple, sur l'étape de curation du flux PubMed Cette icône indique une phase de curation. En fait, les actions de curation démarrent sur cette étape pointée par cette icône et se poursuivent sur la suivante. Par exemple, pour le flux ISTEX, comparer par exemple le nombre de villes repérées dans l'étape Curation et dans Checkpoint.
Aiga immigration.png Cette icône indique une étape de vérification en fin de traitement d'un flux primaire. En fait, elle permet également une analyse partielle d'une thématique à partir du point de vue privilégié par la source.
1328101984 Zoom-in.png Cette icône introduit un flux de type Zoom. Au moment de la rédaction de ce paragraphe, les traitements de curation ne sont pas réellement introduits à ce niveau.
ExplorExtractionIcon.png Cette icône permet d'atteindre l'étape d'extraction d'un flus Zoom. Sur la page de paramétrage du serveur (Wicri:HypertextV5/Paramètres, data), un paragraphe contient des exemples de critères (encore élémentaires) de sélection.
Pour aller, par exemple, sur l'étape d'analyse du zoom sur la France Cette icône permet d'atteindre l'étape finale d'analyse d'un flux de type Zoom, et donc de permettre une analyse plus fine et comparative.

Expérimentations spécifiques

Sur ce wiki : tests pour l'automatisation des liens avec les régions

Cette expérimentation vise à tester la faisabilité de liens automatiques et signifiants du wiki vers le serveur d'exploration. Par exemple, dans une page personne, un modèle doit permettre de calculer si un lien doit être généré vers une page existante. Pour cela on peut extraire du wiki une liste d'entités reconnues (ici les auteurs) et construire une liste de propriétés sémantiques qui pourront être analysées.

La liste qui suit a été générée de façon semi-automatique pour créer des relations sémantiques sur les régions repérées sur le serveur[5]. Elle permet, dans le modèle H2ptm région de ne générer un lien vers le serveur que si la région est effectivement présente sur le serveur d'exploration.

Alabama, Alagoas, Alsace, Amazonas (Brésil), Andalousie, Angleterre, Aquitaine, Aragon, Aragon (communauté autonome), Arizona, Auvergne, Bade-Wurtemberg, Bahia, Basse-Normandie, Basse-Saxe, Bavière, Berlin, Bohême centrale, Bourgogne, Brême (Land), Californie, Canaries, Canton de Berne, Canton de Bâle-Ville, Canton de Fribourg, Canton de Genève, Canton de Neuchâtel, Canton de Vaud, Canton de Zurich, Canton du Tessin, Caroline du Nord, Caroline du Sud, Castille-La Manche, Castille-et-León, Catalogne, Champagne-Ardenne, Colorado, Communauté de Madrid, Communauté valencienne, Connecticut, Dakota du Nord, Dakota du Sud, Delaware, District d'Arnsberg, District de Basse-Franconie, District de Cologne, District de Columbia, District de Darmstadt, District de Dresde, District de Fribourg-en-Brisgau, District de Giessen, District de Haute-Bavière, District de Karlsruhe, District de Kassel, District de Leipzig, District de Münster, District de Souabe, District de Stuttgart, District de Tübingen, District fédéral central, Dongbei, Espírito Santo, Estrémadure, Finlande occidentale, Floride, Franche-Comté, Galice, Gauteng, Gouvernorat de La Manouba, Grand Londres, Grand Manchester, Groningue (province), Guangdong, Gueldre, Géorgie (États-Unis), Hambourg, Haute-Autriche, Haute-Normandie, Hawaï, Hesse (Land), Hollande-Méridionale, Hollande-Septentrionale, Hongrie centrale, Hovedstaden, Illinois, Indiana, Iowa, Irlande du Nord, Jilin, Jutland du Nord, Kansas, Kentucky, Languedoc-Roussillon, Latium, Lorraine, Louisiane, Maine (État), Maryland, Massachusetts, Michigan, Midi-Pyrénées, Minas Gerais, Minnesota, Missouri (État), Montana, Moravie, Nebraska, New Hampshire, New Jersey, Nord-Pas-de-Calais, Nottinghamshire, Nouveau-Mexique, Ohio, Oklahoma, Ontario, Oregon, Overijssel, Oxfordshire, Paraíba, Pará, Pays basque, Pays de la Loire, Pennsylvanie, Pernambuco, Picardie, Piémont, Poitou-Charentes, Provence-Alpes-Côte d'Azur, Province d'Anvers, Province de Namur, Province du Brabant flamand, Province du Brabant wallon, Préfecture d'Iwate, Québec, Rhode Island, Rhénanie-Palatinat, Rhénanie-du-Nord-Westphalie, Rhône-Alpes, Rio Grande do Norte, Rio Grande do Sul, Région Bourgogne, Région Bretagne, Région Centre, Région de Bruxelles-Capitale, Région wallonne, Santa Catarina, Sarre (Land), Saxe (Land), Saxe-Anhalt, Schleswig-Holstein, Sicile, Sofia-ville (oblast), Tennessee, Texas, Utah, Utrecht (province), Vermont, Vienne (Autriche), Virginie, Virginie-Occidentale, Vénétie, Wisconsin, Yorkshire-et-Humber, Zhejiang, Écosse, Émilie-Romagne, État de New York, État de Rio de Janeiro, État de São Paulo, État de Washington, État du Mississippi, Île-de-France, Îles Baléares.

Cette opération est réalisée de façon semi-automatique à partir d'une commande shell :

DamCat HypertextV5/Data/Main/Exploration/AffRegion.i.hfd  \
  | SgmlSelect -g idx/kw# -p "--> [[A pour région repérée sur HypertextV5::@g1]], <\!-- "

Elle génère une liste dont voici un extrait :

--> [[A pour région repérée sur HypertextV5::Lorraine]], <!-- 
--> [[A pour région repérée sur HypertextV5::Midi-Pyrénées]], <!--

A terme, on peut prévoir assez simplement l'utilisation de robots à ce niveau.

Enrichissement encyclopédique du wiki H2PTM

Le serveur d'exploration, même dans sa phase de développement initiale, permet déjà de repérer les principaux acteurs, leurs affiliations et leurs environnements géographiques.

Dans un premier temps, on se contente souvent de mettre des pages avec un contenu minimal, sachant qu'il existe des modèles pour activer automatiquement des liens. Par exemple, au moment où ce paragraphe est rédigé, la page Région Centre a, dans la base de données du wiki, un contenu qui se limite à :

<small>{{Accès géographique}} > [[Europe]] > [[France]] > 
[[Région Centre| Centre]] </small><hr/>
==Voir aussi==
{{H2ptm région|référence=France}}

En allant sur la page on peut voir le volume d'informations générés par le modèle H2ptm région.

Dans un deuxième temps, un contributeur peut rédiger une analyse plus ou moins approfondie, (voir par exemple pour la Lorraine).

Intégration du wiki H2PTM et de son serveur d'exploration dans le réseau éditorial Wicri

Le wiki H2PTM fait partir d'un réseau de wikis. Les informations traitées sur ce serveur d'exploration vont alimenter en informations l'ensemble du réseau dans la thématique de l'hypertexte.

Par exemple, pour le Brésil, la page associée à ce pays sur l'étape Checkpoint de Pascal/Francis permet de repérer un auteur nommé Daniel Schwabe. A partir de cette information, une page correspondant à cet auteur a été créée sur Wicri/Brésil. Il est alors possible d'accéder à sa bibliographie dans HypertextV5 à partir du wiki Wicri/Brésil.

L'analyse (manuelle dans ce cas) des notices associées à cet auteur permet de repérer son affiliation, l'Université pontificale catholique de Rio de Janeiro, et d'enrichir simultanément ce wiki et le wiki Wicri/Brésil sur l'environnement institutionnel (avec la possibilité de faire des liens à différents niveaux sur le serveur d'exploration.

Améliorations de la souche technique

Avec ses documents en texte intégral, le wiki H2PTM est un espace privilégié pour tester l'infrastructure technique associée aux projets Wicri et LorExplor.

Les améliorations techniques portent sur différents points et par exemple :

  • le développement de nouveaux outils au sein de la bibliothèque Dilib. Par exemple pour l'intégration du flux ISTEX,
  • un travail de normalisation ou plus précisément d'adaptation de normes et standards. Par exemple pour désigner de manière unique, une notice bibliographique ou un document avec ses variantes, un type RBID a été défini sur Wicri/Métadonnées.
  • des adaptations sur les relations sémantiques et les modèles utilisés sur le réseau Wicri. Par exemple, pour la rédaction de cet article, un modèle de visualisation des icônes Explor icon link.
  • des éléments de formation, avec par exemple une application pédagogique autour de Rabelais sur Wicri/Manuel.

Voir aussi

Notes
  1. Les croisements de ce type sont relativement longs à générer. Ils ne sont pas déclenchés en standard sur le flux d'exploration mais sur les sites d'analyse
  2. Cette partie est en cours de mise au point et comporte des erreurs algorithmiques et des défauts de mise en page.
  3. Voir par exemple DEU dans la Zone A14, sous-zone 3 de la notice de la notice Pascal:12-0145021
  4. Ce flux est extrait de l'ancienne API de HAL. Une nouvelle version est en préparation.
  5. Voir sur la page de discussion
Sur ce wiki
Dans le réseau Wicri

Ce serveur constitue une application pilote pour la mise au point des outils liés au serveurs d'exploration. Voir notamment :

… davantage au sujet de « Serveur d'exploration sur l'hypertexte »
Alabama +, Alagoas +, Alsace +, Amazonas (Brésil) +, Andalousie +, Angleterre +, Aquitaine +, Aragon +, Aragon (communauté autonome) +, Arizona +, Auvergne +, Bade-Wurtemberg +, Bahia +, Basse-Normandie +, Basse-Saxe +, Bavière +, Berlin +, Bohême centrale +, Bourgogne +, Brême (Land) +, Californie +, Canaries +, Canton de Berne +, Canton de Bâle-Ville +, Canton de Fribourg +, Canton de Genève +, Canton de Neuchâtel +, Canton de Vaud +, Canton de Zurich +, Canton du Tessin +, Caroline du Nord +, Caroline du Sud +, Castille-La Manche +, Castille-et-León +, Catalogne +, Champagne-Ardenne +, Colorado +, Communauté de Madrid +, Communauté valencienne +, Connecticut +, Dakota du Nord +, Dakota du Sud +, Delaware +, District d'Arnsberg +, District de Basse-Franconie +, District de Cologne +, District de Columbia +, District de Darmstadt +, District de Dresde +, District de Fribourg-en-Brisgau +, District de Giessen +, District de Haute-Bavière +, District de Karlsruhe +, District de Kassel +, District de Leipzig +, District de Münster +, District de Souabe +, District de Stuttgart +, District de Tübingen +, District fédéral central +, Dongbei +, Espírito Santo +, Estrémadure +, Finlande occidentale +, Floride +, Franche-Comté +, Galice +, Gauteng +, Gouvernorat de La Manouba +, Grand Londres +, Grand Manchester +, Groningue (province) +, Guangdong +, Gueldre +, Géorgie (États-Unis) +, Hambourg +, Haute-Autriche +, Haute-Normandie +, Hawaï +, Hesse (Land) +, Hollande-Méridionale +, Hollande-Septentrionale +, Hongrie centrale +, Hovedstaden +, Illinois +, Indiana +, Iowa +, Irlande du Nord +, Jilin +, Jutland du Nord +, Kansas +, Kentucky +, Languedoc-Roussillon +, Latium +, Lorraine +, Louisiane +, Maine (État) +, Maryland +, Massachusetts +, Michigan +, Midi-Pyrénées +, Minas Gerais +, Minnesota +, Missouri (État) +, Montana +, Moravie +, Nebraska +, New Hampshire +, New Jersey +, Nord-Pas-de-Calais +, Nottinghamshire +, Nouveau-Mexique +, Ohio +, Oklahoma +, Ontario +, Oregon +, Overijssel +, Oxfordshire +, Paraíba +, Pará +, Pays basque +, Pays de la Loire +, Pennsylvanie +, Pernambuco +, Picardie +, Piémont +, Poitou-Charentes +, Provence-Alpes-Côte d'Azur +, Province d'Anvers +, Province de Namur +, Province du Brabant flamand +, Province du Brabant wallon +, Préfecture d'Iwate +, Québec +, Rhode Island +, Rhénanie-Palatinat +, Rhénanie-du-Nord-Westphalie +, Rhône-Alpes +, Rio Grande do Norte +, Rio Grande do Sul +, Région Bourgogne +, Région Bretagne +, Région Centre +, Région de Bruxelles-Capitale +, Région wallonne +, Santa Catarina +, Sarre (Land) +, Saxe (Land) +, Saxe-Anhalt +, Schleswig-Holstein +, Sicile +, Sofia-ville (oblast) +, Tennessee +, Texas +, Utah +, Utrecht (province) +, Vermont +, Vienne (Autriche) +, Virginie +, Virginie-Occidentale +, Vénétie +, Wisconsin +, Yorkshire-et-Humber +, Zhejiang +, Écosse +, Émilie-Romagne +, État de New York +, État de Rio de Janeiro +, État de São Paulo +, État de Washington +, État du Mississippi +, Île-de-France +, Îles Baléares +  et @g1 +