Serveur d'exploration sur la recherche au Kazakhstan : Différence entre versions

De Wicri Europe
imported>Jacques Ducloy
imported>Jacques Ducloy
Ligne 4 : Ligne 4 :
 
* Une première, codée KazakhstanV1, nom de code propose simplement une navigation sur un ensemble d'environ 1400 références extraites de la base [[Pascal (base de données)|Pascal]].
 
* Une première, codée KazakhstanV1, nom de code propose simplement une navigation sur un ensemble d'environ 1400 références extraites de la base [[Pascal (base de données)|Pascal]].
 
** {{Explor lien|area=KazakhstanV1|texte=Pour accéder au serveur Kazakhstan (Pascal)|url=Main/index.html}}.
 
** {{Explor lien|area=KazakhstanV1|texte=Pour accéder au serveur Kazakhstan (Pascal)|url=Main/index.html}}.
* Une deuxième, codée KazakhstanV15, sert de base d'entrainement pour la mise au point du flux Inist:StanalystBig.
+
* Une deuxième, codée KazakhstanV12, sert de base d'entrainement pour la mise au point d'un flux simple avec Zoom.
* Une troisième, codée KazakhstanV2, met en oeuvre 3 flux de données, à partir de 2 sources (Pascal et Medline) qui convergent dans un flux final.
+
* Une troisième, codée KazakhstanV15, sert de base d'entrainement pour la mise au point du flux Inist:StanalystBig.
 +
* Une quatrième, codée KazakhstanV2, met en oeuvre 3 flux de données, à partir de 2 sources (Pascal et Medline) qui convergent dans un flux final.
 +
* Une cinquième, codée KazakhstanV25, met en oeuvre 5 flux de données, à partir de 2 sources (Pascal et Medline) qui convergent dans un flux final. Ce flux sert alors à alimenter 2 zooms.
 
* {{Explor lien|area=KazakhstanV2|texte=Pour accéder au chantier KazakhstanV2|url=Main/index.html}}.
 
* {{Explor lien|area=KazakhstanV2|texte=Pour accéder au chantier KazakhstanV2|url=Main/index.html}}.
 
==Détails sur la première étape KazakhstanV1==
 
==Détails sur la première étape KazakhstanV1==

Version du 24 mai 2013 à 22:57

Cette page introduit une expérimentation[1] portant sur l'exploration de corpus sur la recherche au Kazakhstan.

Pour permettre la mise au point du processus de génération, trois variantes sont ou vont être mises en œuvre à partir de ce corpus :

  • Une première, codée KazakhstanV1, nom de code propose simplement une navigation sur un ensemble d'environ 1400 références extraites de la base Pascal.
  • Une deuxième, codée KazakhstanV12, sert de base d'entrainement pour la mise au point d'un flux simple avec Zoom.
  • Une troisième, codée KazakhstanV15, sert de base d'entrainement pour la mise au point du flux Inist:StanalystBig.
  • Une quatrième, codée KazakhstanV2, met en oeuvre 3 flux de données, à partir de 2 sources (Pascal et Medline) qui convergent dans un flux final.
  • Une cinquième, codée KazakhstanV25, met en oeuvre 5 flux de données, à partir de 2 sources (Pascal et Medline) qui convergent dans un flux final. Ce flux sert alors à alimenter 2 zooms.
  • Pour accéder au chantier KazakhstanV2.

Détails sur la première étape KazakhstanV1

La première application porte sur une structure simple avec une seule source d'entrée (Pascal). La figure ci-dessous montre l'environnement du lecteur final, en partant de la droite, et la procédure de création, en partant de la gauche.

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du flux Pascal.

Pour voir l'état initial des notices

Pour aller sur l'étape de dédoublonnage

Pour aller sur la base de curation

Pour aller sur la base d'exploration

Pour aller sur Wicri/Europe (fr)

Pour aller sur Wicri/Asie (fr)

L'utilisateur, « simple lecteur » navigue dans les wikis, et notamment Wicri/Europe ou Wicri/Asie, et accède par des liens vers des pages du serveur.

Le traitement se fait en 4 étapes.

  1. Corpus : conversion de notices en format Inist vers la TEI. Cette étape est matérialisée par une icône de CD-ROM sur le schéma ci-dessus et sur le site.
  2. Dédoublonnage réduction des notices Pascal et Francis
  3. Curation : interprétation des codes des pays d'affiliation. Cette étape est matérialisée par un panneau Hôpital sur le schéma ci-dessus et sur le site.
  4. Exploration ; La curation se termine par une identification des codes INSEE en vue de la création d'un index des régions.

Exemple de navigation autour des noms de pays

La page Kazakhstan donne accès à un tableau qui pointe vers les 10 premiers pays qui coopèrent avec le Kazakhstan (avec comme critère le nombre de publication ayant en commun une affiliation d'auteur).

Le site d'exploration est visible depuis l'ensemble de l'internet et donc de l'ensemble du réseau Wicri. Par exemple la page Kazakhstan du wiki Wicri/France utilise ce site pour mettre en avant les régions françaises.

Détails sur KazakhstanV15

Cette version est en cours de développement sur site de développement. Seul le paramétrage est accessible sur le wiki : Wicri:KazakhstanV15.

logo travaux Ce site est en cours de mise au point. La phase actuelle porte sur la correspondance de l'accès iconographique vers les étapes. Les contenus atteints ne sont pas encore significatifs.
Flux de gérération du référentiel

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du flux Pascal.

Pour voir l'état initial des notices

Pour aller sur le référéentiel

La taille du corpus a été volontairement réduite à 1500 notices (au lieu de 3000 dans les exemples précédents et suivants) pour faciliter une génération ex nihilo et complète très rapide.

Les possibilités d'exploration du Référentiel sont limités à des index.

échantillon Cet échantillon porte sur 50 % du flux précédent (soit 600 notices).
Russie Cet échantillon porte sur une extraction du référentiel sur le critère Russie (en affiliation)

Détails sur l'étape KazakhstanV2

La nouvelle version repose sur l'emploi de 2 corpus; l'un est extrait de Pascal (le même que pour la version précédente) et l'autre de Medline.

On distinguera 3 flux de curation (et d'analyse ou d'exploration).

DilibExplorGabarit2.png

ExplorGabarit1Arrow.png

ExplorGabarit1Arrow.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du flux Pascal/Francis.

Pour voir les notices Pascal/Francis

Pour aller sur l'étape de dédoublonnage

Pour aller sur la base de curation

Pour aller sur la base d'exploration

Pour aller sur le flux du corpus Medline

Pour voir les notices Medline

Pour aller sur la base de curation

Pour aller sur la base d'exploration

Pour aller sur le site final d'exploration

Pour aller sur le site final d'exploration

Pour aller sur la base de curation

Pour aller sur le site final d'exploration

Pour aller sur Wicri/Europe (fr)

Pour aller sur Wicri/Asie (fr)

L'utilisateur utilise principalement le site final d'exploration. Il peut également avoir intérêt à approfondir un sujet par des comparaisons sur les sites d'analyse des flux Pascal et Medline qui donnent des points de vue complémentaires.

Concernant le traitement des données,

  • Le flux Pascal Francis comporte ici 4 étapes :
    • Corpus.
    • Fusion. Cette étape assure un dédoublonnage des notices Pascal et Francis qui sont quasiment identiques.
    • Curation.
    • Analyse.

Voir aussi

Notes
  1. Plus précisément dans les travaux préparatoires au projet LorExplor décrit sur le wiki Artist
Pour les aspects techniques, voir