Nuvola apps important.png Attention, suite à une faille de sécurité, les liens vers les serveurs d'exploration ont été désactivés. Des actions de régénération sont en cours et quelques serveurs sont à nouveau accessibles.

-

Serveur d'exploration sur la méthode scrum

De Wicri Informatique

Cette page introduit le « Serveur d'exploration sur la méthode scrum ».

Il contient 2769 documents (Une recherche documentaire avec le critère « scrum » donne un corpus de plus de 10 000 références). A la suite d'un travail de curation (non achevé) la volumétrie finale est de 1 665 références.

Ce tableau de Albert Anker illustre une activité à caractère pédagogique sur une page Pour voir un premier résultat
Ce serveur a été constitué à partir d'une première expérimentation qui a montré une influence assez catastrophique de l'OCR sur la qualité d'un corpus.

Cette première version a été conservée pour des raisons pédagogiques :

Les corpus

Après un premier essai, les corpus ont été affinés comme suit :

ISTEX : scrum AND (method agil* sprint* cycle)[1]
PubMed : scrum NOT football [2]
PubMed Central : scrum NOT football
Hal : scrum[3]
Pascal / Francis: scrum[4]

Les données médicales ont été volontairement conservées pour trouver ces applications de la méthode Scrum en milieu médical. Cette contrainte complique très nettement les actions de curation.

Navigation

Logo Paris tram ligne1.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux ISTEX

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux donne accès 2000 documents ISTEX (et 1159 après curation).
Logo Paris tram ligne2.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux Pascal / Francis

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de confluence / dédoublonnage

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 152 références, dont 2 venant de Francis, et 150 venant de Pascal.

Après curation le volume est réduit à 135.

Logo Paris tram ligne3.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux Hal Ccsd

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 14 références téléchargées de HAL. Après curation le volume est réduit à 14.
Logo Paris tram ligne4.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux PubMed/Medline

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 561 références ou documents provenance de l'archive PubMed (MEDLINE). Après curation le volume est réduit à 42.
Logo Paris tram ligne5.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 561 références ou documents provenance de l'archive PubMed Central. Après curation le volume est réduit à 377.
Logo Paris tram ligne6.svg
Logo Paris tram ligne4.svg
Logo Paris tram ligne5.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de confluence / dédoublonnage

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 419 références, Après curation le volume est réduit à 416.
Logo Paris tram ligne7.svg
Flux principal
Logo Paris tram ligne1.svg
Logo Paris tram ligne2.svg
Logo Paris tram ligne3.svg
Logo Paris tram ligne6.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux de convergence qui donne accès au serveur

Pour aller sur l'étape de confluence / dédoublonnage

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux fusionne 1 724 références issues des étapes précédentes.

Ce volume est ramené à 1 717 après dédoublonnage par DOI. Enfin, il est réduit à 1 665 par clé de dédoublonnage IDAT.

Zoom France

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 51 références ayant au moins un auteur avec une affiliation française.
Zoom UK

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 112 références ayant au moins un auteur avec une affiliation du Royaume-Uni.
Zoom USA

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 324 références ayant au moins un auteur avec une affiliation des Etats-Unis d'Amérique.
Zoom Allemagne

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 92 références ayant au moins un auteur avec une affiliation allemande.

Projections géographiques

Attention : Le travail de curation n'est pas terminé, les projections géographiques doivent être interprétées avec la plus grande précaution
 

Observations

Personnalités repérées

Curation des données

Sérum

Les mécanismes d'OCR ont provoqué un grand nombre de transformation « serum -> scrum ». Ce phénomène est ici particulièrement gênant (voir Serveur d'exploration sur la méthode scrum (premier essai)). Il a conduit à une stratégie de sélection « non exhaustive » mais pour laquelle l'influence de l'OCR sur sérum est encore considérable.

La curation a été effectuée principalement à partir des ISSN. Voici un exemple de script utilisé pour repérer les revues sensibles à partir de l'index des mots du titre[5] :

HfdIndexSelect -h $EXPLOR_AREA/Data/Main/Exploration/Title.i -Sk "serum"  \
         | HfdSelect -Kh $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd    \
         | SxmlSelect -s record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno/1 -p @s1 -p @1  \
         | sort | IndexBuildRec | grep ">3<"

Autres sources de bruit

Il existe également

  • une société nommée Scrum Inc (dans le bio médical),
  • un modèle océanique nommé SCRUM (S-Coordinates Rutgers University Model).

Archives

Pour garder une trace des curations la première version a été conservée (voir la version du 13 mai 2016. Attention, dans cette première version les données venant de PubMed Central ont pratiquement disparues à la suite d'un bug).

Paramétrage

Voir aussi

Notes
  1. On impose la présence de scrum et on ajoute un ensemble de termes permettant à ElasticSearch de faire monter les scores des documents effectivement relatifs à la méthodologie scrum
  2. On écarte les documents contenant football tout en laissant le rugby pour retenir les documents méthodologiques pouvant faire allusion à la mêlée de rugby.
  3. Compte tenu de son faible volume et d'un bruitage léger le corpus a été miantenu en l'état
  4. Corpus bruité mais qui permet de guider une curation au niveau du serveur par les ISSN
  5. Pour montrer l'évolution une ancienne version est visible ici.