Nuvola apps important.png Attention, suite à une faille de sécurité, les liens vers les serveurs d'exploration ont été désactivés. Des actions de régénération sont en cours et quelques serveurs sont à nouveau accessibles.

-

Serveur d'exploration sur la méthode scrum (premier essai)

De Wicri Informatique
Révision datée du 13 mai 2016 à 12:27 par imported>Jacques Ducloy (Les corpus)
logo travaux Pages et serveurs en cours de construction

Une première expérience met en évidence une sérieux besoin de curation. Plus précisément, les mécanismes d'OCR ont occasionné un grand nombre de transformations « serum -> scrum ».

Un nouveau corpus est en cours de constitution.

Premier essai

Cette section introduit le premier « Serveur d'exploration sur la méthode scrum ». Il contient 10040 documents.

Ce tableau de Albert Anker illustre une activité à caractère pédagogique sur une page Espace dédié à un travail pédagogique
Cette expérimentation montre une influence assez catastrophique de l'OCR sur la qualité d'un corpus.

Un autre corpus est en cours de constitution.

Le corpus

Pour un premier essai, le corpus a été constitué à la suite d'une première observation sur ISTEX qui a montré un contenu potentiellement significatif. En effet une requête limitée à « scrum » montre peu de bruit dans les 10 premiers titres :

  1. "Scrum in Research",
  2. "Scrum Practices in Global Software Development: A Research Framework",
  3. "Using Process Definitions to Support Reasoning about Satisfaction of Process Requirements",
  4. "Jazz improvisation as a learning metaphor for the scrum software development methodology",
  5. "Comparing Agile Processes for Agent Oriented Software Engineering",
  6. "Applying Multi-Criteria Decision Analysis to Global Software Development with Scrum Project Planning",
  7. "Using scrum in a globally distributed project: a case study",
  8. "An Ideal Process Model for Agile Methods",
  9. "Serious neck injuries in U19 rugby union players: an audit of admissions to spinal injury units in Great Britain and Ireland",
  10. "Distributed Scrum in Research Project Management",

En effet seul le neuvième est relatif au sport (scrum signifie « mêlée » en anglais). Le corpus ISTEX a donc été extrait avec la requête :

scrum NOT title:rugby

Navigation

Logo Paris tram ligne1.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux ISTEX

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux donne accès 9707 documents ISTEX (et 9707 après curation).
Logo Paris tram ligne2.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux Pascal / Francis

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de confluence / dédoublonnage

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 152 références, dont 2 venant de Francis, et 150 venant de Pascal.

Après curation le volume est réduit à 150.

Logo Paris tram ligne3.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux Hal Ccsd

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 14 références téléchargées de HAL. Après curation le volume est réduit à 14.
Logo Paris tram ligne4.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux PubMed/Medline

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 60 références ou documents provenance de l'archive PubMed (MEDLINE). Après curation le volume est réduit à 107.
Logo Paris tram ligne5.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 60 références ou documents provenance de l'archive PubMed Central. Après curation le volume est réduit à 60.
Logo Paris tram ligne6.svg
Logo Paris tram ligne4.svg
Logo Paris tram ligne5.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de confluence / dédoublonnage

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 167 références, Après curation le volume est réduit à 163.
Logo Paris tram ligne7.svg
Flux principal
Logo Paris tram ligne1.svg
Logo Paris tram ligne2.svg
Logo Paris tram ligne3.svg
Logo Paris tram ligne6.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux de convergence qui donne accès au serveur

Pour aller sur l'étape de confluence / dédoublonnage

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux fusionne 10 034 références issues des étapes précédentes.

Ce volume est ramené à 10 022 après dédoublonnage par DOI. Enfin, il est réduit à 9 959 par clé de dédoublonnage IDAT.

Zoom France

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 279 références ayant au moins un auteur avec une affiliation française.
Zoom UK

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 760 références ayant au moins un auteur avec une affiliation du Royaume-Uni.
Zoom USA

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 2074 références ayant au moins un auteur avec une affiliation des Etats-Unis d'Amérique.
Zoom Allemagne

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 346 références ayant au moins un auteur avec une affiliation allemande.

Projections géographiques

 

Paramétrage

Nouvelle version

Les corpus

Après un premier essai, les corpus ont été affinés comme suit :

ISTEX : scrum AND (method agil* sprint* cycle)[1]
PubMed : scrum NOT football [2]
PubMed Central : scrum NOT football
Hal : scrum[3]
Pascal / Francis: scrum[4]

Paramétrage

Voir aussi

Notes
  1. On impose la présence de scrum et on ajoute un ensemble de termes permettant à ElasticSearch de faire monter les scores des documents effectivement relatifs à la méthodologie scrum
  2. On écarte les documents contenant football tout en laissant le rugby pour retenir les documents méthodologiques pouvant faire allusion à la mêlée de rugby.
  3. Compte tenu de son faible volume et d'un bruitage léger le corpus a été miantenu en l'état
  4. Corpus bruité mais qui permet de guider une curation au niveau du serveur par les ISSN